【内容摘要】生成式人工智能的技术跃进架空了个人信息处理的告知同意规制和最小必要原则,引发了虚假信息生成和个人信息泄漏的广泛风险迭代问题。传统个人信息的权利保护路径面临认知和结构困境,无法应对生成式人工智能给个人信息保护带来极大挑战。以风险控制为导向的个人信息保护机制不强调信息主体对个人信息的绝对控制,旨在通过识别、评估、分配和管理将风险控制在最小范围内,可以灵活和实用地平衡生成式人工智能应用中的信息利用和风险控制,提供有效的解决方案。在风险控制理念下,对告知同意规则和最小必要原则进行风险化解释与调试,并建立从预防到识别再到控制的虚假信息生成风险的全过程应对机制,以及基于风险的个人信息保护合规管理体系,是当前的最优选择。
【关键词】生成式人工智能 ChatGPT 个人信息保护 风险控制
文章来源:《政法论丛》2023年第4期
因篇幅所限,省略原文注释及参考文献。
在2023年初,ChatGPT凭借其卓越的自然语言处理能力成为人工智能领域的重要里程碑,引起了社会生产生活和未来科技发展的颠覆性变革。然而,以海量语料库数据为基础的生成式人工智能在为社会带来积极变革和影响的同时,也引发了诸多个人信息保护层面的问题。2023年3月20日,ChatGPT发生了一起严重的信息安全事故,部分用户的聊天记录片段、用户信用卡信息(包括最后四位数字、到期日期)、姓名、电子邮件地址和付款地址等敏感信息遭到泄露。3月31日,意大利数据保护当局GPDP宣布,由于OpenAI未经同意收集、使用和披露个人信息,即刻对ChatGPT施加暂时限制,成为全球范围内第一道针对ChatGPT的政府禁令。而当前诸多迹象预示生成式人工智能应用即将迎来大规模普及。这意味着,生成式人工智能给个人信息保护带来的潜在风险可能伴随人工智能技术的发展而持续发酵。为促进生成式人工智能的健康发展与规范应用,国家网信办联合国家发展改革委、教育部、科技部等七大部门于2023年7月13日公布《生成式人工智能服务管理暂行办法》,并自2023年8月15日起施行。人类社会在迎接新兴人工智能科技发展同时,须直面与冷静审视生成式人工智能技术的正当性,须前瞻性思考、设计与配置与之匹配兼容的个人信息保护系统制度。
一、生成式人工智能开发凸显个人信息保护风险
以ChatGPT为代表的生成式人工智能产品首先于2022年底在美国推出,目前已被广泛用于智能办公、智慧科研等许多领域,或将成为推动第四次工业革命的关键因素。从生成机制来看,生成式人工智能本质上是一种“生成型预训练语言转换器”。生成式人工智能技术服务提供者通过各种方式收集海量数据来形成语料库,再通过连接大量的语料库来训练模型,以使其能够学习和理解人类语言,并进行交流对话和内容生成。这一过程中伴随着循环式的数据收集与分析,涉及大量的个人信息处理活动,无疑将给个人信息保护带来相应风险及多重挑战。
(一)告知同意规则被架空的风险
告知同意是我国个人信息处理的核心准则,这一规则要求信息处理者在处理个人信息时须履行告知义务,并征得信息主体明确同意,方可进行处理,其目的在于确保信息主体对其个人信息的处理过程具有充分的控制权和知情权。《网络安全法》一度将告知同意作为个人信息处理的唯一合法性基础,后来颁布的《个人信息保护法》尽管规定了更加多元化的合法性基础,但仍保留了告知同意基础性的地位。然而,在生成式人工智能的开发和应用过程中,尤其是语料库构建与更新的过程中,告知同意规则往往无法得到有效的贯彻。
生成式人工智能语料库的构建与更新可以分为被动和主动两种类型。被动的语料库构建与更新指大量用户通过对话框自行输入信息,系统自动将该类信息保存并纳入语料库。生成式人工智能技术的高度自动化和复杂性特点使得其难以在自动收录用户个人信息时向信息主体提供充分、全面的告知,让信息主体完全了解个人信息的处理过程和结果,从而造成对告知同意规则的违背。以ChatGPT为例,OpenAI的服务条款规定OpenAI可以广泛使用用户输入和输出的内容,将其纳入语料库并用于改进ChatGPT。ChatGPT用户在首次注册账号时将收到来自系统的个人信息收集提示,用户点击弹窗下方“下一步”即视为对其个人信息收集的同意许可。然而,从弹窗提示和OpenAI隐私政策具体内容来看,均只涉及到基本的信息收集事项,不涉及具体的个人信息处理方式和算法规则,而这恰恰是生成式人工智能个人信息处理中最为关键的内容。尤其是在语料库模型训练方面缺乏透明度和公开性,这导致用户无法全面了解其个人信息的处理流程、用途、保存期限等关键信息,从而无法判断自己的信息是否被合理使用和保护。可见,OpenAI在收集用户个人信息时未完全履行告知义务。同时,由