宇宙链 宇宙链
Ctrl+D收藏宇宙链
首页 > 火必APP > 正文

ChatGPT类应用服务 数据合规有特殊性吗?

作者:

时间:1900/1/1 0:00:00

王融 腾讯研究院首席数据法律专家

本期观点摘要:

1. ChatGPT等AI应用服务商直接面向个人提供服务,收集并处理个人信息,可被视为个人信息保护合规主体——数据控制者。

2.与移动互联网APP的典型场景相比,生成式AI服务商的个人信息处理活动有其自身特征,数据合规重点也有所不同。

3.根据GDPR,欧盟数据保护机构(DPA)是监管机构,而非市场准入机构,其职责主要在指导督促企业满足数据合规要求。

4.未来真正的挑战来自于AI赋能的各类应用服务,解决新的数据安全问题需要新思维。

并非所有的市场主体都是数据合规框架下的义务主体,需要根据技术原理、业务场景和法律规范来进一步确定。当主体身份重合时,也需基于不同业务流程匹配合规义务。基于此分析框架,我们在上一篇文章里详细论证了大模型研发者,在模型研发阶段有可能并不认定为隐私数据合规上的法律主体(data controller)。

基于同样的分析框架,我们认为面向C端个人用户提供生成式AI服务的运营者可被认定为隐私数据合规上的数据控制者。例如,当OpenAI在2022年11年面向公众发布ChatGPT应用服务,并在2个月内突破1亿用户,成为历史上增长最快的消费者应用时,作为数据控制者的身份已确定无疑。

事实也如此。从国外实践看,目前已面向个人的AI应用服务商,在数据合规部分已完整配置隐私政策和用户协议,以充分告知用户收集了哪些类型的数据,以及如何处理数据。OpenAI在隐私政策中列举了收集类型;包括账户信息、通信内容、使用记录等;数据处理的目的包括但不限于:提供、改进服务,预防欺诈,网络信息安全、履行法定义务所需等。类似的,面向公众的图片生成AI服务商Midjourney 也提供了清晰明了的隐私政策。国内目前虽然没有正式上线的产品,但已有部分厂商在测试版本中嵌入隐私政策。

观点:ChatGPT每天运行开销达70万美元:4月21日消息,据《科创板日报》消息,芯片行业研究公司SemiAnalysis首席分析师迪伦?帕特尔表示,由于ChatGPT运行在价格昂贵的计算基础设施之上OpenAI每天为运行ChatGPT投入的成本可能高达70万美元。帕特尔指出,ChatGPT需要庞大的算力,才能基于用户的输入信息做出反馈,包括撰写求职信、生成教学计划,以及帮助用户优化个人资料等。他表示,大部分成本都来自于昂贵的服务器。[2023/4/21 14:17:53]

这也就不难解释为什么数据保护机构DPA是第一批入场的监管机构。3月31日,意大利数据监管机构Garante宣布暂时禁止ChatGPT,并要求OpenAI 在20天内相关问题作出回应。这是数据监管机构DPA对一项新兴应用的正常反映,但被误读为DPA可以对特定业务采取永久性措施。相反,根据欧盟GDPR,DPA虽然有天价处罚权,但其职权被严格限制在矫正性权力范围内,包括建议,警告以及暂时性的或者具有明确期限的禁令。换言之,只要服务提供者满足数据合规要求,则DPA不得对其采取市场禁入措施。在其临时禁止令受到广泛批评后,4月12日,Garante释放信号:“如果 OpenAI 采取有效措施,我们准备在 4 月 30 日重新开放 ChatGPT”。

与移动互联网相比,面向个人的生成式AI应用在数据合规上有很多相似之处,包括制定隐私政策、业务协议,明确处理用户数据的合法性基础,通过隐私保护设计在信息系统中支持用户围绕其账户信息和使用服务过程中产生的个人信息的相关权利,包括查询、访问、更正、删除等。但一方面,我们更加关注其在个人信息处理活动中的独特性:

ChainSafe 完成 1875 万美元 A 轮融资,Round13 领投:10月18日消息,Web3 基础设施公司 ChainSafe 完成 1875 万美元 A 轮融资,Round13 领投,参投方包括 NGC Ventures、HashKey、Sfermion、Jsquare、ConsenSys、Digital Finance Group 和 Fenbushi Capital 等。

ChainSafe 是一家加拿大公司,目前专注于多链研发和区块链游戏。ChainSafe 表示,这笔资金将用于支持 Web3 技术的发展和采用。(Cointelegraph )[2022/10/18 17:31:00]

第一、收集的个人信息种类相对较少。导航软件、打车、购物等典型的移动APP为实现对用户个性化服务的闭环,需要实时收集用户较多类型的个人信息;而目前的生成式AI应用,以OpenAI和Midjourney为例,从其底层逻辑出发,其更加关注生成内容的质量,在应用服务阶段收集个人信息主要是建立用户账户体系,接受用户指令(prompt)并与之交互,因此收集的个人信息相对较少,包括账户信息(用户名、邮件)、使用记录(cookie等),如果涉及购买服务等交易,则还包括支付信息。因此,Midjourney更是以表格的形式,明确列出了不收集的用户信息种类:包括用户敏感信息,生物识别信息、地理位置信息等等。这些信息对于生成式AI应用确实也无关紧要。

第二、在更早阶段以及更广泛地采取个人信息去标识化以及匿名化措施。在提供服务过程中,生成式AI主要围绕用户账号体系及通信内容构建数据安全防护体系。以ChatGPT为例,尽管在模型训练阶段,其采集的数据源中的用户个人信息较少(且主要为公开信息),但在应用服务阶段,问答式的会话功能会产生较为敏感的通信内容,模型根据与用户通信内容(上下文环境)进一步分析并生成回复。为降低用户通信内容泄露后产生的风险,生成式AI会在更早阶段采取用户身份信息去标识化及匿名技术,或者将用户身份信息与通信内容相互分离,或者在模型生成回复内容后及时删除通信内容等安全类措施。这也是由生成式AI更关注反馈内容,而非用户行为的逻辑所决定,这与建立在用户行为特征基础上,以个性化推荐见长的移动APP有显著差异。

Blockchain Center CEO:加密货币将使一些银行服务“无关紧要”:金色财经报道,Blockchain Center 首席执行官Tadas Maurukas在接受Finbold的独家采访时表示,很高兴看到监管机构正在积极讨论有利于该领域所有参与者的解决方案,而不是像 2017/2018 年那样无视它。鉴于最近区块链和加密技术最近受到的所有关注,他表示当局“更加认真地”对待它并不奇怪。Maurukas 还分享了他对银行的看法,以及他们将如何应对未来的加密竞争。Maurukas表示,从长远来看,一些银行提供的服务将变得完全无关紧要,加密货币鼓励用户成为自己的银行并为自己做出艰难的决定。(finbold)[2022/3/24 14:14:20]

第三、由以上两方面影响,生成式AI与移动APP在数据安全的风险领域有所不同。移动互联网APP需要直接收集大量个人信息,用户数据库易成为黑客攻击和数据泄露的目标。然而,在生成式AI 应用中,虽然其直接收集的用户信息种类少,但其风险集中在模型被攻击从而反向溯源数据库,以及用户通信内容泄露的隐患。意大利数据监管机构对OpenAI发出暂时禁令,即是由于用户通信内容因出现服务bug而泄露的事故。为减轻风险,在技术上已经明显具备先发优势的OpenAI,开始探索支持用户可以选择将个人删除通信记录。4月23日,OpenAI 推出新控件,允许 ChatGPT 用户可以选择关闭其聊天历史记录,且可以不用于模型训练目的。

第四、在输出阶段,如果用户引导的问题涉及个人信息时,基于大模型的语言预测生成的算法逻辑,输出结果中的个人信息有可能是编造的,虚假的,这可能违反了个人信息保护法上的信息质量原则,即保持个人信息准确性要求。但这类问题的背后实质是生成式AI在内容治理中面临的一般性问题,即AI进入“幻想”,编造不准确甚至是虚假的信息。

Euterpe COO Charles Cheng:以技术变革版权行业:据官方消息,近日,Euterpe COO Charles Cheng博士受邀为宾夕法尼亚大学贵格创投俱乐部进行了一场主题演讲。他指出传统版权行业面临高昂交易成本和漫长账期等诸多困境,以区块链为核心的新兴技术正在革新版权行业。

面对Web 3.0和元宇宙浪潮,他认为,数字作品的版权运作将具有巨大的市场需求。以NFT为代表的区块链技术与创新的版权法律结构、版权交易模式相结合,将为元宇宙中的内容生态提供强大的动力。[2021/11/30 12:41:07]

OpenAI在研发阶段,即致力于改善和解决此类问题,包括引入人类专家意见反馈机制和强化学习(RLHF),引导AI输出准确内容。目前,部分生成类AI还加入了输入(prompt)+输出双重过滤机制,来进一步避免出现有害内容或侵权问题。尽管大语言模型的进步速度令人瞠目结舌,仅用了4个月,ChatGPT 4相比于GPT3.5,其输出信息的准确率就大幅提升了40%,违反内容政策的输出可能性降低 82%,但目前仍不能保证其生成内容具有可靠的准确性。因此作为用户也应当对ChatGPT的回答保持一定警惕和判断力,避免被误导。

综上,看待生成式AI的数据合规问题,需要从移动互联网服务中的数据合规惯性中跳脱出来,围绕其在隐私和数据安全方面的不同特点,有的放矢采取相应的合规和安全保护措施。

基于大语言模型的生成式AI为世人所瞩目,不在内容生成,而在其所具有的通用人工智能(Artificiall general interlligence,AGI)潜力,业界惊呼:AGI的奇点时刻正在到来。未来,除了面向普通大众的内容生成式AI应用外,业界普遍认为AI也将改写互联网范式。现有商业模式将广泛引入AI智能模型,大幅提升用户交互效率。这不是将来时,而是进行时。2023年3月17日,微软发布Microsoft 365 Copilot,将大语言模型(LLM)功能与微软办公应用相结合,帮助用户解锁生产力。

动态 | 富达慈善机构Fidelity Charitable自2015年共收到超1亿美元的加密货币捐款:据CoinDesk消息,富达慈善机构Fidelity Charitable于上月末发布年度报告表示,自2015年以来其共收到超1亿美元的加密货币捐款。[2019/8/19]

Copilot将会被内置到办公全家桶内,在Word、Excel、PowerPoint中,AI将与个人通过便捷的语言交互,一起撰写文档,演示文稿,实现数据可视化;在Outlook,Teams ,Business Chat中,AI能够帮助用户回复邮件,管理邮箱,实时完成会议摘要和待办事项,提高会议效率。

办公效率的飞越提升,不仅建立在强大的AI模型能力基础之上,更建立在广泛的数据打通链接基础之上,使用Copilot意味着用户将授权微软打通跨越各业务平台的个人数据。正如微软隐私政策所陈述,为实现业务提供,改进和开发产品等目的,微软会从不同的业务环境中(例如在使用两个以上 Microsoft 产品的过程中)收集的数据进行合并。

这只是未来超级数字助理的雏形,在智能基础设施的支持之下,每个人甚至可以拥有多个数字分身,协同完成任务。可以想见,数字助理的背后是大语言模型访问、链接个人以及商业企业的私有数据,数据的融合利用一定是无缝丝滑的。此类数据的访问处理如何以安全、合规、保护隐私的方式进行,对安全技术保障措施提出了更高要求。

图:Microsoft Graph 是 Microsoft 365 中数据和智能的网关。它提供了统一的可编程性模型,以安全便捷地跨业务平台访问数据。

同时,我们也迫切需要审视现有的隐私保护与合规机制。在当前移动互联网个人信息保护实践中,对于必要性原则解释是非常严苛的,以最大程度的避免数据收集与汇聚。例如:《常见类型移动互联网应用程序必要个人信息范围规定》(简称《39类规定》)不仅针对每类应用区分了基本功能和附加功能,还针对基本功能收集的必要信息进行了明确。在大部分基本功能中仅能收集两三类个人信息,例如定位和导航功能仅能收集位置信息、出发地、到达地三种信息;《App违法违规收集使用个人信息行为认定方法》中更是明确:不得仅以改善服务质量、研发新产品等理由收集个人信息。这种基于“严防死守”的数据合规思路在未来的AI应用场景中是否还能继续走下去,是一个值得探讨的问题。

从移动互联网到我们正在步入的AI时代,虽然数据利用一直在向更广更深的方向发展,但各类新技术应用仍将隐私保护作为价值对齐(value alignment)的重要方面。隐私和数据安全的真谛从来也不是对数据的使用进行各种限制,或者人为增加数据利用门槛,而在于通过激烈的市场竞争、健全的法律机制和更加强大的技术安全措施来切实保障用户隐私与数据安全。

参考资料来源:

https://openai.com/policies/privacy-policy

https://docs.midjourney.com/docs?/privacy-policy

https://www.gpdp.it/web/guest/home/docweb/-/docweb-display/docweb/9870832

GDPR  Article 58&Article 83

https://www.reuters.com/technology/italys-data-watchdog-chatgpt-can-resume-april-30-if-openai-takes-useful-steps-2023-04-18/

https://openai.com/blog/new-ways-to-manage-your-data-in-chatgpt

https://openai.com/product/gpt-4

https://news.microsoft.com/zh-cn/microsoft-365-copilot/

https://privacy.microsoft.com/zh-cn/privacystatement

腾讯研究院

企业专栏

阅读更多

金色荐读

金色财经 善欧巴

Chainlink预言机

区块律动BlockBeats

白话区块链

金色早8点

Odaily星球日报

欧科云链

深潮TechFlow

MarsBit

标签:CHAGPTHATCHATCHAMPXGPTchat币行情chat币值得投资吗

火必APP热门资讯
关于BRC-20的8个数据真相 它如何影响比特币生态和矿工收入

BRC-20代币标准由加密社区用户/img/2023525185118/0.jpg" />我们知道,比特币矿工收入来自区块奖励和交易费用,自从BRC-20迎来爆发之后,比特币每笔平均交易费用从5月初就出现大幅增长.

1900/1/1 0:00:00
链游版「像素鸟」Flappy Moonbird 凭何估值 6000 万美元

撰文:Babywhale,Foresight News2014 年,越南独立游戏开发者 Dong Nguyen 开发的小游戏 Flappy Bird 突然暴红,在 100 多个国家 / 地区的榜单一跃登顶,下载量突破 5000 万次.

1900/1/1 0:00:00
Web3 的共同梦想

自人类历史的黎明以来,集体故事一直定义着我们的文化,并丰富了我们对世界的理解;讲故事的人一直是塑造这些叙事的推动力。从塑造早期文明的古代神话和传说到捕捉我们想象力的当代科幻史诗,他们的创作构成了我们共同经历的支柱.

1900/1/1 0:00:00
我如何逃过一场 Azuki 局?

撰文:Kouk.eth 我想要讲述一个故事,我的 Azuki NFT 差点被走。事情开始于一条看似无害的 Discord 消息,有人为我的 Azuki 给出了一个诱人的报价.

1900/1/1 0:00:00
白宫加密货币挖矿税对美国矿工及环境影响几何?

作者:Joshua Gans,多伦多大学罗特曼商学院教授,刊于a16zcrypto;翻译:金色财经0xxz美国白宫最近提议了一项新的挖矿税。他们计划征收的30%的税并非针对采矿业,而是针对加密货币挖矿.

1900/1/1 0:00:00
当年马斯克离开 OpenAI 的真相

在 ChatGPT 的影响下,目前 OpenAI 成为了全球最火爆的 AI 公司。然而回顾过去,它与马斯克之间的恩怨从创立之初就埋下了.

1900/1/1 0:00:00