大型科技公司曾因抓取海量公共互联网数据训练AI模型而引发广泛争议。如今,随着能够执行任务的人工智能代理的兴起,下一次数据争夺的焦点可能转向更具私密性的个人数据。
多年来,使用谷歌、Facebook、微软等公司“免费”服务的隐形成本,是让渡个人数据。将生活上传至云端并使用免费技术虽然便捷,却也把个人信息交给了那些惯于从中牟利的商业巨头。当前,下一代生成式人工智能系统对获取你数据访问权的渴望,可能比以往任何时候都更甚。
过去两年间,以OpenAI的ChatGPT和Google的Gemini为代表的生成式人工智能工具,已从最初相对简单的纯文本聊天机器人阶段不断演进。如今,大型AI公司正大力构建并推广所谓的“智能体”或“助手”,它们承诺可以代表用户执行操作、完成任务。核心问题在于:为了最大化其效用,用户需要授予它们访问自身系统和个人数据的权限。如果说早期围绕大语言模型的争议集中在复制受版权保护的数据上,那么AI代理对个人数据的深度访问,很可能引发一系列全新的隐私与安全担忧。
“为了实现全部功能、能够接入各类应用,AI代理通常需要获得运行设备的操作系统或系统层面的访问权限,”艾达·洛夫莱斯研究所的高级研究员哈里·法默指出。他的研究涵盖AI助手的影响,并发现这些系统可能对网络安全和隐私构成“严重威胁”。法默表示,为了实现个性化服务,用户往往需要在数据上做出妥协。“所有这些功能都需要获取大量关于你的信息才能正常运行。”
尽管AI代理并无严格统一的定义,但它们通常被理解为具有一定自主性的生成式人工智能系统或大语言模型。目前,包括AI网络浏览器在内的代理或助手,已能控制你的设备,执行如网页浏览、航班预订、信息研究或添加购物车商品等任务。某些更为先进的代理甚至能够完成包含数十个步骤的复杂工作流。
尽管当前的AI代理仍时常出错,无法可靠完成任务,但科技公司坚信,随着系统能力提升,它们将从根本上改变数百万人的工作方式。而其实现效用的关键,很可能在于数据访问权限。例如,一个能为你安排日程和任务的管理系统,必然需要访问你的日历、短信、邮件等敏感信息。
一些已发布的高级AI产品和功能,揭示了智能体可能被赋予的广泛权限。某些面向企业开发的智能体可以读取代码库、电子邮件、数据库、Slack消息、Google Drive中的文件等。微软曾引发争议的“Recall”功能会定时截取桌面屏幕,以便用户回溯所有操作。Tinder则开发了一项AI功能,通过扫描用户手机相册来“更好地理解”其“兴趣与个性”。
牛津大学副教授、作家卡丽莎·维利兹表示,绝大多数情况下,消费者根本无法验证科技公司是否如其宣称的那样处理数据。“这些公司存在滥用数据的历史,”维利兹说,“它们已经证明自己并不尊重隐私。”
现代AI产业的数据伦理记录并不光彩。自2010年代初机器学习与深度学习突破以来,“更多数据带来更好模型”的认知,引发了一场愈演愈烈的数据军备竞赛。人脸识别公司如Clearview从网络抓取了数以亿计的人脸照片;谷歌曾仅支付5美元报酬来收集人脸扫描数据;甚至有报道称,一些政府机构使用受剥削儿童、签证申请人乃至死者的图像来测试其系统。
几年后,数据饥渴的AI公司为构建大语言模型和生成式AI系统,大规模抓取网络信息、复制数百万书籍——通常未经许可或付费——并将此模式扩展到智能体领域。在耗尽了网络上易得的公开数据后,许多公司开始将使用用户数据训练AI设为默认选项,迫使人们“选择退出”而非“选择加入”。
尽管注重隐私的AI系统正在研发,且部分隐私保护措施也已实施,但大部分数据处理仍将在云端进行。数据在不同系统间的流转带来了新的风险。一项由欧洲数据监管机构委托的研究概述了与AI系统相关的多种隐私风险,包括:敏感数据可能被泄露、滥用或截获;系统可能在缺乏足够保护的情况下将敏感信息传输至外部;以及整个数据处理过程可能违反隐私法规。
“即便假设你本人真心同意,并完全了解自己的数据如何被使用,但与你互动的他人可能并未同意,”维利兹副教授补充道。“如果系统能访问你的全部联系人、邮件和日历,而当你联系我时也获取了我的信息,那么他们实际上也在访问我的数据,而我并不希望如此。”
代理行为还可能威胁现有的安全防护机制。所谓的“提示注入攻击”,即将恶意指令嵌入给大语言模型读取的文本中,可能导致数据泄露。如果一个代理被授予对设备的深度访问权,它将对该设备上存储的所有数据构成潜在威胁。
“通过操作系统代理实现全面渗透和隐私彻底丧失的未来尚未到来,但这些公司正大力推动这一趋势,且未给开发者提供拒绝的途径,”加密通讯应用Signal所属的Signal基金会主席梅雷迪思·惠特克今年早些时候表示。她认为,能够访问设备或操作系统上一切内容的代理,对Signal这类应用层面的隐私构成了“生存威胁”。“我们呼吁的是为开发者建立明确的退出机制,让他们能明确表示:‘如果你是代理,请勿触碰我们。’”
艾达·洛夫莱斯研究所的法默最后提醒,对于个人用户而言,许多人已经与现有聊天机器人建立了紧密联系,并可能在此过程中分享了大量敏感数据,这使得这些系统与以往不同。“在使用这类系统处理个人数据时,必须谨慎权衡其中的利弊,”法默总结道。“它们当前的商业模式,很可能与未来采用的模式截然不同。”