
OpenAI 正式宣布启动一项全新的公共“安全漏洞赏金计划”(Safety Bug Bounty),旨在系统性地识别其产品中可能存在的AI滥用行为和独特的安全风险。该计划将托管在第三方平台 Bugcrowd 上,这一举措标志着科技公司在应对超越传统网络安全范畴、但具有现实危害潜力的新型风险方面,迈出了关键一步。
简单来说,这项计划旨在对 OpenAI 已有的“安全漏洞赏金计划”(Security Bug Bounty)进行补充。它专门接收那些不符合传统安全漏洞定义(如代码执行、SQL注入等),却可能导致重大滥用或安全风险的报告。所有提交将由 OpenAI 的安全团队与漏洞赏金团队共同评估,并根据问题的具体性质和所有权,在“安全”与“安全漏洞”两个计划之间进行流转分配。
重点关注的AI特有风险类别
那么,这个新计划到底关心哪些问题?它主要聚焦于以下几类由AI系统特性所引发的安全场景:
1. 包含MCP的Agentic风险
这一类别涵盖了涉及第三方提示注入和数据外泄的场景。具体而言,指的是攻击者能够通过可控的输入文本,可靠地“劫持”受害者正在使用的 AI Agent(例如 ChatGPT 内置的 Agent、基于 OpenAI API 开发的浏览器 Agent 等),使其执行有害操作或泄露敏感的用户数据。一个关键的评估标准是:该攻击行为必须能在至少50%的情况下成功复现。此外,关于 Agentic 产品大规模执行被禁止或具有潜在危害行为的报告,也属于这一范畴。这凸显了业界对Agentic风险的日益重视。
2. OpenAI专有信息泄露
研究人员可以报告那些导致模型在生成内容时,无意中暴露出其内部推理过程相关专有信息的漏洞。同时,任何可能导致其他 OpenAI 机密数据泄露的弱点也在报告范围内。
3. 账户与平台完整性弱点
此类别针对的是用户账户和平台本身完整性保护机制中存在的缺陷。例如,能够绕过反自动化检测措施、操纵账户的信任评分信号,或者规避账户限制、暂停乃至封禁处罚的方法。
OpenAI 也对计划的边界做出了明确界定。那些仅仅能诱导模型输出粗俗语言或公开可用信息的“一般性越狱”行为,将不被考虑。同样,没有明显安全或滥用影响的通用内容策略绕过行为也被排除在外。不过,OpenAI 表示会定期针对特定的高危威胁类型(例如在 ChatGPT Agent 或未来的 GPT-5 中生成涉及生物安全风险的内容)开展私密的漏洞赏金活动,并在这些专项计划开放时邀请研究人员申请。
对于能够实现未经授权访问系统功能、用户数据或超出许可权限的经典安全漏洞,研究人员仍应提交至原有的“安全漏洞赏金计划”。
这项新计划的推出,反映了整个行业逐渐形成一个共识:AI 系统引入了前所未有的新型攻击面,这是传统安全框架难以有效覆盖的。通过激励安全研究社区同时关注传统漏洞和 AI 特有风险,OpenAI 正在尝试为应对 AI 安全威胁建立一个更加结构化的应对框架。
有兴趣参与的研究人员,可以直接通过 OpenAI 在 Bugcrowd 平台上的专属页面进行申请。
参考来源:
OpenAI Launches AI Safety Bug Bounty to Detect AI-Specific Vulnerabilities
https://cybersecuritynews.com/openai-safety-bug-bounty/
|