找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5165

积分

0

好友

666

主题
发表于 3 小时前 | 查看: 4| 回复: 0

AI智能与数据流动的未来科技场景

在《西游记》中,为了让西天取经之路更加顺畅,观音大士给孙悟空戴上了紧箍咒。毫无疑问,当人工智能的能力愈发强大时,业界也需要为前沿AI模型戴上适度的“紧箍咒”以作约束。

当OpenAI带着备受期待的GPT-5.6走入大众视野,迎接它的并非全然是欢呼与掌声,而是一道来自美国政府的临时“封印”。这款顶尖的前沿模型,被迫将大部分普通用户拒之门外。这并非孤例,就在两周前,其竞争对手Anthropic的两款前沿模型也因政府强令而下线。面对能力日益强大、风险与日俱增的前沿AI,如何平衡安全与发展,已然成为当下行业最核心的时代命题。

需要政府管制的AI模型

上周五,OpenAI发布了新一代模型GPT-5.6,但新模型并未完全对外开放。OpenAI表示,应美国政府要求,该公司正将其最新AI模型的发布范围限制在“一小部分值得信赖的合作伙伴”之中,暂不向所有用户开放。

近期,美国政府正不断向AI公司施加新压力,发布管制指令,并在一个月内两次介入前沿AI模型的发布。根据6月2日签署的行政命令,美国政府正在制定一套流程,用于在新AI模型发布前对其进行基准测试和评估。两周前,尽管Anthropic遵守了政府的自愿审查流程,并根据政府反馈增加了防护措施,但政府仍迫使该公司撤销了Claude Fable 5和Claude Mythos 5的访问权限,致使两款前沿模型对全球所有用户下线。

这一事件引发了关于政府在AI模型发布方面应拥有多大权力的质疑。前白宫AI顾问、即将加入OpenAI的Dean Ball指出,特朗普总统最近签署的行政命令,即要求某些AI公司在发布前最多30天内自愿提交其最先进的模型供政府审查,实际上为前沿AI建立了一种事实上的非自愿许可制度,导致了强硬的限制措施。

OpenAI如此积极配合政府对模型进行限制发布,也是情非得已。想必是目睹了Anthropic的遭遇,因此选择在模型发布前就主动交出控制权,以免在模型发布后才被迫将其下线。

该公司在一篇博客中也明确表达了对政府限制的不满。“我们认为,此类政府审批流程不应成为长期常态,”OpenAI表示,“这会使用户、开发者、企业、网络安全防御者以及全球合作伙伴无法获得他们最需要的工具。”

OpenAI表示,其“主张广泛开放访问”,并正在努力确保最新模型在未来几周内向公众开放。该公司表示正与政府合作,共同建立评估的框架,并制定“未来模型发布的可重复流程”。

另一边,OpenAI的竞争对手Anthropic目前正与华盛顿特区的官员进行积极磋商,并在GPT-5.6发布的同一天对外表示,美国政府已经批准其向部分美国本土可信机构开放Claude Mythos 5模型。另有熟悉监管指令的消息人士称,政府计划很快允许其开放Claude Fable 5模型。

OpenAI和Anthropic两大AI领军者在前沿模型发布上受管控,引发了广泛关注和讨论,这标志着AI技术的发展走入了全新阶段。随着前沿AI模型越来越强大,安全风险也随之水涨船高,被滥用后造成的危害会越来越大,确实需要一定的管制。但不能简单粗暴地“一封了之”,如何在安全与发展之间取得平衡,这是一个极富挑战的时代命题。

GPT-5.6有何不同?

GPT-5.6一直备受期待,推出时却被迫临时封印,无法让大部分人亲身体验“见证奇迹的时刻”,难免有些遗憾。网上也有人觉得,OpenAI宣称GPT-5.6“能力如此强大,以至于我们不得不与政府协调”,这种说法听起来更像是极尽吹捧的营销话术。

然而,如果你看过官方披露的内容,就能明显感受到GPT-5.6的强大,也就能理解为何要围绕网络安全采取这么多谨慎措施了。

GPT-5.6是OpenAI的最新一代模型,它是一个系列,由GPT-5.6 Sol、Terra和Luna三个模型组成,并采用了全新的命名规则。其中,数字代表代数(5.6),后面的名称代表能力等级(Sol、Terra、Luna)。有分析称,新命名规则使每个等级都可以按照自己的时间表独立进行升级迭代,更加清晰、灵活。其竞争对手Anthropic Claude很早就采用了类似的命名规则,根据模型能力分为Haiku、Sonnet、Opus等名称。

据悉,模型新名称源于拉丁语,Sol意为太阳,Terra意为地球,而Luna意为月亮。这是OpenAI首次用天文学给AI模型命名,也能看出该公司对新系列模型寄予厚望。

具体来看GPT-5.6的三个模型:

  • GPT-5.6 Sol:该系列的旗舰模型,性能最强、能力最为全面,并引入新的Max推理强度,以及借助子智能体加速复杂任务的Ultra模式。
  • GPT-5.6 Terra:一款均衡且适用于日常工作的模型,性能与GPT-5.5相当,但成本仅为其约一半。
  • GPT-5.6 Luna:主打快速与低成本,面向高吞吐量、对延迟敏感或注重预算的工作负载。

TerminalBench 2.1基准评分对比图

在编程场景的Terminal-Bench 2.1测试中,GPT-5.6 Sol得分88.8%,高于Claude Mythos 5的84.3%,以及上一代自家模型GPT-5.5(88%)。在GPT-5.6 Sol Ultra模式下,更是获得了91.9%的高分,有力地证明了子代理方法的有效性。

GPT-5.6 Sol在生物学工作流方面也展现出全面提升。在评估长期基因组学和定量生物学分析的GeneBench v1测试中,它使用更少的token便取得了比GPT‑5.5更优异的成绩。

OpenAI表示,GPT-5.6 Sol是其迄今为止在网络安全领域能力最强的模型,该模型重新定义了长期安全任务(包括漏洞研究和利用)的性能-效率边界。

ExploitBench性能对比折线图

在ExploitBench测试中,GPT-5.6 Sol仅使用了约1/3的输出token,便与Mythos Preview表现相当。

ExploitGym意图利用能力趋势图

在由加州大学伯克利分校的研究人员与OpenAI及其他前沿实验室合作创建的ExploitGym测试中,随着推理能力的提升,GPT-5.6 Sol、Terra和Luna模型在网络安全能力方面均展现出显著提升。

OpenAI在发布公告中,着重强调了针对新模型的安全防护措施。该公司表示,没有任何单一的安全防护措施能够抵御蓄意或适应性滥用,因此他们采用了多层防护并针对现实世界中的攻击进行了压力测试。在GPT-5.6预览版中,这些防护层级包括:模型内置的防护机制、生成过程中的实时检查、账户级审查机制、差异化访问权限、监控、强制执行以及持续测试。

例如,通过训练模型内置的防护机制,会拒绝提供被禁止的网络协助,包括用户试图掩饰意图或“越狱”模型的情况。而在生成过程中,实时网络和生物滥用分类器通过在生成过程中评估输出内容,提供了另一层防护。对于高风险案例,如果检测到潜在违规行为,生成过程可能会暂停,同时由更强大的推理模型审查对话,如果输出内容被评估为不允许,则会在到达用户之前被拦截。

OpenAI表示,这些防护层共同作用,使整体方案比任何单一防护措施都更加稳健。同时,为了强化上述所有措施,OpenAI在安全方面投入了异常庞大的计算资源,超过70万个A100等效GPU小时进行红队测试,以提升鲁棒性。

小结:“紧箍咒”的作用是约束而非扼杀,平衡才是答案

OpenAI新模型的受限发布与Anthropic模型的临时下线,是前沿AI高速发展进程中,技术创新与政府监管博弈的真实缩影。如今顶尖AI模型的能力持续突破,在网络安全、生物分析等专业领域展现出颠覆性潜力,既能成为赋能各行各业的强大工具,也暗藏着被滥用、引发安全风险的隐患。这也让AI监管成为全球科技发展的核心命题。

在《西游记》中,为了让西天取经之路更加顺畅,观音大士给孙悟空戴上了紧箍咒。毋庸置疑,强大的前沿AI模型也需要适度的“紧箍咒”进行约束。

然而,“紧箍咒”的作用是约束而非扼杀,审批流程不应演变为无限期的变相禁令。OpenAI与Anthropic这对“难兄难弟”的处境表明,与其在发布前夕仓促叫停,不如尽快构建一套公开透明的评估框架:明确红线在哪里、评测如何开展、限制何时解除。唯有将临时管控转化为制度规范,才能让企业在安全投入上有的放矢,让开发者和用户在等待中有确定性,也让“紧箍咒”真正成为安全护栏,而非创新枷锁。

AI的前行不会止步,政府的介入也不会消失。真正有挑战的,不是简单戴上“紧箍咒”,更需要考虑:怎么戴“紧箍咒”,怎么念咒,什么时候念咒。尽早寻找到那个既不让孙悟空头疼、也不让妖怪横行的力度,这需要技术方、监管者和公众持续对话,在动态博弈中校准平衡。毕竟,“紧箍咒”的终极意义,从来不是束缚,而是确保那条取经之路,能平安走到终点。

云栈社区,开发者们也在持续关注并探讨AI技术演进与合规发展的平衡之道。这场创新与安全的博弈,没有旁观者,每个人的思考都将影响未来技术秩序的构建。




上一篇:Loop Engineering:让AI自我迭代的自动化系统设计方法
下一篇:XSKY AIMesh 2026 发布:AI 数据基础设施如何打通全链路流转
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-7-1 03:19 , Processed in 0.591621 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表