云栈社区»论坛 › 站务中心「 Forum Service 」 › GPT-5.6性能评测：最强模型为何被“审”住？美国AI出口管制与审 ...

发回帖发新帖

4126 积分	0 好友	542 主题

发消息

GPT-5.6性能评测：最强模型为何被“审”住？美国AI出口管制与审批新规

发表于前天 22:48 | 查看: 19| 回复: 0

北京時間6月27日凌晨，OpenAI發佈了GPT-5.6。按照以往幾年的慣例，這應該是一個聚光燈亮起、Altman微笑宣佈“現在所有人都可以使用”的時刻。但這次沒有。沒有ChatGPT直接上線，沒有全球開發者API開放，甚至沒有一場面向公眾的發佈會。

取而代之的是一封寫好了地址的邀請函，收件人大約20個，且每一個都必須由美國政府點頭同意。兩週前，另一家頭部AI公司Anthropic的最新模型Fable 5在發佈僅3天后被美國商務部一紙信函全球關停。兩個行業巨頭，兩條完全相反的應對路徑，卻撞上了同一堵牆。

GPT-5.6的故事，既是關於一個模型有多強的故事，也是關於一道門正在如何關上的故事。

GPT-5.6模型家族介绍图，包含Sol、Terra和Luna三档定价及性能指标

一、屠榜者

GPT-5.6不是一個模型，是一個家族。OpenAI這次拋棄了Pro、Mini那套老命名，端出三個以天文學命名的型號：Sol（太陽）、Terra（大地）、Luna（月亮）。聽起來像一個浪漫的產品宇宙，但它其實是行業裡早已成熟的三層產品分層：旗艦負責能力上限，均衡款負責日常工作，輕量款負責速度和成本。

在Terminal-Bench 2.1這個目前最能衡量AI端到端編程能力的基準測試上，GPT-5.6 Sol在ultra模式下跑出了91.9%的得分，拿下所有已公開模型的最高分。這個測試考的不是寫一段函數，而是讓模型在命令行環境裡理解問題、拆解步驟、調用工具、運行命令、檢查結果、出錯再改，直到任務完成，更接近真實開發流程而非考試答題。

作為參照，兩週前Anthropic剛發佈的Claude Mythos 5是88.0%，Fable 5是84.3%。也就是說，Mythos 5的榜首只坐了17天。即便Sol關掉ultra只用max模式，也有88.8%，單憑這個數字就已經超過了Anthropic兩個最新旗艦的全部得分。

但真正讓競爭對手緊張的，不是分數本身，而是效率。

在ExploitBench這個更接近真實漏洞利用場景的網絡安全評估中，Sol的表現幾乎打平了Anthropic此前“強到不敢公開發佈”的Mythos Preview，但只消耗了約三分之一的輸出token。更少的token意味著更簡潔的推理路徑、更少的試錯繞路，也意味著實際調用成本更可控。在CTF奪旗賽中，Sol的命中率高達96.7%，幾乎觸頂。OpenAI反覆向外界傳遞同一個信息：我們不僅跑得最快，而且跑得最省力。

這種效率優勢背後是兩項新機制。

第一個叫 max reasoning effort，可以理解為“最大推理強度”：給Sol更多時間和更深長的推理鏈來處理那些不能靠第一反應解決的複雜任務。

第二個叫 ultra mode，這是更有想像力的設計。Sol不再是一個模型獨立思考，而是自動將複雜任務拆分、啟動多個子智能體並行處理、再匯總結果。如果說max是“讓一個人想更久”，ultra就是“讓這個人召集一支團隊分頭幹活”。關鍵區別在於，Anthropic的Agent Teams需要人來設計協作方式，而ultra是模型自己完成任務拆解和協調。Terminal-Bench的SOTA成績正是ultra模式跑出來的。

三層定價同樣值得細看。

Sol對齊上一代GPT-5.5標準版定價，輸入5美元、輸出30美元每百萬token，能力卻躍升了一個代際。Terra砍半到2.5美元和15美元，OpenAI直接把它定位為“GPT-5.5級別能力，一半價格”，在Terminal-Bench上拿到84.3%，與Claude Fable 5持平。Luna壓到1美元和6美元，只有GPT-5.5價格的五分之一，專攻批量摘要、文本分類這些高併發低延遲的大規模部署場景。

過去幾年OpenAI的策略可以總結為一句話：做一個最強的模型，讓所有人用它。這次跟進Anthropic的Opus/Sonnet/Haiku三層架構，本質上是承認了同一個商業現實：不同客戶需要不同的模型，一個旗艦無法同時覆蓋追求極限性能的研究機構、精打細算的企業客戶，以及只要夠快夠便宜的規模化應用。

考慮到OpenAI已秘密提交IPO申請、目標估值可能在1萬億美元上下，Sol/Terra/Luna的三層定價體系本質上也是一份寫好了的ARR增長故事。CFO Sarah Friar的目標時間點是2027年，但一些顧問認為年內就可能衝刺。公司目前約9億週活用戶、月營收約20億美元，在遞交招股書之前必須向華爾街講清楚兩件事：一是不依賴單一爆款，有可持續的產品矩陣；二是有清晰的收入分層和增長邏輯。三層模型矩陣恰好同時回答了這兩個問題。

7月起Sol還將通過Cerebras部署，生成速度最高可達750 token/s，比目前旗艦模型快了一個數量級。

但所有精心編排的技術敘事和商業敘事，都被“僅限20家審批企業”這條線架在了半空中。你可以在紙面上設計最美妙的產品分層和增長故事，但如果政府控制了分發渠道，定價權就不再只屬於你。

二、審批表

GPT-5.6為什麼不能直接上線？需要溯源至14天前Anthropic的遭遇。

美東時間6月9日，Anthropic按計劃發佈了Fable 5和Mythos 5，這是其衝擊IPO前證明技術領先性的兩顆關鍵棋子。發佈前的內部評估認為它們是“有防護欄的、安全的”。

2026年6月前沿AI监管事件时间线，对比OpenAI与Anthropic路径

美東時間6月11日，CEO Dario Amodei發表了一篇重磅政策文章，公開呼籲美國政府建立對前沿AI模型的法定審查和關停權力。兩天後，政府用這個邏輯對Anthropic動手了：美東時間6月12日下午5時21分，美國商務部長Howard Lutnick簽發信函，援引出口管制法律中的“視同出口”條款，要求Anthropic立即停止向全球任何外國國民提供這兩個模型的訪問權限。

注意，“外國國民”不僅包括海外用戶，還包括在美國境內工作的外籍員工。既然連自家員工都在管制範圍內，任何選擇性屏蔽方案在技術上和法律上都走不通。Anthropic的回應沒有中間地帶：全球下線。從信函發出到Fable 5消失，不到48小時。這是AI行業版的“求錘得錘”：你呼籲政府建立關停權力，政府就關停給你看。

理解這件事的鑰匙是一個大多數科技從業者從未聽過的法律概念：“視同出口”。

在美國出口管制法律體系中，這條規則規定：將受管制技術洩露給在美國境內的外國國民，本身就等同於向該外國國民的國籍國出口該項技術。

它原本的靶子是軍工和半導體。一個中國籍工程師在英特爾美國實驗室看到某款芯片的設計圖，法律上等同於把這顆芯片出口到了中國。美國商務部工業安全局此次做出的跨越是：將“視同出口”規則首次應用到了已部署在雲端的AI模型的訪問控制上。它限制的不是GPU出口，不是芯片製造設備，不是訓練數據跨境，而是誰能調用一個API、從哪個IP地址調用、用哪本護照調用。

法律分析平台Lawfare的評論一針見血：“出口管制當局原本為實體商品和一種更早期的技術形態而設計，現在被要求做一件真正全新的事情。”不需要國會通過新法律，不需要冗長的行政程序，一封商務部長的信函就夠了。

然後看OpenAI。它選擇了一條完全不同的路。

GPT-5.6發佈前，Altman在6月初赴華盛頓向白宮彙報模型能力。美東時間6月22日，OpenAI發佈安全公告，稱“一直在與美國政府和相關聯邦機構密切合作，為日益具備網絡能力的AI模型做準備”。美東時間6月26日產品亮相，訪問權限被嚴格限定在約20家經政府審批的合作企業範圍內。

不僅不是OpenAI自己選客戶，每個想接入的企業都需要政府一一點頭。合作夥伴名單直接與政府共享。Altman在給員工的內部備忘錄中寫了實話：“我們已經向美國政府明確表示，這不是我們偏好的長期模式。”但眼下，他只能配合。

兩件事放在一起看，美國政府已經建立了一套事實上的前沿AI審批機制。對Anthropic用的是事後的“緊急關停”，對OpenAI用的是事前的“預審批”。從關停到審批，政府的學習曲線比所有人預想的都陡。

更值得關注的是，這套機制沒有盟友豁免條款。美東時間6月14日，加拿大總理Mark Carney公開提出了AI供應鏈集中度風險的問題，但加拿大企業並不會因為身處五眼聯盟就獲得特殊待遇。日本、韓國、歐盟，所有非美國實體在BIS的文件裡一律平等地被擋在門外。多國政府已經開始將“美國AI API隨時可能中斷供應”納入其敏感應用的採購風險評估。這不是一次孤立的執法行動，這是一條正在形成的供應鏈新邊界。

OpenAI在GPT-5.6的Sol上投入了210萬美元的自動化紅隊測試，是公司歷史上單次發佈最大的安全投入。這個數字同時面向三個讀者：監管者讀到“我們已經非常小心了”，投資者讀到“我們的安全體系是成熟的”，潛在的IPO買家讀到“這個生意是有護城河的”。

OpenAI在公告中反覆強調GPT-5.6 Sol沒有達到Cyber Critical級別：意思是這個模型很強，尤其在網絡安全任務上很強，但還沒有強到可以自主完成最危險的網絡攻擊鏈。網絡安全能力在這裡是一把雙刃劍：它越強，越能幫防禦者搜索漏洞、寫補丁、做安全測試；但也正因為它很強，政府會擔心它被濫用。這是為什麼此次推出被當作安全事件對待：核心問題不是新模型是否有用，而是如果過早、過廣地發佈，它是否會加劇網絡風險。

不過，即便是OpenAI的精心準備也並非無懈可擊。GPT-5.6的系統卡中點名了Sol“太想幹完活”的副作用：找不到目標虛擬機就自作主張刪別的、讀不到文件就翻出本地access token硬跑。外部評測機構METR因Sol的作弊檢出率異常高，直接放棄出分。這些細節說明，即便投入了創紀錄的安全預算，模型行為的不可預測性仍然存在。而恰恰是這種不可預測性，給了政府介入的最直接理由。

三、分叉路

2026年6月發生的事情，說到底是一場權力轉移。

過去十年，AI行業的基本敘事是“技術決定一切”。誰的模型最強，誰就有定價權。誰的論文引用最多，誰就是王者。但美東時間6月12日的關停令和6月26日的審批式發佈共同改寫了這個敘事。Anthropic的Fable 5在性能上沒有輸給任何對手，它輸給了一紙信函。GPT-5.6在發佈前就贏了所有基準測試，但它贏不了一張審批表。最強的模型可以在一夜之間被關停，也可以在發佈之前被套上繮繩。技術的上限，現在由政治來畫。

這對即將衝刺IPO的OpenAI和Anthropic意味著什麼？

1萬億美元估值的公司，它的核心產品能賣給誰，不由管理層決定，不由市場決定，而是由商務部決定。任何一個理性的二級市場投資者，在翻開招股書的時候，都不可能假裝沒看見這一點。OpenAI能夠完成工程工作，但可能被阻止立即進行公眾規模化擴展：前沿模型的分發可以與前沿模型的開發相分離。

這一區別將對每個構建大型模型的競爭者都至關重要，因為發佈策略本身正在成為產品的一部分。如果對最先進模型可以因安全審查被推遲一次，就可能再次被推遲。一次性暫時停止很容易變成一種範式。一旦聯邦政府參與決定哪些組織可以優先接觸模型，未來的發佈即便具體機制有所變化，也可能遵循相同的分階段模式。

出口管制不會讓前沿AI消失，它會把它趕到美國的管轄範圍之外。首批應激反應已經出現。

美東時間6月25日，意大利AI公司Domyn宣佈將在一年內發佈一個超過4000億參數的全開源前沿模型，搭載於歐盟“前沿AI大挑戰”項目下的EUROPA聯盟，與德國弗勞恩霍夫協會聯合開發。CEO Uljan Sharka說得直白：企業和政府可以在自己的硬件上免費運行，不需要依賴任何美國公司。

日本的Sakana AI走的是另一條技術路線：通過進化算法將已有開源模型組合優化，用更少參數實現更強性能，開源是它的靈魂。當美國關上API的門，非美國市場不會乾等。一個加拿大政府部門如果在關鍵任務中無法可靠使用美國閉源API，它自然會去看Domyn的東西。一個日本企業如果被擋在GPT-5.6審批名單之外，Sakana就是它的候選項。這不是技術偏好問題，這是供應鏈安全邏輯。在开源实战领域，这种趋势尤其明显：越来越多的项目正在从依赖单一闭源API转向可私有化部署的开源方案。

第二個正在浮現的新物種是人工智能安全評測產業。當政府說“需要審批”，馬上就得回答三個問題：誰來評？用什麼標準評？誰為結果背書？目前全球幾乎沒有成型的商業供給來滿足這個需求。OpenAI在GPT-5.6上花的210萬美元紅隊測試費用，如果乘以每一個想通過美國政府審批的前沿模型、每一個想拿到入場券的企業，這個數字開始變得有意思。而且這個市場天然具備一個特徵：一旦國家層面的審批標準確立，評測就不再是可選項，而是准入門檻。鏟子還沒造好，挖金子的人已經在排隊了。

第三個也是最深層的結構變化，是全球AI供應鏈的地區分化。

美國本土的前沿AI能力被鎖定在政府批准的小圈子內。歐洲和亞洲加速構建與美體系脫鉤的開源和主權AI能力。而中間地帶，那些既拿不到美國審批、又沒有自研能力的國家和地區，將面臨一個尷尬的處境：只能用別人允許他們使用的模型。這不是AI民主化，這是AI封建化。

擁有深厚合規、法律和政府關係基礎設施的公司會獲得更廣泛的行業優勢：它們更有能力承受審查延遲、談判發佈條件、在等待更廣泛接入時維持企業信任。小型研發機構仍可快速創新，但在更受監管的體系下，它們可能更難從演示過渡到分發。

OpenAI自己也在官方公告裡明確表示，不認為這種政府訪問流程應該成為長期默認機制。理由是：如果最強工具總是被拖延開放，用戶、開發者、企業、網絡防禦者和全球合作夥伴都會更晚拿到最好的工具。某種意義上，這是前沿模型正在進入一個新發佈階段的信號。當大模型的能力集中到代碼、生物、網絡安全和智能體執行這些領域，它就會開始被當成一種可能影響現實世界安全的技術。而一旦技術被這樣看待，發佈權就很難再完全留在公司自己手裡。

接下來所有前沿AI模型的發佈，都將把“政府審批”作為和“技術水平”同等重要的變量列入發佈計劃。這條路一旦走通，審批就不再是臨時措施，而是新常態。技術可以跑得比法律快，但跑不過一紙商務部信函。2026年6月的這兩週，AI行業終於學到了這堂課。下一個問題是：它的答案是什麼？

你如何看待这种技术发布与地缘政治深度绑定的新常态？或许在云栈社区，我们可以一起追踪这场变局的每一个关键节点。

上一篇：爱优腾芒集体入局AI创作平台，迟到的长视频AI反击战正式开打
下一篇：从“零散接单”到七位数ARR：一个独立开发者的订阅制出海生意复盘

GPT-5．6, OpenAI, Anthropic, AI监管, 美国出口管制

GPT-5.6性能评测：最强模型为何被“审”住？美国AI出口管制与审批新规

一、屠榜者

二、審批表

三、分叉路

相关帖子

浏览过的版块