4083 积分	0 好友	531 主题

GPT-5.4发布：原生计算机操控、推理与编程全能，开启AI执行新阶段

发表于 2026-3-7 08:02:49 | 查看: 254| 回复: 0

GPT-5.4 在电子电路板上操作的概念图

北京时间 3 月 6 日凌晨，OpenAI 正式发布了下一代旗舰模型——GPT-5.4。面对谷歌 Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 的竞争，OpenAI 带来了一款集推理、编程、原生电脑操控于一体的全能模型。

OpenAI 官方宣布 GPT-5.4 发布的社交媒体帖子截图，附带模型对比表格

不止是更聪明，更是“动手干”

如果说以前的 AI 只是一个能说会道的超级大脑，那么 GPT-5.4 第一次长出了“手”。

此次更新最核心的突破性功能，是原生计算机使用能力（Computer-Use）。这是 OpenAI 首个具备该能力的通用模型。它不再仅仅依赖 API 接口，而是能像人类一样，看懂屏幕截图，移动鼠标，敲击键盘，在各类软件和网页间穿梭自如。

在 OSWorld-Verified 基准测试中，GPT-5.4 操作电脑的成功率达到了惊人的 75.0%。这个数据不仅远超上一代 GPT-5.2 的 47.3%，甚至超过了人类 72.4% 的基准线，也略高于刚刚登顶不久的 Claude Opus 4.6（72.7%）。

GPT-5.4 与 GPT-5.2 在工具产出数量下的准确率对比折线图

这意味着从今天起，AI 不仅能帮你写邮件，还能帮你发邮件、排日程、填表格、跑流程。那些每天消耗大量精力的、繁琐的点击操作，现在 AI 具备了完成的潜力。

过去，模型往往各有短板：有的能推理但不会写代码，有的能写代码但世界知识匮乏。GPT-5.4 试图整合这些能力，其综合成绩单表现突出。

知识工作（GDVal）：在横跨 44 种职业的真实工作产出测试中，GPT-5.4 以 83.0% 的得分达到或超过了人类专家水平，相比上一代的 70.9% 提升了 12 个百分点。尤其是在模拟初级投行分析师的电子表格建模中，得分高达 87.3%。

不同 AI 模型在 GDVal、FinanceAgent 等任务上的性能对比表格

编程能力（SWE-Bench Pro）：它继承了 GPT-5.3-Codex 的编程基因，得分 57.7%，略高于 Codex 版本的 56.8%。这意味着在处理软件工程问题时，你可能不再需要在不同特长的模型间频繁切换。

数学与推理（FrontierMath）：在研究级别的数学难题中，GPT-5.4 Pro 拿下了 38.0% 的得分。对比一年前同类型测试的最佳成绩（约 2%），进步显著。

GPT-5.4 支持高达 100 万 Token 的上下文窗口。

100 万 Token 是什么概念？这意味着你可以直接把《三体》三部曲的全部内容，或者一个完整项目的代码库一次性扔给它，它能处理并关联上下文中的每一个细节。

更关键的是，GPT-5.4 Thinking 在 ChatGPT 中新增了“思考过程预览”和“中途介入”功能。在处理长任务时，模型会先展示它的工作计划，如果你发现方向不对，可以随时打断并调整，不需要等到它犯错返工。这种可干预的交互体验，让 AI 协作变得更可控。

强大的同时，OpenAI 也在试图优化模型的使用成本。

GPT-5.4 引入了全新的“工具搜索”机制。在处理拥有大量工具（如 MCP 服务器）的复杂任务时，它不再一股脑把所有工具定义塞进上下文，而是按需检索。在 Scale 的 MCP Atlas 基准测试中，这一功能在保持准确率不变的同时，将 Token 消耗量降低了 47%。

对于开发者来说，Codex 中的“/fast”模式能提升 Token 生成速度，使任务执行更快。

据了解，即日起，GPT-5.4 Thinking 已面向 ChatGPT Plus、Team 和 Pro 用户开放，它将取代 GPT-5.2 Thinking 成为默认的思考模型。而性能更强的 GPT-5.4 Pro 则主要面向 Pro 和企业用户。

价格方面，GPT-5.4 的 API 调用费用为输入 2.5 美元/百万 Token，输出 15 美元/百万 Token。而 Pro 版价格为输入 30 美元/百万 Token，输出 180 美元/百万 Token。

虽然价格有所上涨，但考虑到其优秀的工具使用效率，以及相比 Claude Opus 4.6 更具竞争力的 API 价格，对于需要强大代理能力的企业级应用而言，可能仍是一个值得考虑的选择。

GPT-5.4 的发布，标志着一个明确的转向：大模型的竞争，已经从单纯的“参数竞赛”和“跑分刷榜”，进入了“全能执行”的新阶段。

OpenAI 这次整合了推理、编程、长上下文和电脑操控，目标直指一个更实用的形态——能够理解、思考并执行操作的智能代理。这无疑将加速 AI 在工作流自动化中的应用探索。想了解更多前沿技术动态与深度解析，欢迎关注云栈社区。