找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2126

积分

0

好友

286

主题
发表于 3 天前 | 查看: 48| 回复: 0

GPT-5.4 思维模式概念图

OpenAI 现已正式发布 GPT-5.4 及其性能更强的 GPT-5.4 Pro 版本。此次更新专注于专业生产力场景,旨在一次性地全面提升模型在复杂推理、代码生成与多步智能体(Agent)工作流中的表现。

本次迭代最关键的技术重构,在于赋予了模型原生且达到 SOTA 级别的计算机操作能力。这是 OpenAI 推出的首个具备此项能力的通用大模型。在专门评估桌面环境导航能力的 OSWorld-Verified 基准测试中,GPT-5.4 一举取得了 75.0% 的成功率。

OSWorld-Verified基准下GPT-5.4与GPT-5.2准确率对比

这个成绩不仅显著超越了前代模型,更是全面超过了 72.4% 的人类基准线。模型现在可以直接编写代码调用诸如 Playwright 这样的自动化工具,甚至能够根据屏幕截图直接输出键盘和鼠标的操作指令。

与此同时,模型的视觉感知底层能力也迎来了重大升级。它新增了原生图像输入细节级别,最高支持 1024万 总像素的无损感知。在文档解析测试 OmniDocBench 中,其平均误差已降至 0.109

在职场专业任务方面,其表现实现了彻底翻盘。在面向44个职业的知识工作评估基准 GDPval 中,GPT-5.4 的胜率达到了 83.0%。针对投行级别的电子表格建模任务,其得分更是直接飙升至 87.3%。而在 PPT 生成及排版审美的盲测中,它也获得了 68.0% 的胜出率。

模型的“幻觉”问题得到了进一步压制,单个事实错误率下降了 33%。其代码能力直接继承了 GPT-5.3-Codex 的行业顶级水平。

SWE-Bench Pro基准下各模型表现对比

τ²-bench电信任务基准下各模型准确率对比

CodexAPI 端,模型开放了最高 100万 Token 的上下文窗口。开启 /fast 模式后,Token 的生成速度最高可提升 1.5倍,并支持边构建边测试的交互式可视化调试。

工具调用机制引入了全新的 Tool search 搜索架构,彻底抛弃了过去将所有工具定义硬塞入提示词的低效做法。现在,模型可以通过轻量级目录检索并按需挂载工具。在挂载 36个MCP服务器 时,Token 消耗量出现了断崖式下跌,降幅高达 47%。在深层网页检索测试 BrowseComp 中,GPT-5.4 Pro 将最高准确率拉升至 89.3%

此外,模型的交互逻辑也变得更加“跟手”。对于长思考任务,它会预先输出思维大纲,并支持用户中途强行打断以修正思考方向。

目前,新模型已在 ChatGPT、API 和 Codex 平台全量上线。ChatGPT Plus 及以上订阅用户即日起即可使用 GPT-5.4 Thinking 替代旧版模型。

API 调用定价有所上调:GPT-5.4 的输入价格为 2.50 美元 / 百万 Token,输出价格为 15 美元 / 百万 Token;GPT-5.4 Pro 的输入价格为 30 美元 / 百万 Token,输出价格为 180 美元 / 百万 Token。

API model Input price Cached input price Output price
gpt-5.2 $1.75 / M tokens $0.175 / M tokens $14 / M tokens
gpt-5.4 $2.50 / M tokens $0.25 / M tokens $15 / M tokens
gpt-5.2-pro $21 / M tokens - $168 / M tokens
gpt-5.4-pro $30 / M tokens - $180 / M tokens

这次底层架构的统一,标志着大模型正从一个对话工具,彻底转变为支撑长线、复杂作业的系统级基础设施。不得不说,当前全球顶尖 人工智能 模型的迭代速度越来越快,希望国内的研发也能迎头赶上。关于大模型的最新动态和技术解析,欢迎来 云栈社区开发者广场 与大家一起交流探讨。




上一篇:猎豹移动靠AI Agent产品EasyClaw翻身?股价单日涨超8%引关注
下一篇:量化交易模拟全解析:从蒙特卡洛到粒子滤波的Python实战指南
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-10 10:21 , Processed in 0.989881 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表