云栈社区»论坛 › 开发者广场「Dev Plaza」 › 谷歌发布Gemini 3 Deep Think推理模式，在多项基准测试中超越Cla ...

5849 积分	1 好友	757 主题

发消息

谷歌发布Gemini 3 Deep Think推理模式，在多项基准测试中超越Claude Opus与GPT-5

发表于 2026-2-14 07:47:08 | 查看: 295| 回复: 0

谷歌Gemini 3 Deep Think推理模式发布

今天凌晨，谷歌正式发布了其Gemini 3 Deep Think专用推理模式的一次重磅升级。此次升级并非简单的参数调整，而是大幅提升了模型在复杂、开放性问题上的深度推理能力。根据谷歌公布的评测结果，新版Deep Think在“人类终极测试”、国际学科奥林匹克竞赛以及多项高难度学术基准测试中，创下了多项新纪录，其表现全面超越了Claude Opus 4.6和GPT-5.2，甚至在特定领域超越了谷歌自家的Gemini 3 Pro Preview。

Gemini 3 Deep Think在四项基准测试中的成绩对比柱状图

这不仅是一次性能的跃升，更意味着AI在专业化、深层次的科学研究和工程应用上迈出了关键一步。在演示中，Deep Think能将一张简单的设计草图，快速转化为可直接用于3D打印的复杂模型文件，实现了从创意到实物的高效贯通。

Gemini 3 Deep Think将草图转化为3D打印文件的过程演示

消息公布后，谷歌CEO Sundar Pichai和公司相关高管均在社交媒体上发声。值得注意的是，去年9月加入谷歌DeepMind的清华物理系杰出校友姚顺宇（Shunyu Yao）也发文，邀请大家体验这一新模式。姚顺宇现任谷歌DeepMind高级研究员，此前曾在Anthropic的Claude团队任职，此次Deep Think模式的升级也是他加入后参与的首个重要项目。

谷歌CEO Sundar Pichai（左）与研究员姚顺宇（右）的社交媒体发文截图

目前，这一强大的Deep Think模式主要面向Google AI Ultra订阅用户开放。不过，谷歌也表示，科研人员、工程师及相关企业可以通过提交申请，加入早期测试计划。

01. 高难度基准测试刷新多项纪录，全面领先竞争对手

去年，谷歌已证实Deep Think的定制版本能够解决许多高难度推理问题。而此次升级，则进一步强化了其处理“研究级（research-level）”数学探索工作的能力。

升级后的Deep Think在多个被视为“模型能力试金石”的基准测试中表现惊人：

在专为检验前沿大模型极限而设计的“人类终极测试（Humanity’s Last Exam）”中，Deep Think在无任何工具辅助的情况下取得了48.4%的成绩，刷新了该测试的最佳纪录。
在衡量抽象推理能力的ARC-AGI-2测试中，获得了经ARC奖基金会认证的84.6%高正确率。
在竞技编程平台Codeforces的测试中，Elo评分达到3455分，展现了强大的算法与编码能力。
在2025年国际数学奥林匹克竞赛（IMO）的测试中，达到了金牌水准。

从结果看，在上述所有测试项目中，Deep Think的表现均领先于Claude Opus 4.6和GPT-5.2。

其领先优势不仅限于数学和编程领域。在物理、化学等基础科学领域，新版Deep Think同样表现卓越。根据官方数据，它在2025年国际物理和化学奥林匹克竞赛的理论笔试环节均达到了金牌水平。在凝聚态理论基准测试CMT-Benchmark中，也取得了50.5%的成绩。

Gemini 3 Deep Think与多款主流模型在十余项基准测试中的详细成绩对比表格

可以说，通过与科学家和研究人员紧密合作，谷歌正在将大模型的推理能力推向一个全新的高度。

02. 推动实际应用落地，成为深度专业研究的“最强助手”

性能表现只是一方面，谷歌研发Deep Think的核心目的，在于推动其在实际科研与工程中的应用。它旨在帮助研究人员解析晦涩难懂的复杂数据，辅助工程师通过代码构建物理系统的精确模型。

这类问题往往没有明确的解决路径或唯一答案，数据也可能是杂乱或不完整的。Deep Think试图将深厚的科学知识背景与工程实践相结合，去攻克这些难题。

目前，谷歌正致力于让Deep Think覆盖科研工作者和工程师的核心工作流。一个直观的例子是3D建模与制造：用户只需提供一张设计草图，Deep Think便能自动分析图纸意图、构建复杂的三维几何模型，并生成可直接用于3D打印的STL文件。

从楔形笔记本支架设计草图到3D打印实体模型的对比图

在另一个案例中，Deep Think甚至展现出了超越人类专家的审阅能力。罗格斯大学的数学家Lisa Carbone利用Deep Think复审一篇高度专业的技术数学论文时，模型成功识别出了一个此前在人工同行评审中都未被发现的细微逻辑缺陷。这显示了其在Codeforces等编程挑战之外，于深度学术领域同样具备实用价值。

数学家Lisa Carbone使用Deep Think审阅论文的示意图片

此外，Deep Think还能用于优化复杂晶体生长的制备工艺、探索新型半导体材料。在杜克大学的一个合作案例中，由Deep Think设计的方案成功培育出了尺寸超过100微米的薄膜，其技术指标超过了此前所有已知方法。

03. 结语：推理大模型专业化加深，AI冲向科研最前线

Gemini 3 Deep Think模式的这次升级，清晰地表明了谷歌AI发展的一个重点方向：让大模型不仅“博学”，更要“专精”。其价值在于能够深入顶尖的专业领域，成为加速技术研发与科学发现的强大工具。

当前，AI模型与产业融合正进一步加深，整个行业都在思考如何让模型更好地服务于具体、专业的垂直场景，切实提升生产力。而AI推理大模型的竞争，已然跑在了技术与学术探索的最前沿。谷歌此次的发力，无疑为这场竞赛设立了新的标杆。

上一篇：万亿参数Ring-2.5-1T模型开源，混合线性注意力架构实现高效生成与深度思考
下一篇：CPO技术深度解析：如何以光互连突破AI算力集群的扩展瓶颈

Gemini, Google, 大语言模型, AI推理, 科研辅助

谷歌发布Gemini 3 Deep Think推理模式，在多项基准测试中超越Claude Opus与GPT-5

01. 高难度基准测试刷新多项纪录，全面领先竞争对手

02. 推动实际应用落地，成为深度专业研究的“最强助手”

03. 结语：推理大模型专业化加深，AI冲向科研最前线

相关帖子

浏览过的版块