找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3464

积分

0

好友

474

主题
发表于 昨天 05:15 | 查看: 5| 回复: 0

谷歌正式发布了Gemini Pro模型的最新迭代版本——Gemini 3.1 Pro。尽管并非在所有任务中都拔得头筹,但根据官方基准测试,这个仍处于预览阶段的模型在解决复杂问题方面,表现远超谷歌之前的主流模型,尤其在推理和编程能力上实现了显著飞跃。

最近几周,AI模型领域相当热闹,Anthropic和OpenAI都接连发布了新模型。本月初,谷歌推出了拥有专门推理模式的Gemini 3 Deep Think,其性能轻松超越了Gemini 3.1 Pro。但Deep Think模型目前仅面向Google AI Ultra订阅用户,且API访问仍为邀请制(可能还需额外付费)。

那么,Gemini 3.1 Pro的强劲表现从何而来?谷歌表示,其“核心智能”直接源自Deep Think模型,这很好地解释了为何3.1 Pro在各类推理基准测试中能如此出色。

在衡量抽象推理能力的ARC-AGI-2基准测试中,新模型取得了77.1%的得分。这类任务对人类来说简单,但对大语言模型却极具挑战。这一成绩相比上一代Gemini Pro的31.1%可谓巨大跨越。作为对比,Anthropic的Opus 4.6模型解决了68.8%的挑战,而OpenAI的GPT-5.2(也即将更新)的正确率为52.9%。

通常这些数据由谷歌自行报告,但第三方评估平台Artificial Analysis也已将Gemini 3.1 Pro置於其排行榜首位,这为其性能提供了独立验证。

Gemini 3.1 Pro与其他大模型在多项基准测试中的性能对比

表现卓越,但并非完美

Gemini 3.1 Pro卓越的推理能力在大多数基准测试中都得到了体现,使其在多数测试中领先于竞争对手。

然而,模型也存在一个明显的短板:在GDPval-AA基准测试中表现不佳。该基准用于衡量模型在一系列可能影响国家GDP的现实世界任务上的性能。在此项测试中,Gemini 3.1 Pro仅获得1317分,远低于Anthropic的Sonnet 4.6模型的1633分。

编程能力是此次升级的另一大亮点。在Terminal-Bench 2.0智能编程基准测试(基于默认的Terminus-2测试框架)中,Gemini 3.1 Pro以68.5%的得分几乎超越了所有竞争对手。不过,OpenAI报告其新发布的5.3-Codex编程模型在使用自身测试框架时得分更高(77.3%)。在几乎所有其他编程基准测试中,Gemini 3.1 Pro要么领先,要么与顶级竞争对手的差距仅在几个百分点之内。

与其他Gemini系列模型一样,Gemini 3.1 Pro支持100万个token的上下文窗口。它可以处理文本、图片、视频和音频多种模态的输入,但输出被限制在64,000个token。

定价保持竞争力

新模型维持了具有竞争力的定价策略,每百万输入token收费2美元,每百万输出token收费12美元。这使得其在提供相似甚至更优性能的前提下,比Anthropic的Opus 4.6模型(输入/输出分别为5美元/25美元每百万token)更具成本优势。

现已广泛可用

虽然官方称Gemini 3.1 Pro仍处于预览阶段,但谷歌已让其实现了广泛可用。开发者现在可以通过Google AI Studio、Gemini CLI、Android Studio中的Gemini API以及Google Antigravity开发平台来访问新模型。

企业用户可以通过Vertex AI和Gemini Enterprise使用它,而普通消费者则可以通过Gemini应用程序和NotebookLM来体验。这种多层次、多渠道的发布策略,显示了谷歌希望加速其最新深度学习模型应用落地的决心。

对于持续关注AI前沿动态的开发者而言,了解像Gemini 3.1 Pro这样的模型迭代与性能细节至关重要。你可以在 云栈社区智能 & 数据 & 云板块找到更多关于大模型技术剖析、应用实践与行业趋势的深度讨论。




上一篇:Java反射机制深度解析:核心用法与Class类操作指南
下一篇:Anthropic澄清政策解读:Claude账户与Agent SDK使用方式未变,个人实验仍受鼓励
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 10:26 , Processed in 0.854298 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表