找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1583

积分

0

好友

228

主题
发表于 3 天前 | 查看: 10| 回复: 0

图片

图片

2025年底,AI领域最引人注目的事件之一无疑是Gemini 3 Flash的发布。这款轻量级模型以极高的速度著称,其综合智能不仅超越了上一代的Gemini 2.5 Pro,在编程和多模态推理等部分性能上甚至反超了同期的Gemini 3 Pro与GPT-5.2,表现令人瞩目。

近日,Gemini的三位联合技术负责人——Oriol Vinyals、Jeff Dean、Noam Shazeer,与谷歌AI Studio的产品负责人Logan Kilpatrick进行了一场深度对话,分享了模型背后的思考与未来规划。

图片

在这场对话中,三位负责人明确指出,新一代的Flash模型在性能上往往已经达到甚至超越了前一代Pro模型的水平。Oriol Vinyals直言,Pro模型的一个重要角色就是作为“教师”,将其能力蒸馏(Distill)给更小、更快的Flash模型。他强调,即便牺牲少许顶尖智能,更快、更经济的模型对大多数用户而言价值巨大,因此团队将持续加大对这类小而强模型的投入。

Logan Kilpatrick补充道,他们在AI Studio内部针对“vibe coding”(沉浸式编程)用例进行了对比测试。结果显示,尽管Flash模型的绝对智能略低,但得益于更低的延迟和更快的反馈,用户实际上编写了更多代码,留存率也更高。这证明了速度体验的重要性。

此外,他们还深入探讨了Gemini项目的整体进展、内部训练细节、在Pro与Flash版本间的权衡,以及模型演进的未来关键方向。

Gemini的起源:从组织融合到技术融合

Logan Kilpatrick首先请Jeff Dean回顾了Gemini项目的发展阶段。Jeff Dean指出,Gemini源于他观察到谷歌内部在大语言模型和多模态研究上的力量分散。通过整合Google Brain与DeepMind的优秀人才与算力资源,形成了统一的Gemini团队,这是项目成功的关键起点。

Oriol Vinyals从研究文化的角度补充,DeepMind长期目标驱动、追求根本性突破的精神,与Google Brain自下而上、多样创新的风格在Gemini中实现了融合。他指出,无论是早期的游戏AI研究还是AlphaFold项目,其中开发的数据合成、蒸馏、强化学习等技术,与当前大语言模型的研发方法高度一致

当前最大突破空间:后训练

当被问及下一代技术的下注方向时,Oriol Vinyals强调,当前阶段最大的突破空间很可能在于后训练(Post-training)。他提到,从Gemini 2.5到3.0的显著提升,正是预训练与后训练多方面改进叠加的结果。尽管追求“激进研究”很重要,但将现有配方做到极致同样能带来质变。

Noam Shazeer赞同这一观点,他认为模型能力的提升是一个可以从众多正交方向持续取得进展的复杂问题,非常适合大型组织协作推进。

Jeff Dean则分享了更长期的视角。他透露,Gemini目前的基础架构源于他2018年提出的Pathways愿景,其三大目标——单一模型泛化至数百万任务、强多模态能力、稀疏激活——已在Gemini中基本实现。谷歌内部已经为模型的下一步演进规划了新的“五年计划”。

代码与数学已见顶,开放式任务成新挑战

在模型能力进展方面,Jeff Dean指出,在代码、推理和数学等具有明确验证方式的领域,模型能力通过后训练和强化学习已取得飞速发展,部分基准测试(Benchmark)甚至已被“刷穿”。然而,真正的挑战在于如“帮我规划一次旧金山旅行”这类开放式任务,这些领域没有清晰的奖励函数,是未来需要重点突破的方向。

Flash模型的价值:速度即体验

关于Pro与Flash模型的定位,Oriol Vinyals解释道,最初的设计就是两个明确的运行点:一个追求最大智能(Pro),一个追求更佳可部署性(Flash)。有趣的是,迭代至今,新的Flash模型往往能达到甚至超过上一代Pro的水平。他进一步指出,从长期看,Pro模型的主要作用可能就是用来生成(蒸馏)Flash模型

Jeff Dean强调了延迟作为模型质量指标的重要性。一个在低延迟下仍能保持强大推理能力的系统至关重要。这种优化既来自模型架构,也来自硬件协同。

Noam Shazeer用一句软件工程的老话类比:“先让它跑起来,再让它正确,然后让它快,最后让它小。”他认为模型开发也正遵循类似的路径。

未来方向:从静态模型到持续学习

谈及未来最重要的改进方向,Oriol Vinyals和Jeff Dean都指向了持续学习(Continual Learning)。Oriol认为,当前模型在部署后权重即被冻结、不再学习的状态是“不够优雅”的。他期望未来的模型能像人类一样,在特定情境下主动学习并提升自我。

Jeff Dean指出,与人类主动、有目标的学习方式相比,当前大规模流式预训练的数据效率可能低了成千上万倍。探索如何让模型像强化学习智能体一样,通过行动、观察后果来高效学习,是一个值得长期下注的方向。

Noam Shazeer对此表示同意,但他也强调,大规模预测下一个token的训练方式已被证明极其有效,未来理想的状态是结合两者之长。

回顾与惊喜

在对话最后,三人分享了Gemini发展中最令他们惊喜的进展:

  • Jeff Dean:对多模态能力(尤其是视频生成与视觉推理的自然融合)以及超长上下文潜力的充分释放感到欣喜。
  • Oriol Vinyals:最“激进”的惊喜是,通用模型(未针对特定领域做特别定制)在数学和编程竞赛中达到了金牌水平,这远超预期。
  • Noam Shazeer:理性上虽可预见,但情感上仍对AI能力快速提升并惠及千万用户感到震撼。

这场对话揭示了Gemini系列模型背后的设计哲学与技术路线图,突出了蒸馏技术的关键作用,并明确了后训练优化与持续学习将是推动下一代大语言模型前进的核心动力。




上一篇:高并发TPS性能标准解析:从电商到支付系统的分级与评估
下一篇:StarRocks 4.0实战:实时广告分析平台查询性能百倍优化指南
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-24 19:00 , Processed in 0.171875 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表