云栈社区»论坛 › 站务中心「 Forum Service 」 › 谷歌意外泄露Gemini 3.5 Pro：200万token上下文窗口，能读完整个 ...

发回帖发新帖

5073 积分	0 好友	654 主题

发消息

谷歌意外泄露Gemini 3.5 Pro：200万token上下文窗口，能读完整个代码库

发表于 4 小时前 | 查看: 5| 回复: 0

Gemini 3.5 Pro 泄漏传言图标

Google 自己的页面上，出现了一行不该出现的字。

“3.5 Pro coming soon。”

就这么几个英文单词，让整个开发者圈子炸了。因为这个标签出现的位置，是 Gemini 3.1 Pro 的产品卡片上——Google 自己的 App 里，赫然标注着下一代旗舰模型即将上线。

一个还没发布的产品，被自家前端工程师提前剧透了。

Google 自己“出卖”了自己

AI模型与工具图标集

事情要从 2026 年 5 月 15 日说起。那天，36Kr / 新智元率先报道了一条消息：一个代号“Cappuccino”的 Gemini 模型 checkpoint 已经开始在社区和 benchmark 平台上出没。

社区前几个小时还在讨论 Gemini 3.2，结果泄露直接跳到了 3.5。

四天后的 Google I/O 大会上，Sundar Pichai 亲自登台，正式介绍了 Gemini 3.5 家族——但只发布了 Flash 版本。

当他抛出“Pro 版本将在 6 月推出”时，台下传来了清晰可闻的叹息声。

666，堂堂 Google I/O，观众嘘自家 CEO，这场面确实不多见。

但泄露归泄露，该有的东西一样没少。从目前已知的信息来看，Gemini 3.5 Pro 有三个关键参数值得关注：

200 万 token 上下文窗口 —— 当前所有量产模型中最大的，是 GPT-5.5 和自家 Flash 的两倍
Deep Think 推理模式 —— 专门啃硬骨头的深度推理能力，继承自 Gemini 3 Deep Think
全模态输入 —— 文本、图像、音频、视频一个 API 全搞定

两百万 token 意味着什么

模型上下文窗口容量对比条形图

两百万 token 是什么概念？

一个中等规模的代码仓库，大概 50 万到 100 万 token。一份完整的项目文档加 API 参考手册，大概 20 万到 50 万 token。

再加上几十轮对话历史和需求文档——200 万 token 基本上能把一个中型项目的“全部上下文”一次性塞进去。回顾这个时间轴，从 2024 年的 200 万预览到今天的量产，Google 用了两年时间把概念变成产品。

这意味着什么？

本质上，你可以把整个代码库丢给 AI，让它在完全理解项目全局的情况下帮你写代码、查 bug、做重构。不用 RAG 拆分，不用检索增强，不用担心它“看到前面忘了后面”。

666，说实话，这对做 RAG 的公司来说可能不是个好消息。

当然，200 万 token 的“纸面参数”和“实际可用”是两码事。Gemini 3.1 Pro 官方标称 100 万 token，但社区测试发现 Gemini Web App 实际只能访问大约 3.2 万 token 的活跃上下文。

3.5 Pro 的 200 万能不能真的跑满、跑到深处还能保持召回质量，得等独立评测出来才知道。

从纵向时间轴来看，Google 在上下文窗口这个赛道上一直是最激进的那个。 从 2024 年 Gemini 1.5 Pro 首次把 200 万 token 摆上台面，到 2026 年 2 月 3.1 Pro 做到 100 万量产，再到今天 3.5 Pro 直接翻倍——这条时间线从来没变过。回头看，上一代 3.1 Pro 的 100 万已经让很多人觉得够用了，但 Google 显然不这么想。

Google 为什么选择“拖”

按理说，既然连泄露都有了，直接发布不就完了？

Google 偏不。

为什么是 now？Flash 已经把 Pro 的风头抢了。3.5 Flash 比 3.1 Pro 快 4 倍、便宜 40%，在几乎所有 benchmark 上都超越了前代旗舰。

定价只有 1.50 美元/百万输入 token，对比 Pro 预计的 15 美元——整整十倍差距。

问题来了：如果 Flash 已经这么强了，Pro 到底该怎么定位？

答案是：Pro 要做的事情，Flash 做不了。

TechTimes 的分析指出，3.5 Flash 在编码和 agent 任务上确实超越了 3.1 Pro，但在最难的推理任务上出现了回退——而这恰恰是 Pro 要补的缺口。

Google 需要时间让 Pro 在 Deep Think 模式下跑出足够亮眼的成绩，才能说服开发者为什么值得花十倍价格。

再加上 OpenAI 有 Codex、Anthropic 有 Claude Code，开发者的心智已经被分走了不少。Google 需要的不只是一个“参数更大的模型”，而是一个“能改变开发者工作方式的产品”。这就是底层机制层面的竞争——不只是比参数，而是比谁能把模型变成开发者离不开的工作流。

三巨头的上下文窗口军备竞赛

2026年大模型Token容量对比

把目光拉远一点，沿时间轴看看当前三大模型的上下文窗口对比：

模型	上下文窗口	定价（输入/输出每百万 token）	状态
Gemini 3.5 Pro	200 万	预计约 108 元/约 432 元（约 15/60 美元）	企业预览，6 月底 GA
Gemini 3.5 Flash	100 万	约 10.8 元/约 64.8 元（1.50/9 美元）	已发布
Claude Opus 4.7	20 万	约 108 元/约 540 元	已发布
GPT-5.5	128 万	约 108 元/约 432 元	已发布

一目了然：在上下文窗口这件事上，Google 直接把天花板翻了一倍。

但窗口大不等于体验好。Claude Opus 4.7 虽然只有 20 万 token，但在代码理解和生成质量上一直被开发者推崇。

GPT-5.5 的 128 万 token 也已经覆盖了绝大多数场景。真正决定胜负的，不是“能装多少”，而是“装进去之后能多好地理解”。

Deep Think 模式就是 Google 的答案。它让模型在面对复杂问题时花更多时间“想”，而不是急着给答案。从 Gemini 3 Deep Think 在国际数学和编程奥林匹克上拿金牌的表现来看，这条路走得通。

有一点几乎可以确定：200 万 token 很快会成为旗舰模型的标配，但“能不能用好 200 万”才是真正拉开差距的地方。

开发者现在该做什么——我的决策建议

如果你问我倾向怎么做，说白了就三件事。

第一，别急着切换。 Gemini 3.5 Pro 目前只在 Vertex AI 企业预览里可用，正式版预计 6 月底上线。在它真正开放、独立评测跑完之前，不要因为一个泄露就改变技术栈。

第二，关注 Flash。 如果你今天就需要用 Gemini，3.5 Flash 已经很强了——比上一代 Pro 还强，价格只要十分之一。对大多数开发者来说，Flash 可能才是性价比之王。

第三，等 Pro 上线后，优先试“大上下文”场景。 把整个项目代码库、完整文档、历史对话一次性丢进去，看看它在 200 万 token 深度下的实际表现。

这才是 Pro 相对于其他模型的真正差异化价值。

至于定价，按照惯例 Pro 大概是 Flash 的十倍。换算成人民币，输入大约 108 元/百万 token，输出大约 432 元/百万 token。

不便宜，但如果你的项目真的需要一次性理解整个代码库，这个价格可能比雇一个初级工程师还划算。

666，想想也挺魔幻的。

3 年后回头看，今天 200 万 token 的发布本身可能不会被记住——真正会被记住的是，这是 AI 第一次真正“看到”了整个代码库的全貌。 这才是 2026 年的意义。

相关资源：

Google DeepMind Gemini 官方页面：
https://deepmind.google/models/gemini/

Google Blog Gemini 3.5 介绍：
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

Gemini 3.5 Pro 详细参数（HokAI）：
https://hokai.io/hub/models/gemini-3.5-pro

TechTimes 报道：
https://www.techtimes.com/articles/317919/20260606/

Business Insider I/O 报道：
https://www.businessinsider.com/google-io-2026-gemini-3-5-pro-2026-5

更多 AI 最新动态与开发者见解，欢迎做客云栈社区一起交流。

上一篇：世界杯预测Agent实操：5角色并行拆解赛事，Kimi Code跑赢抛硬币
下一篇：GitHub热门开源AI视频工具：Palmier Pro智能剪辑与OpenMontage全流程制片

Gemini, 上下文窗口, 大模型, 深度推理, Google