云栈社区»论坛 › 站务中心「 Forum Service 」 › Google DeepMind圆桌探讨：谁“规定”了AI视频生成的默认审美与O ...

发回帖发新帖

5199 积分	0 好友	670 主题

发消息

Google DeepMind圆桌探讨：谁“规定”了AI视频生成的默认审美与Omni API新发布

发表于 2 小时前 | 查看: 4| 回复: 0

AI Engineer World's Fair大会上，Google DeepMind三位核心研发人员进行圆桌对谈

7月1日，在AI Engineer World's Fair 2026大会期间，三位来自Google DeepMind的核心研发人员——视频大模型技术负责人Dimitris、主导Gemini强化学习与Omni推理方向的Shane Gu（顾世翔），以及生成式媒体产品负责人Nicole，与《Latent Space》播客主持人进行了一场深度圆桌对话。本次对话围绕谷歌Nano Banana 2 Light与Gemini Omni Flash API两项新发布展开，系统探讨了视频与图像生成模型、音视频联合生成、世界模型、强化学习机制、模型评估体系以及前沿部署工程师（FDE）商业化落地等议题。

关于本次发布，Nicole表示，Nano Banana 2 Light是该系列中速度最快、成本最低的图像模型，其表现已超越初代Nano Banana，足以成为多数用户日常生成与编辑的主力工具。而Gemini Omni Flash API则首次向开发者开放了视频生成与编辑功能。Dimitris分享了一个实际用例：他用Nano Banana将一份英文产品说明书拍照后直接翻译成罗马尼亚语，同时完美保留了原有排版，效果令人惊叹。他认为该能力完全可以延伸至视频的文本渲染、翻译及国际化配音等场景。

关于视频AI Agent与统一模型的路线之争，Shane认为，语言之所以是极具价值的中间表示，是因为在语言上设定条件，相当于在事物生成的因果信息上设定条件，这有助于缓解机器学习中“虚假相关性”难以判定的问题。他援引团队此前发表的论文《视频模型是零样本学习器和推理器》指出，视频模型已具备类似机器人的物理直觉，本身便是一个尚未被充分认可的世界模型。对于模型架构的终局，Dimitris指出，尽管长远看不同模态可能走向统一，但未来六个月内团队仍将并行维护多个专业模型，因为工程、研究与产品之间存在现实权衡。Nicole则表示，Gemini Omni的命名意在暗示未来输入输出端将实现完全多模态，但在达成这一目标前，垂直专业模型仍有大量有价值的应用场景。

关于视频模型与AGI的关系，Shane认为，若要打造媲美人类的AGI，而非单纯堆砌算力的系统，视频这一世界模型基座绝对不可或缺。在音视频联合生成方面，Dimitris指出，Veo 3是首个实现音视频联合生成的模型，其理论依据在于，说话行为背后存在一个统一的潜在因果生成过程，而非先生成像素再让音频跟随。那种先生成画面再贴合音频的老方法效果极差，将音视频整合在单一生成模型中是正确方向。他同时也点明，目前罕有前沿模型能同时擅长视频的理解与生成，这是一个尚待解决的巨大挑战。

关于语言表达的局限，Shane认为，音频、气味、味觉与肤色等信息难以被语言精确描述，因为这些感官与生存本能紧密相关，人类对其差异极度敏感却缺乏足够的词汇储备。Nicole补充说，视觉美学同样面临此困境，语言常常是描述风格与审美偏好的制约因素。谈及优化目标与人类偏好的关系，Dimitris透露，团队曾根据真实视频的文字描述，用Omni重新生成了对应视频。结果，人类评估者出乎意料地大幅偏爱AI生成的版本。他强调这并不意味着AI生成内容更真实或更有用，很可能只是模型的优化方式恰好触发了人脑偏好某种视觉效果的机制。因此他认为，在进行人工智能研发时，人类偏好并非决定优化目标的可靠风向标。

关于提示工程，Shane表示，四年前业界曾普遍预测提示工程会消失，但他坚持相反观点。提示工程是用户在掌握AI控制权时表达具体意图的核心手段，绝不应被放弃。谈及默认审美，Dimitris指出，团队默认的审美风格存在“信息密度过高”的问题，如同一个用力过猛的学生试图把所有信息塞进一张图里。Shane补充说，东亚地区的信息图表设计密度会比其他地区高出数倍。在模型异常行为上，Dimitris分享了一个趣闻：团队曾发现模型总是偏爱在手部画出婚戒，原因不明，大家怀疑这是典型的奖励机制破解现象。

在模型评估方法上，Nicole指出，涉及文本渲染这类可使用光学字符识别（OCR）的客观任务较易实现自动化评分，但涉及审美判断的任务仍高度依赖人工评估。团队会对数千个项目进行大规模人工评审，并在模型表现接近时通过并排对比来做决策。她还表示，一个模型可能在人工评估切片中表现优异，却仍会严重破坏某个用户的实际工作流。因此，团队高度依赖抢先体验项目中那些具备高审美素养用户的深度反馈。Shane则认为，超越审美偏好，投喂给AI生成视频的检测与理解本身就是一项应被持续自动化的核心智能任务。

关于数据需求，Dimitris直言，团队并不缺随机的网络视频数据，真正渴求的是更专业化的高质量拍摄素材及具身智能相关数据。Nicole表示，更难获取的是人类完成营销活动这类复杂创意任务时的“实际任务轨迹”，这种隐性知识极难凭空制造。Shane的观点与此呼应，他指出互联网上绝大多数的内容，仅仅是人类内在思考过程的“最终输出”，而真正驱动创作的思考过程深藏在对话与灵感之中，难以被记录和提取。Nicole则一语道破，这正是当前大语言模型生成的小说类内容，容易陷入千篇一律、难以引发情感共鸣的根本原因。

关于前沿部署工程师的角色定位，Shane强调，该角色远不止于销售，其核心价值在于将客户在实际使用中沉淀的洞见反哺至模型研发的最上游环节。Nicole则通过室内设计图案等比例缩放、虚拟试戴耳环比例适配等具体案例指出，一线用户的反馈对研发团队具有不可替代的价值，因为团队自身并不在业务一线使用模型去执行这些特定任务。

发布回顾：Nano Banana 2 Light 与 Omni Flash API 首发

主持人： 我想我们已经开始直播了，欢迎线上和现场的观众朋友们。今天我们非常荣幸请到了研发Omni、Veo以及Nano Banana这几款全球顶尖生成式模型的幕后团队。Dimitris，你目前是视频模型的核心研发人员。

Dimitris: 没错。

主持人： Shane，你现在主要负责Omni的逻辑推理，以及Gemini在强化学习方向的一系列工作。

Shane: 正是如此。

主持人： 还有Nicole，你负责其余的生成式媒体模型，包括Nano Banana，以及这周刚发布的所有新内容。

Nicole: 没错，我们刚刚发布了一些API。

主持人： 既然你们最了解情况，而且刚忙完发布，我们就来回顾一下，这周到底发布了什么？大家应该去体验些什么？

Nicole: 昨天我们迎来了两个重要发布。首先是Nano Banana 2 Light的上线，这是Nano Banana系列中速度最快、成本最低的图像模型。它的表现甚至超越了初代Nano Banana。对大多数人来说，这个模型完全可以替代大家过去在生成和编辑中使用的初代产品，而且它的输出质量已经非常逼近更大规模的前沿模型了。

这很令人兴奋。3秒的延迟极大地释放了创意构思和迭代的潜能。该模型的生成质量已达到极高水准，你既可以用它快速迭代，甚至可以直接将部分输出作为生产级成品使用。

第二个发布，是我们终于推出了在I/O大会上预告过的Gemini Omni Flash API。这是我们首次向开发者开放这些API，主要提供备受期待的视频生成和编辑功能。定价上，我们与Veo 3.1 Fast保持一致，希望以极具吸引力的价格，为大家提供顶级的质量。

主持人： 这确实不可思议。当初你们首次发布Omni时，还和今天未能到场的Logan一起录了期播客。你们在视频里加了树懒、拉面等各种有趣的元素。我特别想在我们自己的视频里也这么玩，只是之前苦于没有API，因为我必须把整个流程自动化。非常感谢你们推出API。

Nicole: 那可是我最喜欢的应用场景。大家都该去试试。我生成了一只猫，如果大家不知道我们在说什么，绝对应该去搜一下，非常有意思。那是团队里的Foefer做的。

主持人： 想要找灵感，想知道这模型能做什么，Foefer绝对是你最该关注的人。

Nicole: 没错，他在这方面简直是个天才。

主持人： 在深入聊Omni之前，能不能启发一下大家，除了猫和树懒这类有趣的演示，更实用的主力应用场景有哪些？

Nicole: 这个模型的主打功能有两大核心。其一，它支持任何形式的输入并输出视频。未来我们还希望推出其他的输出模态。目前，这意味着你可以把一组图片当作故事板，配上一段包含角色目标口音的参考音频，然后就能生成一段完整的视频。这直接打通了制作微电影或YouTube短视频的诸多环节。

另一大核心功能是视频编辑。现在你可以用自然语言对视频进行添加或删除元素的编辑。除了有趣的树懒案例，我们也考虑到了诸多消费者场景。比如你拍了一段背景嘈杂的海滩度假视频想消除噪音，过去你可能束手无策，现在这就成了一个非常实用的场景。

我们已经看到很多人用它来制作营销广告。随着API的发布，我非常期待看到开发者们去探索更多我们无法预见的新玩法。还有人用它来制作教育材料，这让人非常兴奋，因为一切都可根据个人的知识水平和偏好风格进行个性化定制。这正是朝着未来教育形态迈出的重要一步。

Dimitris: 我昨天刚用了Nano Banana。我父母过来玩，我在亚马逊上买了个小物件，但说明书全是英文的，上面还有很多图解。我拍了张照片对模型说，把这个翻译成罗马尼亚语，同时保持其他排版不变。结果非常惊艳！它看起来和原版一模一样，翻译也完美。显然它底层调用的是Gemini来完成翻译工作。

你完全可以把这种应用场景延伸到视频上。Omni的文本渲染能力非常超前。你可以想象在文本渲染、翻译、国际化等方面有大量真正有用的场景。通过更广泛的权限，你还可以给视频重新配音。这里有非常多值得探索的潜在应用。

主持人： 我在播客中最受启发的对话之一，是和XAI视频团队也就是Grok视频团队的Ethan聊过，他认为未来的趋势不再仅仅是单一模型，而是更多的视频AI Agent。他的观点主要是放弃试图在一次生成中完成所有任务。你们也有同感吗，还是说这仍然是一个未定论的研究方向？

Shane: 最让我兴奋的是，符号化的基础模型与视频基础模型能真正协同工作的时候。回顾图像和视频生成的早期发展，很大程度上是在大语言模型能够提供非常详细的字幕描述时才真正起步的。语言本质上是一种极具价值的表示方式。一方面它是通用的，另一方面从技术角度看，我的一个假设是，机器学习中一个极其困难的问题是“虚假相关性”。解决这个问题有两条途径，其一，是通过因果图上的所有干预获取极其多样化的训练数据；其二，是你在因果信息上进行条件设定。在语言上设定条件，就如同在世界的因果信息上设定条件。

主持人： 这是指提示词还是一个概念？

Shane: 没错。如果你观察一下自己是如何描述一段视频或一张图片的，你会发现这与我们描述事物生成背后的因果关系非常接近。这极大地赋予了模型丰富的泛化能力。

另外，八个月前我们发表了一篇关于评估的论文，题为《视频模型是零样本学习器和推理器》。核心观点是，视频模型是一个处理时空信息的极其优秀的基础模型。对于传统计算机视觉任务，很多都可以通过零样本解决，当你向它输入一些视觉测试题时，它已经能解题了。它甚至具备了像机器人视觉那样出色的物理直觉，就像一个世界模型。

我认为关键在于将视觉推理与文本推理紧密结合。当然，到底是通过统一的单一模型，还是通过AI Agent编排来实现，这会是一个渐进演变的过程。我设想最终所有东西都会融合进一个单一模型中。但就目前而言，如果你能将优秀的视频理解、图像理解能力，借助Omni赋予Gemini类似AI Agent的运作方式，你能做的事情还有很多。

主持人： 对于你们来说，最终的发展趋势是否会指向一个统一的产品？目前你们发布了多个模型，Omni这个名字本身似乎就暗示了最终所有的细分模型都会消失，一切都会整合进Omni中。这是你们的计划吗？

Dimitris: 我不知道。长远来看可能是，但目前在工程、研究和产品之间存在着不同的权衡。

Nicole: 是Nano Banana 2 Light。

Dimitris: 对，Nano Banana 2 Light。它服务于一个特定的细分市场。而且它大概率不能直接塞进能生成4K 30秒视频的模型里，它们在代码检查点上就不同，训练方式可能也截然不同。所以这取决于你把目光放多长远。五年后它们会变成同一个模型吗？很有可能。但在未来六个月里，我们肯定还会保留执行不同任务的多个模型。因为从实用主义的权衡来看，我们有必要保持模型的多样性。

Nicole: 我赞同这个观点。我们之所以给它命名为Gemini Omni，确实是为了暗示Gemini在未来会实现输入和输出端的完全多模态。这绝对是一个发展方向。但我们很可能会看到Omni在未来具备生成和编辑图像等各项能力。在通往那个未来的道路上，这些更垂直、更专业的模型仍然有大量极其有价值的应用场景。所以我们会继续研发这些模型，因为它们满足了当下的特定需求，而这种需求可能在一年后就不复存在了。

Dimitris: 这里还涉及到一个研究课题，即不同模态之间究竟存在多少迁移潜力。你可能认为代码编写和视频生成之间存在某种关联迁移，但我估计大多数人并不这么想。你既可以尝试去挖掘其中的联系，也可能觉得为了同时学习这两个任务而强行凑在一起纯粹是浪费资源。

所以这是一个非常有趣的问题。很明显图像和视频之间存在一定程度的迁移，同时学习输出视频和音频也是有价值的，因为视听联合本来就是事物的自然规律。但还有一些模态间的交叉则不是那么显而易见，比如3D表示和代码编写。探索这些不同的领域边界非常有价值，我们正围绕用户的实际应用需求积极进行相关探索。

主持人： 有个出乎意料但又没有得到充分解答的问题是，什么才是正确的中间表示？比如字幕描述，XAI团队用字幕描述，Omni团队也用字幕描述。我能理解字幕在图像上的作用机制，也明白你可以将其延伸到视频中并在时间轴上进行引导。但这种方式感觉非常低效，我觉得应该有更优的方案。也许是代码？显然很多视频是通过代码生成的，比如FFmpeg、Matplotlib，还有3Blue1Brown用的那个Manim，也许代码才是最佳的表示方式。对此有什么假设吗？

Shane: 在Gemini团队，我们在强化学习AI Agent和代码编写方面投入了大量精力。我们肯定在探索代码表示，将其作为一种更好的表示方式。

主持人： 但你认为我们最终直接输出二进制文件，也就是全都是1和0的概率有多大？

Shane: 我觉得这跟语言是不是正确的表示方式的讨论很相似。一位教授曾问过，为什么思维链必须用自然语言？能不能只用连续Token，也就是任意数量的额外计算？一方面，自适应算力能带来更好的结果。但让思维链真正发挥作用的原因在于，预训练可以遵循Scaling law进行大规模扩展，从而学习到海量的智能。你肯定希望能充分利用预训练模型中的智能。所以通过将推理过程与自然语言绑定，你实际上是在直接利用预训练阶段积累的智能来完成任务。如果你去掉了这种约束，你就失去了这个优势。现在我感觉，在多模态领域取得的许多进展，也是被“文本是一种极佳的表示方式”这一理念所驱动的。

Dimitris: 没错，文本是一个非常理想的底层基座。对我来说原因更简单，文本是我们人类交流的方式。从根本上讲，如果你在打造需要人类交互的产品，哪怕只是个文本界面，我们也会以某种方式使用文本。当然不是所有场景都用文本，所以默认使用文本是很自然的。显然这也存在争议，一些强化学习的原教旨主义者会认为，我们不在乎聊天机器人这种东西，但我个人对此持保留意见。

主持人： 强化学习至上主义者，我想知道谁符合这个描述。

Shane: David Silver。

主持人： 原来如此，他们刚刚离职去开启自己的事业了。我对更好的表示方法非常感兴趣，因为我们今天在世界博览会上策划的主题之一就是世界模型。你提到了世界模型这个词，但它的定义并不是特别明确。我认为大家都在向某种理想化的版本收敛。

Shane: 当然，现在一切都被称为世界模型。

Dimitris: 这其实没太大用处。

Shane: 我刚在ICLR的世界模型研讨会上做了一场主题演讲。我非常推荐大家去看看Jitendra Malik的定义，他是加州大学伯克利分校元老级的计算机视觉教授，他对世界模型的阐述非常精彩。另外还可以参考Schmidhuber在1990年是如何定义世界模型的。对我而言，世界模型基本上就是基于模型的强化学习中的那个模型，我觉得这样描述就足够了。当然李飞飞也写过一篇很好的博客文章，详细拆解了视觉智能。

主持人： 我确实认为，将语言作为传递所有信息的狭窄通道仍然是一种有损压缩。

Shane: 我们并不是那个意思。我们主要是说视频模型需要和语言模型结合起来。单靠语言是不够的，所以我们认为视频是一个非常具有互补性的基础模型。目前很多人觉得Veo和Omni只是在生成漂亮的视频，但我认为我们的愿景远不止于此。它是一个绝对不可或缺且当前缺失的基础模型。如果你想打造出能够媲美人类的AGI，而不仅仅是一个单纯依靠算力堆砌出来的AI，你就必须拥有它。

主持人： 另一件事是你提到了视觉方面，我很好奇在你们的研究生涯中，这种发展轨迹在多大程度上是平行的。很多做视觉研究的人已经跨界成为了研究世界模型的人，也有很多人转向了生成式视频和图像领域。这难道仅仅是把图像到文本反向操作，变成文本到图像这么简单吗？

Dimitris: 我肯定是经历了这样的转变。我很早以前就开始做计算机视觉、目标检测和识别等工作。那是一个相对简单的问题，而生成任务则困难得多。这是一种完全不同类型的映射关系，逆映射并不像直接反转函数那么简单。从“猫”这个词生成一张猫的图像，存在着更多的歧义性。

Nicole: 随着我们在理解端变得更好，生成端也变得更强了。这完全是一个相辅相成、自我提升的过程。我确实和很多做图像理解的人合作过，他们后来转做图像生成，然后其中一些人又转向了视频领域，因为那是下一个目标，有更多的维度可以探索。

Shane: 我强烈建议从理解和识别开始入手，因为那本质上就是判别器，这会引导出更好的生成效果，而两者之间的桥梁基本上就是强化学习。我的经历是，最初在生成模型领域做算法研究，随后我转向了强化学习和机器人技术。六年前我领导了一个关于机器人灵巧性操作的登月项目。四年前我意识到符号化AGI的发展速度将远超物理AGI，所以我决定投身于大语言模型等领域。最近在与Dumi及Omni团队的合作中，我非常享受这个过程。

当我审视视频模型时，它让我想起了早期的语言模型。最初的语言模型只是一个创意演示，比如在GPT-2和LSTM时代，你试图用它像写小说一样创作故事。随后指令微调真正让它作为聊天机器人具备了可用性。但在聊天机器人阶段，它仍然存在大量幻觉，指令遵循能力也不够好。当它在预训练和后训练中的推理能力变得足够好时，Test-time Scaling和强化学习才真正推动了许多顶尖模型的爆发。

我认为现在的视频模型正如我们提到的，是一个互补的基础模型，我可以想象它会遵循类似的路径。它在指令遵循方面会有很大的提升，也会大幅减少幻觉，最终达到成为一个非常可靠的世界模型的程度。这样我们就可以将视频时空模拟与文本模拟混合起来，以解决任意的AGI问题。

Dimitris: 此外，我认为文本模型与图像或视频模型之间的区别仍然在于，我们尚未在多媒体领域真正统一理解与生成。总的来说，据我所知，目前并没有多少前沿模型能够同时擅长视频的理解和生成。这是一个有趣的挑战。我并不是说我们必须要这么做，但理解和生成显然是一体两面的。所以它们理应在某些层面存在于同一个模型中，尽管我们目前并不总是这样做。

主持人： 你也提到了音频。它和视频一样难吗，还是在本质上有所不同？

Dimitris: 我认为在技术层面上确实存在一些差异，但相对较小。从我的角度来看，音频真正进入我的视野是在我们发布Veo 3的时候。我相信这是第一个实现音视频联合生成的模型。

主持人： 就是演示切金条的那个。

Dimitris: 没错，那是第一个实现音视频联合生成的模型。也有其他模型在底层通过AI Agent的拼凑修补来实现联合，但这个模型真正做到了同时生成所有内容。我们之所以这样做并且认为这是一个正确的选择，是因为从机器学习的角度来看，存在一个统一的潜在因果生成过程。有某种内在机制生成了你说话的过程，并不是说先生成像素，然后音频再由某个其他过程产生。嘴唇的动作必须与音频同步。

这解决了以前做法中存在的很多固疾。以前的做法是先生成像素，然后在上面修补一些东西，让嘴唇跟随生成的音频移动，效果非常差。在Veo 3之后，人们的反应是，你的模型里怎么可能没有音频，这根本说不通，既然有了视频就必须有音频。将它们置于一个单一的生成模型中是绝对正确的选择。

Shane: 还有一件事我想听听你们的看法，我发现音频与图像和视频的一个区别在于，音频信息很难被语言化。TTS之类的技术已经很成熟了，但除此之外，比如你如何用语言描述音乐，如何描述一个人的语调和音高？我觉得用语言表达是远远不够的。有趣的是，在味觉和嗅觉上你也看到了同样的现象。另一个例子是肤色，用来描述肤色的语言其实非常有限。

我觉得嗅觉、味觉、肤色和声音都与原始的生存本能紧密相连，以至于我们的感官系统极为敏感，难以用语言精准描述。我问过一位专业的品酒师，他说他会用约会时描述伴侣的语言来描述味道，因为没有足够的词汇来表达。我很好奇你们是否有同感。

Nicole: 在某种程度上视觉信息也是如此。当你试图描述任何我们通过感官信息体验到的事物时，语言往往会成为一个限制因素。呼应你刚才的观点，这正是我们投资世界模型、大力推进感知和生成端研究的原因，因为这构成了我们人类感知和探索世界的重要方式。语言已经让我们走得很远，也可能让我们走得更远，但在许多这些领域中它让人感觉受到了限制。

主持人： 世界上有大量的信息，这基本上解释了我们为什么要做世界建模。你刚才提到，你只需要输入“sref 76”这样的参考参数，然后这就成了你的输出。

Nicole: 我猜也许我无法用语言描述这种感觉，但这正是提供这些参考参数的意义所在。

主持人： 作为一名播客，我经常思考声音的问题。我将原始音频大致分为三个领域：音乐、人声和音效。比如，大房间和小房间的混响，面对面交谈、在车里或者通过电话交谈的区别。所有这些都是可以被标注的，但我们的体验却截然不同。我经常觉得AI视频的一个破绽就是它具有工作室级别的音质，因为它是在录音室里录制的，这受限于训练数据。最有趣的一点是，当我试图说服那些对世界模型的必要性持怀疑态度的人时，我会说即使是音频你也需要世界模型。比如我现在离你远了一点，所以我的声音应该听起来更轻柔或更分散。视频模型需要捕捉到这一点。

Shane: 我非常喜欢这个关于是否是“工作室音质”的例子。在某种程度上，我们没有足够的语言来真正描述这种混响或环境噪音。我认为拥有信息相对丰富的标注非常重要的原因在于，我们依赖自然语言作为一种表示。但如果你没有足够的表示能力，那就意味着在给定语言条件的情况下，生成过程具有极强的多模态属性。如果我们能从非常早期的变分自编码器研究中学到什么的话，那个核心理念就是我们希望在潜在表示中捕捉大部分的随机性，然后给定Z生成X的过程应该是确定性的。

Nicole: 甚至面部表情也是如此。这呼应了你刚才关于我们对某些事物极其敏感的观点。我认为你也可以从人们的面部表情中轻易识别出大量的AI内容。皮肤纹理等这些能让现实生活中的事物看起来真实的细节依然是挑战。我可以通过你点头的方式或者微表情的变化，来判断你对我所说的话的反应。我认为我们还没有完全跨越那道鸿沟，尽管我们已经比一年前好太多了。

但在很多我们作为人类极其敏感的细节上，还有非常大的提升空间。不过我认为图像领域可能已经做到了，因为有很多图像看起来真的与现实毫无区别，我根本无法分辨它们是否是AI生成的。

Dimitris: 它们甚至比现实更完美。

Nicole: 那是另一个层面的问题了。

Dimitris: 不，我是说比我在度假时拍的照片还要好。我们团队之前做过一个有趣的实验，试图验证我们能否生成比真实视频更好的视频。你只需提取真实视频的字幕，尝试描述一段真实的视频，然后用Omni生成同等版本的视频，接着进行人工评估。结果发现人类在很大程度上更偏爱AI生成的视频，而且优势非常明显。

主持人： 因为这是强化学习的过程在起作用。

Dimitris: 这完全取决于你如何去合理化它。它未必是强化学习过程的功劳。我并不是说这是一个好结果，我只是说我们在优化方式上可能触发了人类大脑中的某种机制，让人觉得很多视频看起来就是更好。如果深入考究，它们实际上并不一定更有用，但如果你只是把一段随机的优兔视频和它生成的版本并排对比，它看起来就是更好，因为它更清晰，或者拥有更高的HDR。肤色也更好。再说一次，它不是更真实，也不一定能解决你的问题，但它看起来就是更好。

Shane: 我觉得这也取决于人们的敏感度。我在日本出生长大，我了解的一点是，他们对建筑和食物等极其敏感。我和那里的一位漫画家交流过，他对图像生成AI感到非常反感。他提到的一点就是视线。仅仅是视线上的微小差异，就让他觉得令人毛骨悚然、极不自然。

Dimitris: 我想表达的是，在决定优化目标时，人类的偏好并不是一个特别可靠的风向标。如果你只是去问大家是否喜欢这个，你得到的结果未必是你真正想要的。

Shane: 让我补充一点，四年前有一场关于提示工程是否会消失的争论，一些业内大佬说它会消失，但我当时的观点是它不该消失。因为当你对AI有控制权时，进行提示工程，也就是下达具体指令，是你控制输出的唯一方式。而让你能够进行提示工程的，恰恰是那种敏锐度。诚然，也许现在AI可以做大量的自动提示，也能生成还算过得去的内容，但永远不要满足于AI自动生成的内容，要不断微调你的敏锐度，并始终通过提示去探索差异。

Nicole: 就这一点而言，我认为未经训练的普通人眼光与专业人士之间存在着巨大的鸿沟。我把自己也归为普通人，虽然我有一些审美感知。你刚才举了漫画家的例子，那是经过几十年技艺打磨的人。无论是做设计还是建筑，任何从事这些行业的人都具备截然不同的专业水准，能察觉到普通人看不到的细节。但Dimitris说得对，如果你在大街上随便找十个人做调查，他们大概率会更喜欢那种过度平滑、色彩非常饱和的风格。

主持人： 这就是所谓的照片墙滤镜。

Nicole: 没错，就是这样。所以这也带来了一个问题，如果你不给出具体提示，默认审美风格应该是什么。但回到Shane刚才的观点，我们一直努力提升这些模型的一项能力就是指令遵循，这样当你希望模型生成不同的效果时，你能够做到，无论是通过语言还是参考图，因为有时候语言的局限性太大了。这些模型在这方面确实在不断进步，但还有很长的路要走。

主持人： 作为一名产品总监，你会因为要为全世界设定默认风格而感到压力吗？

Nicole: 也许我应该有这种压力，我不知道，我还没想过这个问题。

Dimitris: 实际上，我们确实考虑过这个问题。举个例子，如果大家看看Nano Banana生成的内容，当Nano Banana专业版发布时，曾出现过Nano Banana信息图表的大爆发。许多神经信息处理系统大会的论文里到处都是它生成的信息图表。这其实让人挺头疼的，因为我觉得我们默认的审美风格有点太杂乱了。我觉得模型就像个用力过猛的学生，它刚学到点东西，就会觉得，“我知道关于这个概念的所有信息，让我把它们全塞进同一张图里吧”。

Shane: 在东亚特定地区的信息图表设计中，那种高密度风格的信息密度是这个的五倍。

Dimitris: 不过在开发全能版模型时，我们确实一起经历了整个过程，在最后阶段，我们做了一堆测试，比如我们做了一些调整，那么我们更偏好哪种风格，是更柔和一点，还是饱和度更高一点。

Nicole: 我们当时对饱和度进行了大量的讨论。

Dimitris: 她全程参与了这个过程，就是决定我们到底更偏好哪种调色板。这并不是你需要做出妥协的地方，正是因为最终做决定的是我们自己，说实话，最终拍板的就是模型团队。大家可以合理地提出质疑，我们真的是做这件事的最佳人选吗，还是说我们应该和一个具有真正创意视角、更像艺术总监的人合作，我们在这个问题上确实反复讨论过。

主持人： 我们有受信任的测试人员。

Nicole: 我们确实有提供大量反馈的受信任测试人员，而且我们非常重视这些反馈。

主持人： 顺便说一句，他们组织得非常好，有定期的周会之类的，非常棒。

Nicole: 洛根的团队做了很多这方面的工作，所以要向今天没能到场的洛根致敬。我们在谷歌内部也有很多人，比如Foefer，每次我们发布新的模型权重检查点时，他们都会给我们提供海量的反馈。有时他们会发现我们没注意到的问题，我们可能觉得这个优化看起来还行，然后他们就会跑回来说，“你们干了什么，你们把我的草地全毁了，现在的细节全糊了”。

Dimitris: Mickey最近刚好注意到，我们的模型总是倾向于在手上画婚戒。这确实非常奇怪，我以前从来没注意过。但他看到了，而且有一个专门的反馈频道供他发布这些，他就问为什么每只手上都有婚戒。当时我的反应是这太奇怪了，听起来非常像典型的奖励机制破解。

Shane: 我不知道，毕竟偏好空间非常大，然后模型可能就偏向了那一点。虚假相关性、奖励机制破解，它可能以很多诡异的方式发生。

主持人： 这又引出了另一个话题，就是模型评估。我们有专门的评估环节，你们是如何评估视频的，除了依靠Foefer之外。我觉得需要有一些更定量的方法。

Nicole: 这绝对是一种方法，其实这非常难。让自动评分器去评估视频里的东西非常困难，特别是涉及审美之类的层面。有些东西会稍微客观一点，特别是当我们讨论图像以及评估信息图表的文本渲染时，那其实还好。因为你可以用光学字符识别把文字提取出来，然后判断字母是否正确。根据我们的发现，这类东西更容易用自动评分器评估。但我们很大程度上仍然依赖人工审查，所以我们做了大量的人工评估。

每次Shane提出新的想法，每次我们有了新模型，我们想做更多事情，想加入更多能力，然后我们就不得不运行更多的评估。到最后，如果有两个模型表现得非常接近，我们就得把它们生成的输出并排放在一起看，借此来做决定。有时候我们十个人坐在一个会议室里，就盯着并排播放的视频看，然后讨论你更喜欢这个，还是更喜欢那个。

Shane: 实际上，当你加入的能力越多，评估就真的越复杂。即便是单个能力，比如视频编辑，它几乎是一种具备AGI完备性的能力，想想视频编辑以及带音频的编辑。

Dimitris: 我不知道它是不是最难的，但绝对名列前茅。就评估的复杂性而言，自由形式的视频编辑是你可以做任何事。我在这上面花了很多钱，真的很难，请帮帮我。比如添加某些元素，我们并没有一个叫作“添加一只树懒”的评估项。

Nicole: 我们现在应该加上了。

主持人： 我只是对你们使用的样本量感到惊讶。为了测试你们模型的整个功能覆盖面，你们仍然依赖于数百个数量级的人工测试。

Nicole: 并不是这样，我们做的工作远不止这些。我们对数千个项目进行大量的人工评估。我觉得这里还有一个因素，我们可以讨论像线上实验这样的东西，在这个更大规模的层面上，你能捕捉到那些更微小差异的信号。然后是自动评分器，这绝对是一个方向。我觉得它在大语言模型领域是一个非常明确的方向，但在媒体模型领域还处于非常早期的起步阶段。有时你仍然需要依赖人工判断。我们确实非常依赖那些有着极高审美素养的人，以及那些在日常工作流中频繁使用这些模型的人提供的反馈。因为一个模型可能在某些人工评估切片中表现极佳，但却会严重破坏某个人的实际工作流。这就是为什么我们要开展抢先体验项目并试图获取反馈，尽量在更广泛地发布之前将其融入进模型里。

Shane: 每一类人类的工作都应该逐步通过自动化分摊成本。有趣的是，视频理解，尤其是针对AI生成视频的检测，是一项极其有趣的视觉任务。其中一部分是审美或视觉质量，但在某些情况下，它在语义上是不合逻辑的。比如，你拿电影里的一个经典场景试图去重建它。模型能生成出一些画面，但在某一点上一些语义信息是不合理的，它实际上是前后不一致的。那么AI能检测出这一点吗？所以当我评估AI视频时，我当时就觉得，我觉得自己好聪明，AI还是落后的。但我们应该投入大量精力。我认为，超越纯粹的审美或偏好，视频理解是一项极其重要的智能任务。我们应该始终努力去自动化替代人工标注。

主持人： 你们需要什么数据？和我聊过的很多人实际上都很想见见你们。他们有大量的视频数据，他们有游戏数据，他们有真实世界的视频数据，他们有图像，他们有标注员。你们想要什么？

Dimitris: 这个问题话里有话。我不确定是否有一个简单的答案。我认为我们确实已经拥有了大量数据。但在公开场合谈论这个有些敏感。

主持人： 我不想给你惹麻烦。

Dimitris: 但我想说的是，很难在不透露我们项目进展和未来方向的情况下去讨论这件事。总的来说我们确实需要高质量数据，这也不是什么秘密。

主持人： 具身智能数据吗？

Dimitris: 当然。我们已经公开宣布过在机器人领域有一些合作。因为我们在Google DeepMind有一个机器人团队，他们一直对这类数据非常感兴趣。具体到Omni模型而言，我们对高质量数据非常渴望。这类数据不一定是随机的YouTube视频，而应该是一些更专业的拍摄素材。这些都是我们一直在积极寻找的资源。

Nicole: 我觉得探讨一些AI Agent相关的工作可能会更容易回答这个问题，也就是人们试图完成的“实际任务”。无论是由我们自己还是供应商来做，这类数据实际上都很难凭空制造。比如你在策划一场营销活动，实际的过程究竟是怎样的？你是从拿到新产品的照片开始，想把它做成视频广告，接着再把它转化成一系列能够适配不同平台推广格式的素材吗？从上一步到下一步，你在这个过程中经历的任务轨迹到底是什么？这些数据非常有用但获取难度极大。因为我们并不总是有合适的第一方平台界面让用户真正去执行这些操作。大量此类信息其实都散落在人们日常执行任务的真实场景中。如果有人找到了获取这些数据的解决办法，请务必联系我们。

Shane: 包括每一个思维链，每一个思维链都至关重要。

主持人： 作为一个媒体人，我知道有许多播客创作者和营销部门的从业者都非常乐意成为你们的数据源。因为大家总是有做不完的工作，而这些工作在某种程度上需要转变成一种标品。显然对于真正高质量的内容，你可以像工匠一样精雕细琢，甚至对标好莱坞的标准，但实际上现实中大量的工作都属于流水线化的标品，完全可以通过AI模型来模拟，我们也希望你们能够去实现这一点。

Nicole: 正如Dimitris所指出的，我们也非常渴望获得高质量的数据，我们确实极其看重数据质量。

主持人： 你们既想要高质量也想要标品化，两方面都想兼顾。

Shane: 感谢你的主动推介。

主持人： 我还特意安排了一个数据质量的专场。我认为大家都想了解在AI领域如何进一步提高标准。这在很大程度上需要教育市场、教育研究人员、工程师以及创始人，明确告诉他们这就是我们未来的发展方向。现有的大量数据其实都是垃圾数据，大家不要再制造那些低质内容了，而应该把精力放在真正有价值的地方。我觉得业界是会听取这些建议的。

Nicole: 但就这一点而言，这其中其实蕴含着很多难以标准化的手艺和繁琐的流程。即使是刚才提到的营销活动的例子，你也不可能在五分钟内就轻松搞定。你需要经历一个完整的设计过程，不断进行迭代，最终选择这个方案而不是另一个方案，可能仅仅是因为某些特定原因让你更偏爱它。比如海报上人物的眼神注视方向刚好对了。我们其实并不清楚这些微妙的细节，因为我们都不是营销总监，而AI同样也不懂这些人类的隐性偏好。

Shane: 甚至对于自然语言，我也是同样的观点。我常说99%的信息都存在于人的大脑中。你只能通过积极的对话并与他们建立深厚的联系才能提取出这些信息。因此互联网上的绝大多数内容，其实都仅仅是这些人类内在思考的最终输出结果。但这背后的思考轨迹到底是什么，灵感源于何处，又是哪些对话激发了这一切，这些过程都深藏在人们的内心深处。所以即便是语言领域也是如此，创意领域也是完全相通的。这其中存在大量难以言传的隐性知识。

Nicole: 这就像写小说一样。一部小说之所以能打动你，通常是因为你在故事架构、情节走向或者角色身上感受到了一种强烈的个人共鸣。如果你去读今天大语言模型生成的绝大多数内容，就会发现它们往往会陷入一些默认的行文模式，语言开始让人感觉千篇一律，所有的场景描写听起来都极其相似。读者会很快意识到这没什么意思，因为根本无法与之产生情感共鸣。这再次证明了人类专业知识的独特价值。

Shane: 最近一个很好的趋势是，谷歌云和Google DeepMind开始在前沿部署工程师岗位上投入大量资源。我也看到了一些针对创意和生成式媒体领域的招聘动作。我认为这些都是非常务实的努力，因为我们已经意识到仅仅依靠公开数据能做的事情存在上限，但通过与实际应用场景的合作模式，我们可以提供更好的模型和产品，并获取真实世界的业务反馈。

主持人： 我们在这里也首次设立了前沿部署工程师的专场讨论。现在几乎每个AI实验室都在宣布相关的计划，这进展真的很疯狂。我非常热衷推动的一件事，就是不应仅仅把前沿部署工程师视为销售和解决方案提供者，而是要让他们也深度参与到模型评估工作中，成为专业的评估员。

Shane: 前沿部署工程师绝不仅仅是销售，他们的职责范畴要比销售宽广得多。

主持人： 那你怎么定义前沿部署工程师呢，因为我确实会不由自主地把他们和销售联系起来。

Shane: 我将后训练定义为从预训练阶段到最终用户体验之间的所有环节，这中间的一切流程都属于后训练。前沿部署工程师的核心不仅在于与客户合作并确保他们知道如何有效使用模型，更重要的是从中提炼出能让研发和客户双方都受益的深刻洞见。客户可以在使用模型的过程中建立大量的Harness工程，而我们则可以借此在非常上游的研发环节进行针对性改进。因此，如何将客户的真实反馈有效地反哺到模型的开发过程中，这正是我想赋予前沿部署工程师的核心角色。

Nicole: 补充一点，如果业界同仁想和我们团队交流，我们其实非常乐意，因为与正在使用我们AI模型的人沟通并了解他们遇到的实际痛点，对我们来说具有巨大的帮助。比如我会和一些使用我们图像模型做室内设计的设计师交流，他们会反馈说自己真的很想采用某个特定图案，但需要把它等比例缩放应用到十种不同尺寸的地毯上，而且有时候地毯尺寸非常特殊，此时模型在复制图案时就完全失败了。或者他们会遇到虚拟试戴耳环的场景，耳环有特定的比例，用户的头部也有特定的比例大小。如果真的要做虚拟试戴，这些物理比例关系必须非常合理，而模型恰恰在处理这些真实世界里发生的诸多细节上屡屡翻车。所以这些来自一线的反馈对我们极具价值，因为我们研发团队本身并不在业务一线使用模型做这些具体任务，也就很难察觉到这些应用盲区。

Shane: 结合你刚才提到的营销活动的例子，企业往往有品牌语言这样的视觉规范概念。可能就是一堆图像或者设计文档在传达某些理念，但这给模型处理带来了模棱两可的问题。到底什么是宜家的品牌语言？难道仅仅是蓝色和黄色的简单组合吗？那显然不足以构成一个品牌的全部。各大品牌的要求都非常具体，他们确实极其在乎具体的颜色色调。它绝不能只是随机的蓝色配上随机的黄色，那样拼凑出来的就不会是宜家了。解决这些品牌特定的微观需求不一定属于我们开发前沿模型的核心职责，但我们确实希望从根本上打造出人们能用来解决具体业务任务的实用产品，而不仅仅是停留在实验室里的研究产物。所以深刻理解用户在真实场景中真正关心什么是非常有必要的。

主持人： 我相信很多人都非常感谢你们在AI领域所做的开创性工作，当然未来也还有很长的路要走。哪怕只是在过去几年里，你们在Nano Banana、Veo和Omni模型上就已经取得了如此巨大的进展，我们真的非常期待。之前当Sora沉寂的时候我是非常失望的，我认为除了让AI写代码之外，我们需要对生成式模型在多模态领域进行更广泛的探索，我觉得那是至关重要的方向。

Nicole: 我们显然也非常看好这个探索方向。

主持人： 虽然我们都热爱写代码，但生成式AI的潜力远不止于此。非常感谢你们抽出时间参与交流，这次对话非常愉快，我已经迫不及待想看到你们团队接下来的最新进展了。

Nicole: 感谢你的邀请，今天的探讨非常深入。

Dimitris: 谢谢大家。

| 文章来源：数字开物

上一篇：凯瑞德8000万元投资宇航级存储芯片，标的投前估值6亿元
下一篇：时间会随机“摇晃”？后量子引力理论或解开物理最大谜题

Gemini, AI视频生成, Google DeepMind, 大模型评估, 强化学习

Google DeepMind圆桌探讨：谁“规定”了AI视频生成的默认审美与Omni API新发布

发布回顾：Nano Banana 2 Light 与 Omni Flash API 首发

相关帖子