云栈社区»论坛 › 开发者广场「Dev Plaza」 › 画得越真就越聪明？ViGoR-Bench基准测试揭示生成模型物理推理短 ...

5761 积分	0 好友	756 主题

发消息

画得越真就越聪明？ViGoR-Bench基准测试揭示生成模型物理推理短板

发表于 2026-4-6 12:35:48 | 查看: 115| 回复: 0

Sora能生成逼真的物理世界视频，GPT-image-1能画出精美的插画。然而，当任务从“生成”转向“推理”——比如让它们解答一道物理题、规划一条迷宫路线，或者按步骤组装一个乐高模型时，会发生什么？

清华大学与美团M17团队联合进行的一项大规模基准测试给出了答案：大部分视觉生成模型在此类需要推理的任务上表现极差。

他们构建了一个名为 ViGoR-Bench 的评测基准，专门用于检验视觉生成模型的推理能力。测试覆盖了超过20个主流模型，横跨图像编辑、视频生成与统一生成模型三大类别。结果揭示了一个与画面逼真度背道而驰的残酷现实：在越来越真实的视觉表象之下，隐藏着一片广阔的“逻辑沙漠”。

ViGoR-Bench概览图表：展示数据分布、案例与模型性能对比

CLIP-Score与FID指标无法捕捉的盲区

评价一个图像生成模型的好坏，业界通常依赖FID（Fréchet Inception Distance，衡量生成图像与真实图像的统计分布距离）和CLIP-Score（评估图像与文本描述的语义匹配度）。

然而，这两个主流指标存在一个共同的致命缺陷：它们完全不关心生成内容背后的推理是否正确。一张画面极其精美、且与文本提示高度匹配的图片，完全可能包含违背物理规律的荒谬错误。例如，水向上流动、影子方向矛盾、或者齿轮传动关系错误，这些逻辑谬误在FID和CLIP-Score的评分体系中不会被扣分。

此前也有一些基准测试尝试评估推理能力，但它们通常只聚焦于单一模态，例如仅测试图像编辑或仅测试视频生成，缺乏一个能将各种生成模态统一起来的评估框架。并且，多数测试只关注最终的生成结果，忽略了模型在生成过程中的推理链条是否合理。

ViGoR-Bench如何进行全面评测？

ViGoR-Bench构建与评估流程示意图

ViGoR-Bench基准涵盖了多达20个不同的推理维度，并将其归纳为三大核心类别：

物理推理：涉及力学、光学、流体、热力学等物理规律的认知与应用。
知识推理：需要社会常识、文化背景、生物知识等跨领域知识的理解。
符号推理：包括数学函数可视化、空间规划、逻辑谜题求解等抽象任务。

评测覆盖了三种主流的任务形态：单次图像编辑（I2I）、序列图像编辑（I2Is，需多步完成一个目标）和图像到视频生成（I2V）。这使得ViGoR-Bench成为首个将三种生成模态统一纳入评估的基准测试。

其评估体系采用双轨制：过程评测与结果评测。这意味着它不仅判断最终生成的图像或视频是否正确，还深入检查模型在生成过程中的每一步推理链是否合理。例如，在一个组装乐高的任务中，评估不仅要看最终模型是否拼装完成，还要审视其每一步放置积木的位置和顺序是否正确。

ViGoR-Bench任务套件概览，展示三大推理领域下的20个子任务示例

在自动化评判方面，研究团队采用Gemini-2.5-Pro作为“裁判”。为了确保评估的可靠性，他们进行了严格的验证：将AI评判结果与三位人类专家的评分进行对比，准确率达到了73%-78%，表明其稳定性和可靠性已与人类评审相当。测试还发现，是否为评判者提供标准答案作为参考，会显著影响评判质量。这种“有据可查”的评判方式，远比让模型“凭感觉打分”要可靠得多。

20余份成绩单：关键发现与短板

ViGoR-Bench主要实验结果表格

对超过20个模型的测试结果进行分析后，几个关键发现浮出水面：

闭源模型优势明显：Nano Banana Pro在多数评估指标上位列第一，Sora 2 Pro则在视频生成类任务中表现突出。一个明显的趋势是，在需要复杂推理的任务上，开源模型与闭源模型之间的性能差距，比在普通内容生成任务上更为显著。
有推理链不等于推理正确：团队专门测试了思维链对生成质量的影响。结果显示，CoT确实能让模型的生成过程变得更加可解释（用户能看到模型“思考”了什么），但这并不保证最终结果的正确性。部分模型在引入CoT后，其过程评分有所提升，但最终结果分数反而下降了。这说明，“能思考”和“能思考正确”是两回事。
物理与符号推理是最大短板：涉及物理规律（如力学平衡、光学反射）以及抽象符号推理（如数学函数绘图、迷宫求解）的任务，对绝大多数模型来说都是巨大挑战。仅有像Nano Banana Pro和Sora 2 Pro这样的顶级模型，才能在部分物理推理任务上给出正确答案。开源模型在处理复杂推理指令时，常常出现“幻觉”（生成无关或错误内容），或者直接忽略指令中的关键约束。例如，在一个迷宫任务中，规则明确要求路径不能穿墙，但模型生成的路线却径直穿墙而过。

生成模型的下一道关卡：从“像不像”到“对不对”

这份详尽的测试报告指出了一个清晰的发展方向：视觉生成领域正从追求“画得像不像”的阶段，迈入考验“画得对不对”的新纪元。

当前的生成模型在视觉逼真度上已经取得了长足进步，但其内在的推理能力仍存在巨大鸿沟。ViGoR-Bench的价值在于，它将这种差距进行了量化，并拆解到具体的认知维度，让开发者能够清晰地看到当前模型在哪些类型的推理上最为薄弱。

此外，关于“CoT并非万能药”的发现也颇具启发性。能够陈述推理过程与能够进行正确推理是两种不同的能力。生成模型若想真正具备可靠的推理能力，可能需要的不仅是简单地“附加一个思维链”，而是更底层、更根本的架构性变革。对这项研究感兴趣的朋友，欢迎到云栈社区的相应板块继续探讨。

上一篇：Django创始人吐槽：代码不值钱了，AI让我上午11点就耗尽脑力
下一篇：深度研究系统评测：OpenAI事实性最强，MiroThinker综合领先

生成模型, ViGoR-Bench, 物理推理, 多模态评估, 基准测试