云栈社区»论坛 › 开源实战「 OpenSource 」 › VLM通用推理新突破：Game-RL如何利用游戏数据实现跨域能力提升 ...

3467 积分	0 好友	455 主题

发消息

[Python] VLM通用推理新突破：Game-RL如何利用游戏数据实现跨域能力提升

发表于 2026-4-2 12:09:51 | 查看: 99| 回复: 0

视觉语言模型（VLM）的强化学习（RL）训练目前往往局限于几何题、图表分析等特定场景。这种领域上的局限，无疑制约了VLM更广泛能力的探索和提升。

那么，如何拓展VLM的强化学习训练领域呢？复旦大学自然语言处理实验室的研究团队提出的 Game-RL 给出了一个富有创意的答案。

该研究通过合成多模态的可验证游戏数据用于强化学习，成功激发了VLM的通用推理能力，并使其能够泛化到多个完全域外的通用测试基准上。更有趣的是，使用游戏数据进行训练的效果，竟然可以与专门针对几何图表的数据相匹敌。而且，扩展训练所使用的游戏种类和数据量，还能为模型带来持续的性能提升。

这些发现强烈暗示：在游戏环境中进行规模化（scale）的强化学习，很可能成为提升模型通用推理能力的一个重要方向。

Game-RL论文标题页

论文标题：
Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning

论文链接：
https://arxiv.org/abs/2505.13886

项目网站：
https://iclr26-game-rl.github.io

代码仓库：
https://github.com/tongjingqi/Game-RL

数据和模型：
https://huggingface.co/collections/OpenMOSS-Team/game-rl

1. Game-RL：对VLM强化学习训练领域的重要拓展

电子游戏通常具备视觉元素丰富、规则明确且可验证的特点，这使其成为理想的多模态推理数据来源。基于此洞察，研究团队提出了 Game-RL —— 即构造多模态可验证的游戏任务来对VLM进行强化训练。下图展示了所合成的游戏数据中的几个代表性示例。

GameQA数据集游戏任务示例：3D重建、七巧板、数独、推箱子

图1：GameQA 数据集中各游戏类别的代表性任务：3D 重建、七巧板（变体）、数独和推箱子。每个游戏展示两个视觉问答示例，包含当前游戏状态图片、相应问题，以及逐步推理过程和答案。

2. 从游戏代码到训练数据：Code2Logic方法的巧思

为了大规模获取高质量的训练数据，团队提出了一种新颖的 Code2Logic 方法。该方法通过游戏代码，系统化地、自动化地合成可验证的游戏任务数据。

如下图所示，整个流程利用强大的大语言模型（LLM）分三步完成：首先生成游戏代码，接着设计任务及其问答模板，最后构建数据引擎代码。完成后，只需执行这段数据引擎代码，便能自动、批量地生成训练数据，并且能够灵活控制样本的难度和生成的数据量。

Code2Logic方法三步流程图

图2：Code2Logic 方法示意图。借助 LLM 通过三个核心步骤将游戏代码转换为推理数据：第一步：游戏代码构建；第二步：游戏任务及其 QA 模板设计；第三步：数据引擎构建。基于前两步构建自动化程序，执行代码即可自动批量生成数据。

3. GameQA：一个丰富的游戏任务数据集

利用上述 Code2Logic 方法构建的 GameQA 数据集，不仅能够用于评测VLM的推理能力，更可作为多模态可验证的游戏任务数据来强化训练VLM。

GameQA 数据集规模可观，包含：

4大认知能力类别（如3D空间推理、策略规划等）。
30个不同的游戏。
158种推理任务。
超过14万个高质量的问答对。

此外，数据还进行了精细分级：任务按推理难度分为三级；样本则按视觉输入的复杂度分为三级。

GameQA数据集的30个游戏分类

图3：GameQA 包含的 30 个游戏，分为 4 个认知能力类别。其中20个域内游戏用于训练和测试，而10个域外游戏不参与训练，专门用于测试模型在未见游戏场景下的泛化能力。

4. 核心发现一：Game-RL带来了可泛化的通用推理能力提升

研究团队使用 GRPO（Group Relative Policy Optimization）方法在 GameQA 数据集上对多个开源VLM进行训练。结果显示，经过训练的模型在 7个完全域外的通用视觉语言推理基准（如 MathVista, MMBench, MMMU 等）上均取得了显著提升。以 Qwen2.5-VL-7B 模型为例，其平均性能提升了 2.33%。这充分证明了 Game-RL 训练方法具备优秀的跨领域泛化能力。

模型在通用视觉基准上的性能对比表格

表1：在通用视觉语言推理基准上的评测结果。经过 GameQA (GRPO) 训练后，多个开源VLM模型（如 InternVL2.5-8B, Qwen2.5-VL-7B）在多个基准上均显示出性能提升（+X.XX）。

5. 核心发现二：游戏数据训练效果竟匹敌几何数据

为了评估游戏数据的“竞争力”，研究团队将其与专门的几何与图表推理数据集进行了对比训练实验。令人惊讶的是，GameQA 数据训练出的模型表现，完全可以与后者相匹敌。

如下表所示，尽管 GameQA 的训练数据量更少，且与测试基准的领域不完全匹配，但其训练出的模型在通用基准上的总体表现极具竞争力。更引人注目的是，在 MathVista 与 MathVerse 这两个与几何、函数推理高度相关的基准上，Game-RL 训练带来的提升甚至超过了使用更“对口”的几何数据进行的训练。

这一发现表明，游戏中蕴含的认知多样性和复杂的推理过程，具有强大的通用性和迁移能力。

Game-RL与其他多模态数据集训练效果对比表格

表2：不同训练数据的对比实验。使用5K GameQA样本训练的模型，其表现与使用8K其他多模态推理数据（如MAVIS, MultiMath）训练的模型相当甚至更好。实验还显示，将GameQA数据与MultiMath数据混合训练，能带来进一步的性能提升。

6. 核心发现三：训练数据量和游戏个数的扩展效应（Scaling Effect）

研究进一步探索了规模扩展的影响：

数据量的扩展效应：将训练的 GameQA 数据量增加至 20K，实验显示模型在通用推理基准上的表现总体呈持续提升趋势。
游戏个数的扩展效应：随着训练所使用的游戏种类增多，模型在域外任务上的泛化效果也相应增强。使用20种游戏进行训练，其提升效果明显优于仅使用4种游戏的配置。

训练数据量扩展对模型性能的影响折线图

图4：训练数据量的 Scaling Effect。随着训练阶段推进（数据量增加），模型在多个基准上的得分总体呈上升趋势。

训练游戏种类扩展对泛化性能影响的雷达图

图5：游戏个数的 Scaling Effect。使用20种游戏（蓝色线）的任务进行训练，模型在域外通用基准上的提升幅度，普遍优于仅使用4种游戏（紫色线）的配置。

7. 深度剖析：Game-RL具体提升了模型的哪些能力？

为了更好地理解 Game-RL 究竟如何提升VLM的推理能力，研究团队进行了细致的案例人工分析。结果显示，经过 Game-RL 训练后，模型在视觉感知和文本逻辑推理两个方面均获得了提升。

例如，在下图展示的案例中，训练后的模型能够更准确地从图表中提取关键信息（红色虚线代表的数据序列始终维持在最高值），并做出正确的推理判断，而训练前的模型则出现了明显的感知和推理错误。

Game-RL对模型视觉感知与文本推理能力影响的定性分析图

图6：人工定性分析结果。上方饼图显示，在域外基准上，多数样本的视觉感知和文本推理能力保持不变或得到改善。下方是一个具体案例，展示了训练后模型视觉感知能力的提升：能够正确识别图表中“observed values X_t”数据序列始终保持相对最高值。

8. 结论与展望

本研究提出了 Game-RL 框架以及可验证游戏数据合成方法 Code2Logic，并构建了大规模的 GameQA 数据集，成功将VLM的强化学习训练领域拓展至丰富多样的游戏场景。

实验充分证明，Game-RL 能够有效提升VLM的、可泛化的通用推理能力。游戏数据作为一种优质的多模态训练数据源，其训练效果可与传统的几何图表数据相媲美，并且展现出良好的规模扩展效应。

这些结论为未来人工智能的研究指明了新的可能性：在游戏环境中进行规模化的强化学习，是提升模型通用推理能力一个极具潜力的重要方向。对于致力于AI前沿探索的开发者而言，这项研究无疑提供了宝贵的思路和工具。我们也可以在云栈社区等开发者平台上继续关注和讨论此类技术的后续发展与应用。

上一篇：百度AI资本局：李彦宏携昆仑芯、百图生科、爱奇艺密集赴港IPO
下一篇：SwiftTailor 两阶段框架：几何图像表示如何驱动高效3D服装生成

视觉语言模型, 强化学习, 游戏数据, 通用推理, 多模态人工智能