找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2749

积分

0

好友

365

主题
发表于 5 天前 | 查看: 25| 回复: 0

视觉语言模型(VLM)的强化学习(RL)训练目前往往局限于几何题、图表分析等特定场景。这种领域上的局限,无疑制约了VLM更广泛能力的探索和提升。

那么,如何拓展VLM的强化学习训练领域呢?复旦大学自然语言处理实验室的研究团队提出的 Game-RL 给出了一个富有创意的答案。

该研究通过合成多模态的可验证游戏数据用于强化学习,成功激发了VLM的通用推理能力,并使其能够泛化到多个完全域外的通用测试基准上。更有趣的是,使用游戏数据进行训练的效果,竟然可以与专门针对几何图表的数据相匹敌。而且,扩展训练所使用的游戏种类和数据量,还能为模型带来持续的性能提升。

这些发现强烈暗示:在游戏环境中进行规模化(scale)的强化学习,很可能成为提升模型通用推理能力的一个重要方向。

Game-RL论文标题页

论文标题:
Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning

论文链接:
https://arxiv.org/abs/2505.13886

项目网站:
https://iclr26-game-rl.github.io

代码仓库:
https://github.com/tongjingqi/Game-RL

数据和模型:
https://huggingface.co/collections/OpenMOSS-Team/game-rl

1. Game-RL:对VLM强化学习训练领域的重要拓展

电子游戏通常具备视觉元素丰富、规则明确且可验证的特点,这使其成为理想的多模态推理数据来源。基于此洞察,研究团队提出了 Game-RL —— 即构造多模态可验证的游戏任务来对VLM进行强化训练。下图展示了所合成的游戏数据中的几个代表性示例。

GameQA数据集游戏任务示例:3D重建、七巧板、数独、推箱子

图1:GameQA 数据集中各游戏类别的代表性任务:3D 重建、七巧板(变体)、数独和推箱子。每个游戏展示两个视觉问答示例,包含当前游戏状态图片、相应问题,以及逐步推理过程和答案。

2. 从游戏代码到训练数据:Code2Logic方法的巧思

为了大规模获取高质量的训练数据,团队提出了一种新颖的 Code2Logic 方法。该方法通过游戏代码,系统化地、自动化地合成可验证的游戏任务数据。

如下图所示,整个流程利用强大的大语言模型(LLM)分三步完成:首先生成游戏代码,接着设计任务及其问答模板,最后构建数据引擎代码。完成后,只需执行这段数据引擎代码,便能自动、批量地生成训练数据,并且能够灵活控制样本的难度和生成的数据量。

Code2Logic方法三步流程图

图2:Code2Logic 方法示意图。借助 LLM 通过三个核心步骤将游戏代码转换为推理数据:第一步:游戏代码构建;第二步:游戏任务及其 QA 模板设计;第三步:数据引擎构建。基于前两步构建自动化程序,执行代码即可自动批量生成数据。

3. GameQA:一个丰富的游戏任务数据集

利用上述 Code2Logic 方法构建的 GameQA 数据集,不仅能够用于评测VLM的推理能力,更可作为多模态可验证的游戏任务数据来强化训练VLM

GameQA 数据集规模可观,包含:

  • 4大认知能力类别(如3D空间推理、策略规划等)。
  • 30个不同的游戏
  • 158种推理任务
  • 超过14万个高质量的问答对

此外,数据还进行了精细分级:任务按推理难度分为三级;样本则按视觉输入的复杂度分为三级。

GameQA数据集的30个游戏分类

图3:GameQA 包含的 30 个游戏,分为 4 个认知能力类别。其中20个域内游戏用于训练和测试,而10个域外游戏不参与训练,专门用于测试模型在未见游戏场景下的泛化能力。

4. 核心发现一:Game-RL带来了可泛化的通用推理能力提升

研究团队使用 GRPO(Group Relative Policy Optimization)方法在 GameQA 数据集上对多个开源VLM进行训练。结果显示,经过训练的模型在 7个完全域外的通用视觉语言推理基准(如 MathVista, MMBench, MMMU 等)上均取得了显著提升。以 Qwen2.5-VL-7B 模型为例,其平均性能提升了 2.33%。这充分证明了 Game-RL 训练方法具备优秀的跨领域泛化能力。

模型在通用视觉基准上的性能对比表格

表1:在通用视觉语言推理基准上的评测结果。经过 GameQA (GRPO) 训练后,多个开源VLM模型(如 InternVL2.5-8B, Qwen2.5-VL-7B)在多个基准上均显示出性能提升(+X.XX)。

5. 核心发现二:游戏数据训练效果竟匹敌几何数据

为了评估游戏数据的“竞争力”,研究团队将其与专门的几何与图表推理数据集进行了对比训练实验。令人惊讶的是,GameQA 数据训练出的模型表现,完全可以与后者相匹敌

如下表所示,尽管 GameQA 的训练数据量更少,且与测试基准的领域不完全匹配,但其训练出的模型在通用基准上的总体表现极具竞争力。更引人注目的是,在 MathVista 与 MathVerse 这两个与几何、函数推理高度相关的基准上,Game-RL 训练带来的提升甚至超过了使用更“对口”的几何数据进行的训练。

这一发现表明,游戏中蕴含的认知多样性和复杂的推理过程,具有强大的通用性和迁移能力

Game-RL与其他多模态数据集训练效果对比表格

表2:不同训练数据的对比实验。使用5K GameQA样本训练的模型,其表现与使用8K其他多模态推理数据(如MAVIS, MultiMath)训练的模型相当甚至更好。实验还显示,将GameQA数据与MultiMath数据混合训练,能带来进一步的性能提升。

6. 核心发现三:训练数据量和游戏个数的扩展效应(Scaling Effect)

研究进一步探索了规模扩展的影响:

  • 数据量的扩展效应:将训练的 GameQA 数据量增加至 20K,实验显示模型在通用推理基准上的表现总体呈持续提升趋势
  • 游戏个数的扩展效应:随着训练所使用的游戏种类增多,模型在域外任务上的泛化效果也相应增强。使用20种游戏进行训练,其提升效果明显优于仅使用4种游戏的配置。

训练数据量扩展对模型性能的影响折线图

图4:训练数据量的 Scaling Effect。随着训练阶段推进(数据量增加),模型在多个基准上的得分总体呈上升趋势。

训练游戏种类扩展对泛化性能影响的雷达图

图5:游戏个数的 Scaling Effect。使用20种游戏(蓝色线)的任务进行训练,模型在域外通用基准上的提升幅度,普遍优于仅使用4种游戏(紫色线)的配置。

7. 深度剖析:Game-RL具体提升了模型的哪些能力?

为了更好地理解 Game-RL 究竟如何提升VLM的推理能力,研究团队进行了细致的案例人工分析。结果显示,经过 Game-RL 训练后,模型在视觉感知和文本逻辑推理两个方面均获得了提升

例如,在下图展示的案例中,训练后的模型能够更准确地从图表中提取关键信息(红色虚线代表的数据序列始终维持在最高值),并做出正确的推理判断,而训练前的模型则出现了明显的感知和推理错误。

Game-RL对模型视觉感知与文本推理能力影响的定性分析图

图6:人工定性分析结果。上方饼图显示,在域外基准上,多数样本的视觉感知和文本推理能力保持不变或得到改善。下方是一个具体案例,展示了训练后模型视觉感知能力的提升:能够正确识别图表中“observed values X_t”数据序列始终保持相对最高值。

8. 结论与展望

本研究提出了 Game-RL 框架以及可验证游戏数据合成方法 Code2Logic,并构建了大规模的 GameQA 数据集,成功将VLM的强化学习训练领域拓展至丰富多样的游戏场景。

实验充分证明,Game-RL 能够有效提升VLM的、可泛化的通用推理能力。游戏数据作为一种优质的多模态训练数据源,其训练效果可与传统的几何图表数据相媲美,并且展现出良好的规模扩展效应。

这些结论为未来人工智能的研究指明了新的可能性:在游戏环境中进行规模化的强化学习,是提升模型通用推理能力一个极具潜力的重要方向。对于致力于AI前沿探索的开发者而言,这项研究无疑提供了宝贵的思路和工具。我们也可以在 云栈社区 等开发者平台上继续关注和讨论此类技术的后续发展与应用。




上一篇:百度AI资本局:李彦宏携昆仑芯、百图生科、爱奇艺密集赴港IPO
下一篇:SwiftTailor 两阶段框架:几何图像表示如何驱动高效3D服装生成
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-7 19:46 , Processed in 0.744840 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表