这流畅的游戏动作,堪比技术流玩家的实况。尤其是在《茶杯头》中的躲避、跳跃、攻击一气呵成,展示了惊人的反应与操作水准。
最令人印象深刻的是,上述操作完全由AI自主完成。
与传统的、针对单一游戏的自动化脚本不同,这是一个完整的通用大模型,能够应对市面上几乎所有的游戏类型。这就是英伟达最新开源的基础模型——NitroGen。该模型的训练目标是驾驭超过1000款游戏,无论是RPG、平台跳跃、吃鸡、竞速,还是2D或3D游戏,统统不在话下。

模型直接以游戏视频帧作为输入,输出真实的手柄操作信号,天然适配所有支持手柄的游戏。NitroGen支持后训练(post-training),这意味着当它面对一款从未见过的新游戏时,并不需要从零开始学习规则,只需经过少量微调或轻量适配,就能迅速上手,真正具备了跨游戏泛化的潜力。

模型架构
英伟达研究团队发现,原本为机器人设计的GR00T N1.5架构,只需极少改动,就能适配机制差异极大的各类游戏。NitroGen的设计融合了三项关键要素:
- 互联网规模的视频-动作数据集:通过从公开可获取的游戏视频中,自动提取玩家操作构建而成;
- 多游戏基准评测环境:用于系统性地评估模型在不同游戏之间的泛化能力;
- 统一的视觉-动作策略模型:采用大规模行为克隆进行训练。

核心组件
NitroGen由三个核心组件构成:
-
多游戏基础智能体
一个通用的视觉-动作模型,能够接收游戏观测(如视频帧),并生成对应的手柄操作指令,实现跨多款游戏的零样本游玩能力,同时也可作为基础模型用于对新游戏进行进一步微调。
-
通用模拟器
一个环境封装层,使任意商业游戏都可以通过Gymnasium API进行控制,从而统一不同游戏的交互接口,支持大规模训练与评测。
-
互联网规模的数据集
目前规模最大、类型最丰富的开源游戏数据集之一,来源于40,000小时的公开游戏视频,覆盖1,000余款游戏,并自动提取生成了对应的动作标签。
数据集构建:从游戏视频到动作标签
研究团队通过从游戏画面的“输入叠加层”中提取玩家的实时手柄操作来获取动作信息。他们收集了大量带有此类叠加显示的公开游戏视频。这些叠加层具有高度多样性,给数据处理带来了显著挑战:不同创作者使用的手柄类型各异,叠加层透明度不同,视频压缩还会引入视觉伪影。
对于每一段收集到的视频,研究团队会采样25帧图像,并使用SIFT与XFeat等计算机视觉特征,与精心整理的模板集合进行关键点匹配,以此定位手柄在画面中的位置,并对其进行定位与裁剪。
数据整理的过程本身很有趣:研究团队发现,玩家非常乐于展示自己的操作技巧,常常会在视频中叠加实时显示的手柄输入。于是,他们训练了一个分割模型,自动检测并提取这些手柄显示区域,将其转换为“专家级动作标签”。随后,这一区域在视频中会被遮挡掉,防止模型通过“偷看答案”的方式走捷径。
在训练过程中,GR00T N1.5的一个变体使用扩散Transformer,从4万小时的像素级输入直接学习到动作输出。

NitroGen数据集在不同游戏与类型上的分布情况
在完成数据筛选后,该数据集共包含40,000小时的游戏视频,覆盖1,000余款游戏。
- 单游戏数据时长分布:846款游戏拥有超过1小时的数据,91款游戏拥有超过100小时的数据,其中15款游戏的累计数据量超过1,000小时。
- 游戏类型分布:动作RPG占比最高(34.9%),其次是平台跳跃类(18.4%)和动作冒险类(9.2%)。
实验结果:强大的零样本与泛化能力
实验结果表明,NitroGen在多种不同类型的游戏场景中均表现出较强能力,包括3D动作游戏中的战斗对抗、2D平台跳跃游戏中的高精度操作,以及程序生成世界中的探索任务。

NitroGen 500M模型在不同游戏上的预训练结果
研究团队使用Flow-Matching的GR00T架构,在完整的NitroGen数据集上训练了一个5亿参数的统一模型。在未进行任何额外微调的情况下,尽管模型仅基于噪声较大的互联网数据集进行训练,NitroGen仍然能够在多种游戏中完成非平凡的任务,覆盖了不同的视觉风格以及多样的游戏类型。

后训练实验结果
更重要的是,NitroGen能够有效迁移到从未见过的新游戏。在相同任务设定下,其任务成功率相比从零开始训练的模型,最高可实现52%的相对提升。
意义:通往通用具身智能的基石
NitroGen只是一个起点。研究团队在这次工作中有意只聚焦于无需深度思考、快速反应的“玩家直觉式运动控制”。据英伟达机器人总监Jim Fan所述,他们的目标是打造通用型具身智能体:不仅能掌握现实世界的物理规律,还能适应由无数模拟环境构成的“多元宇宙”中的所有可能规则。
这就是为什么许多交互大模型都对电子游戏的操作感兴趣。电子游戏具备了相当完整的世界和交互体系,每个游戏都是一个非常复杂的模拟环境。模型能够实现通用的游戏操作,离操作机器人进行真实世界交互也就更近一步。英伟达已开源发布该模型的数据集、评测套件以及模型权重,以推动通用具身智能体方向的进一步研究。
可以预见,当技术成熟时,或许只需要用自然语言提示,就能请求一个智能体像操作游戏手柄一样,完成复杂的物理世界任务。