找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1583

积分

0

好友

228

主题
发表于 15 小时前 | 查看: 2| 回复: 0

英伟达NitroGen模型演示视频截图

视频中展示了流畅的游戏操作,动作连贯性堪比高水平玩家。特别是在《茶杯头》这类高难度游戏中,AI完成的躲避、跳跃、攻击等操作一气呵成,展现了惊人的反应与操控精度。

尤为关键的是,这些操作完全由AI自主完成。与传统的、针对单一游戏的脚本或宏不同,这是一个具备高度泛化能力的基础模型,能够适配并游玩市面上绝大多数类型的游戏。

这正是英伟达最新发布的开源基础模型——NitroGen。该模型的训练目标是掌握超过1000款游戏,无论是RPG、平台跳跃、射击竞技还是赛车游戏,也无论是2D还是3D画面,都在其能力范围之内。

NitroGen模型在不同游戏中的演示

该模型以游戏视频帧作为直接输入,输出真实的手柄控制信号,因此天然兼容所有支持手柄操作的游戏。NitroGen支持后训练(post-training),这意味着当面对一款全新的、从未在训练集中出现过的游戏时,它无需从零学习游戏规则,仅需少量样本进行微调或轻量级适配,即可快速上手,真正展现了跨游戏任务的泛化潜力。

NitroGen模型架构示意图

关键资源链接:

模型设计原理

英伟达的研究团队发现,原本为机器人控制设计的GR00T N1.5架构,经过极小的改动,便能适配机制迥异的各类游戏环境。

NitroGen的成功融合了三个核心要素:

  1. 互联网规模的多游戏视频-动作数据集:通过从公开的游戏实况视频中,自动化提取玩家操作构建而成。
  2. 统一的多游戏基准评测环境:用于系统性地评估模型在不同游戏间的泛化与迁移能力。
  3. 统一的视觉-动作策略模型:采用大规模行为克隆(Behavior Cloning)方法进行训练。

NitroGen核心组件概览

系统架构总览

NitroGen由三大核心组件构成:

  1. 多游戏基础智能体(Multi-Game Foundation Agent)
    一个通用的视觉-动作模型,接收游戏观测(如屏幕画面),并生成对应的手柄指令。它具备在多种游戏上进行零样本(zero-shot)游玩的能力,同时也可作为基础模型,用于对新游戏进行快速微调与适配。

  2. 通用模拟器(Universal Simulator)
    一个环境封装层,通过Gymnasium API统一不同商业游戏的交互接口,使得任意游戏都能以标准化的方式进行控制,从而支持大规模的训练与评估。

  3. 互联网规模数据集(Internet-Scale Dataset)
    目前规模最大、种类最丰富的开源游戏数据集之一。它源于超过40,000小时的公开游戏视频,覆盖1,000余款游戏,并通过自动化流程提取了对应的动作标签。

构建大规模视频-动作数据集

研究团队从带有“手柄输入叠加层(input overlays)”的游戏视频中获取动作信息。许多内容创作者会在录制视频时,在画面上叠加实时显示其按键或手柄摇杆操作的UI。

收集这些公开视频后,团队面临诸多挑战:创作者使用的手柄类型多样(Xbox、PlayStation等),叠加层的透明度不一,且视频压缩会引入视觉噪声。

数据处理流程如下:对每段视频采样多帧图像,使用SIFT与XFeat特征与预设的手柄模板进行关键点匹配,以定位手柄在画面中的区域。随后,训练一个分割模型来自动检测并提取这个显示操作信息的区域,从而将其转化为“专家动作”标签。

为防止模型在训练中“作弊”——直接读取叠加层上的答案,研究团队在训练前会将视频中的手柄显示区域遮挡掉。随后,使用GR00T N1.5架构的一个变体,基于扩散Transformer从像素输入直接学习生成动作输出。

NitroGen数据集分布统计

最终构建的数据集包含40,000小时视频,覆盖1,000多款游戏。从分布来看:

  • (a)单游戏时长分布:846款游戏拥有超过1小时数据,91款游戏超过100小时,其中15款游戏数据量超过1,000小时。
  • (b)游戏类型分布:动作RPG占比最高(34.9%),其次是平台跳跃(18.4%)和动作冒险(9.2%)。

模型性能评估

实验表明,NitroGen在多种游戏场景中均表现出强大能力,包括3D动作游戏中的战斗、2D平台跳跃游戏的精密操作,以及在程序生成世界中的探索任务。

NitroGen 500M模型预训练结果

研究团队在完整的NitroGen数据集上训练了一个5亿参数的统一模型。评估在行为克隆预训练完成后直接进行,无需针对特定游戏微调。对于每款测试游戏,在3个不同任务上各进行5次rollout,并计算平均任务完成率。

结果显示,尽管仅基于噪声较大的互联网数据进行训练,NitroGen仍能在多种游戏(涵盖3D、2D俯视、2D横版等不同视觉风格,以及平台跳跃、动作RPG、Roguelike等不同类型)中完成非平凡(non-trivial)的任务。

NitroGen后训练实验结果

更重要的是,NitroGen具备优秀的迁移学习能力。在面对全新游戏时,以其作为预训练基础进行后训练(post-training),其任务成功率相比从零开始训练的模型,最高可获得52%的相对提升。

意义与展望:通向通用具身智能的路径

NitroGen仅仅是起点,模型能力仍有巨大的提升空间。本研究有意聚焦于无需深度策略思考、依赖快速反应的“玩家直觉式运动控制”。

据英伟达机器人研究总监Jim Fan阐述,他们的长远目标是打造通用型具身智能体:不仅能掌握现实世界的物理规律,还能适应由无数模拟环境构成的“多元宇宙”中的所有可能规则。

这正是众多交互式大模型热衷于研究电子游戏操作的原因。电子游戏提供了完整的世界观与交互体系,每个游戏都是一个高度复杂的模拟环境。模型若能实现通用的游戏操作,那么其向操控机器人在真实物理世界中执行任务的目标便又迈进了一大步。

英伟达已开源发布该模型的全部数据集、评测套件以及模型权重,以推动通用具身智能体领域的进一步发展。

可以预见,今天被视为AI领域难题集合的机器人学,未来可能只是广阔的具身AGI能力空间中的一个子集。到那时,或许我们只需通过自然语言下达指令,就能请求一个“机器人游戏手柄”来完成复杂任务。




上一篇:分布式链路追踪系统原理与实现:深入剖析SkyWalking与EagleEye的数据埋点方案
下一篇:addr2line实战:Linux C++崩溃地址定位与线上调试指南
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-24 17:17 , Processed in 0.272340 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表