Robotaxi的开发能否像智能手机制造一样模块化?英伟达在AI顶会NeurIPS上发布的Alpamayo-R1给出了肯定答案——这是英伟达首个开源的自动驾驶视觉-语言-动作(VLA)模型,性能较传统端到端系统提升超30%,并已全面开源。

在多模态大模型人工智能主导自动驾驶的趋势下,Robotaxi的门槛正大幅降低:车企可直接采购英伟达芯片,并借鉴其开源VLA算法进行场景特调,模式类似手机产业。英伟达借此明确了其野心:成为自动驾驶领域的“安卓”平台。
Alpamayo-R1解决了什么问题
有趣的是,英伟达本是端到端自动驾驶的奠基者,而Alpamayo-R1却旨在攻克端到端系统的固有缺陷。端到端系统从感知到控制全程学习人类驾驶数据,理论上能高度拟人,但实际量产中仍常应对失策,如违规左转、行人闯入、施工遮挡等复杂场景。

英伟达指出,端到端折戟的根源在于“黑盒”特性——模型“看得见却看不懂”。为此,团队转向视觉-语言-动作(VLA)架构,通过增强推理能力提升安全性。
直接看性能对比:

基线模型与Alpamayo-R1均训练自英伟达构建的CoC(因果链)数据集,该数据集是研究的关键组成部分。CoC强调行为背后的因果逻辑,为模型可解释性奠定基础。对比实验显示,Alpamayo-R1相较纯轨迹输出的基线模型,在多项指标显著优化:规划精度提升12%、越界率降低35%、近碰率降低25%、推理-行动一致性提升37%,端到端延迟压缩至99ms。
这些提升主要体现在传统易错场景中,意味着模型更贴近“具备判断力的司机”。那么,英伟达如何确保模型真正“看懂”场景?
如何解决的
Alpamayo-R1的核心创新包含三点。首要是Chain of Causation(因果链)数据集,这套标注体系不仅记录驾驶行为,还阐明“为何如此行动”,例如“减速左变道,因前方助动车停靠且左侧车道空闲”。

CoC是对思维链(CoT)的深化,聚焦因果关系构建,规避了行为描述模糊、因果脱节等问题。当然,CoC标注仍依赖人工校准。
模型基座采用英伟达专为物理AI设计的Cosmos Reason视觉语言模型,其最大特点是基于因果结构化推理,要求模型依据历史证据解释操作的安全合规性。

第二项创新是多阶段训练策略:

- 第一阶段:在大规模驾驶数据上执行模态注入,学习视觉到动作的基础映射。
- 第二阶段:在CoC数据上监督微调,强化模型“先推理后行动”的能力。
- 第三阶段:通过强化学习优化推理质量、一致性及轨迹安全性。
这种分阶段训练使模型在开放场景和长尾危险场景中更稳健。
轨迹输出环节,Alpamayo-R1引入基于扩散模型的轨迹解码器,在实时约束下生成连续且动态可行的轨迹。该模块融合语言推理与物理约束,实现从推理到控制的无缝衔接:

扩散模型通过前向加噪和后向去噪过程生成数据,能捕捉复杂分布并保障输出多样性。
整体流程上,输入包括多相机时序帧、可选导航指令及自车状态。所有输入被编码为多模态token序列,经时序和传感器排序后送入Cosmos-Reason主干网络。

各相机视角先经轻量CNN与时序注意力模块压缩为BEV表征,随后所有模态token化输入Transformer。输出包含三类token:推理链、中层动作与未来轨迹预测。关键创新在于赋予模型可解释的语义理解能力,并建立因果关系明确的输入-输出关联。
Alpamayo-R1从何而来
Alpamayo-R1是原生多模态VLA模型,不同于常见的“端到端+LLM外挂”方案。其基础是英伟达CES发布的Cosmos基础世界模型中的Cosmos Reason,后者专为物理AI推理设计。

Cosmos充当AI与物理世界的“中间层”,提供通用世界模型模板。Alpamayo-R1的预训练对应CoC数据集学习过程,而基座模型Cosmos Reason通过思维链推理理解视频数据。
此举印证英伟达的新战略:超越计算基础设施,成为机器人、自动驾驶等物理AI的底层“安卓”。

Alpamayo-R1的价值更在于其架构范式与训练方法——模型开放灵活,可兼容多种基座大模型。核心贡献是CoC标注体系及基于因果推理的大模型范式。
英伟达早已视物理AI为下一风口,关键即构建连接物理与AI的中间层。例如在Robotaxi领域,英伟达近期官宣了自有Robotaxi战略,携手Uber等伙伴,但更深层目标是打破行业封闭模式。
- 硬件层:统一芯片与传感器驱动接口,适配多品牌激光雷达,减少兼容性研发。
- 算法层:开源Alpamayo-R1提供L4基础能力,支持API定制优化(如校园行人识别、高速变道逻辑)。
- 应用层:开放调度、计费等接口,出行平台可快速集成服务。

若说特斯拉多模态路线挑战L4技术,英伟达开源Alpamayo-R1则冲击Robotaxi商业模式——L4玩家自建平台的窗口期正缩短。借助英伟达全栈方案,传统网约车平台等可“开箱即用”部署Robotaxi。

自动驾驶会否形成“安卓vs苹果”对垒?英伟达与特斯拉或成潜在代表。
One more thing
端到端自动驾驶的“开山之作”正是英伟达2016年论文《End to End Learning for Self-Driving Cars》,当时基于CNN架构。后经Transformer革新,特斯拉率先量产端到端系统。如今,英伟达作为先驱却推动范式变革,领衔者正是吴新宙:

Alpamayo-R1团队几乎全为华人研究者:

贡献者分工亦详细列明:

Github:https://github.com/NVlabs/alpamayo
HuggingFace:https://huggingface.co/nvidia/Alpamayo-R1-10B
论文地址:https://d1qx31qr3h6wln.cloudfront.net/publications/Alpamayo-R1_1.pdf