云栈社区»论坛 › 开发者广场「Dev Plaza」 › 深度解读自动驾驶基础模型MindVLA-o1：如何实现真正的3D世界理解 ...

发回帖发新帖

3507 积分	0 好友	463 主题

发消息

深度解读自动驾驶基础模型MindVLA-o1：如何实现真正的3D世界理解

发表于 2026-3-24 01:13:21 | 查看: 90| 回复: 0

理想汽车自动驾驶基础模型MindVLA-o1

3月17日，在NVIDIA GTC 2026大会上，理想汽车基座模型负责人詹锟正式发布了下一代自动驾驶基础模型——MindVLA-o1。次日，理想汽车董事长兼CEO李想在B站发布了其与詹锟的对话视频，对这一模型进行了更深层次的解读。

MindVLA-o1是一个将视觉、语言与行动统一进同一架构的原生多模态模型。它采用了多模态 MoE Transformer 架构，深度融合了3D视觉编码、世界模型与推理能力。理想汽车将其能力总结为：看得更远、想得更深、行得更稳、进化更快、部署更高效。

作为一个VLA（Vision-Language-Action Model）模型，MindVLA-o1带来的想象空间远超传统自动驾驶方案。詹锟在GTC大会上总结道：“当视觉、语言和行动统一到一个模型中时，它不再只是自动驾驶模型，而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型，不仅可以控制车辆，也能够扩展到机器人。” 这标志着理想在通往具身智能的道路上迈出了坚实的一步。

感知、思考与行为：通往物理AI的三把钥匙

要理解MindVLA-o1的突破，首先需要审视当前自动驾驶主流技术面临的瓶颈。

早期智驾技术的逻辑相当“朴素”：工程师为系统编写明确的规则，再辅以详尽的高精地图。但现实世界的路况复杂多变，规则永远无法穷尽所有“例外”。

2021年前后，行业迎来第一次技术转型：端到端模型开始兴起。工程师将大量人类驾驶数据喂给模型，让模型直接从视觉信号中学习驾驶动作。这条路看似符合直觉——数据越多，效果越好，数据价值被空前强调。理想汽车也正是从这一年开启自研辅助驾驶，并在2024年转向端到端模型。

然而，当训练数据积累到海量规模时（例如理想提到的1000万条Clips），这条路径的天花板开始显现。李想曾直言不讳地比喻端到端模型是“猴子开车”——其本质是模仿学习，模型能学会开车的动作，却永远无法真正理解物理世界。缺乏因果推理，模型无法处理违反常理的行为；缺乏深度思考，仅凭模式匹配无法应对复杂决策；安全意识不足，难以在复杂场景中进行预防性判断。

李想解释道：“今天无论是具身的AI在工作，在训练，都是看着2D视频。但这并不是人类在物理世界真正的工作方式。大部分搞模型的，都想直接做成年以后要做的事，拼命训练。但0-6岁孩子最重要的训练空间、训练能力，根本没解决。”

人类童年通过三维空间中的真实感知和反馈，逐步建立起对距离、速度的准确判断。而AI跳过了这个“三维认知”阶段，自然难以真正理解“开车”。这正是VLA模型诞生的背景：从架构设计之初，就将感知、思考与行为三种模态放入同一表示空间中进行统一训练。2025年8月，理想随理想i8交付推出了全球首个量产上车的VLA司机大模型，而MindVLA-o1是此基础上的最新成果。

MindVLA-o1模型核心架构图
MindVLA-o1核心架构，图源GTC演讲

此次更新，整个架构基于MoE（混合专家架构）进行重新设计，在扩大模型容量的同时控制激活参数规模，主要分为三层：

首先是感知层。
理想设计了自监督的3D ViT（3D Vision Transformer） 视觉编码器。训练时同时引入视觉与LiDAR（激光雷达）两路数据——前者提供丰富的语义信息，后者提供准确的三维几何结构。这使得模型能够在同一表示空间中同时学习几何与语义。

自监督3D视觉编码器架构图
自监督3D视觉编码器架构，图源GTC演讲

为了进一步提升场景理解能力，训练中还引入了前馈式3DGS（3D Gaussian Splatting） 场景表示技术。系统将场景分解为静态环境与动态物体分别建模，并以“下一状态预测”作为自监督信号，驱动模型同时学习深度信息、语义结构与物体运动。最终得到的3D ViT表示融合了空间结构与时间上下文信息，为后续的思考与行动层提供了高质量的三维世界表示。

针对3D感知，训练数据的配比也进行了重构：大量融入3D数据和自动驾驶图文数据，主动压缩文史类数据比例，并加入未来帧预测生成和稠密深度预测任务，专门激发模型对三维空间的理解与推理能力。

其次是思考层。
思考层由三个相互配合的机制构成：显式推理、未来预测和快慢思考协同。

显式推理：语言模型引入了System-2式（慢思考系统）的显式推理机制，使其能够在复杂场景中进行更深入的分析与决策，而非仅依赖直觉式快速反应。
未来预测：模型内嵌了Predictive Latent World Model（预测式隐世界模型），让自动驾驶不只理解“当前发生了什么”，还能模拟“接下来会发生什么”。由于直接生成未来图像计算成本过高，理想选择在Latent Space（隐空间）中完成预测：先将当前视觉输入编码为一组Latent Tokens（隐变量令牌）作为紧凑表示，再由世界模型基于这些令牌推演未来状态。

预测式隐世界模型架构图
预测式隐世界模型架构，图源GTC演讲

这套世界模型经历了三阶段训练：第一阶段用海量视频数据打底，让模型学会在隐空间里表征未来；第二阶段在MindVLA-o1框架内强化未来推演能力；第三阶段则将世界模型、多模态推理与驾驶行为三者拉到同一目标下联合优化。

快慢思考协同：该机制被整合进同一模型。简单场景下，模型直接输出Action Token（动作令牌），不走推理链；复杂场景下，先经过一段固定简短的CoT（思维链）模板推理，再输出动作。在效率设计上，针对思维链采用小词表加投机推理大幅提速；动作令牌在同一Transformer内以双向注意力机制一次性并行输出，思维链推理则在因果注意力机制下逐字解码，两者并存于同一模型中。

最后是行动层。
行动层采用三层递进设计：Action Expert（动作专家模块）负责生成轨迹，Parallel Decoding（并行解码）保证输出速度，Discrete Diffusion Refinement（离散扩散优化）负责精修质量。

统一行为生成架构图
统一行为生成架构，图源GTC演讲

具体来看，Action Expert从3D场景特征、导航目标、驾驶指令中提取关键信息，结合多模态推理生成初始驾驶轨迹。轨迹生成后，Parallel Decoding让所有轨迹点同时输出，而非逐点生成，在长序列轨迹预测场景中，效率优势尤为突出。

Discrete Diffusion Refinement随后对并行生成的轨迹进行多轮迭代优化，类似逐步去噪，最终使轨迹在空间上连续、时间上稳定，并满足车辆动力学约束——整个Diffusion（扩散）过程通过ODE（常微分方程）采样器压缩至2-3步完成。该模型还同时预测自车与周围车辆、行人的轨迹，通过联合建模提升复杂交通场景中的博弈能力。

对于仍存在偏差的长尾工况，则通过RLHF（基于人类反馈的强化学习）加以修正：筛选大量接管数据建立人类偏好数据集，微调模型的采样过程，使其逐步对齐人类驾驶行为，安全下限随偏好数据的积累持续提升。

从“看得到”到“想得到”，再到“做得到”，这是一场从感知层开始的重建，最终落地于行动层的执行，形成了一个完整的闭环。

从学术到落地：如何跨越算力、成本与部署的鸿沟？

一套方案能在实验室里跑通，与能装进量产车里落地，是两件完全不同的事。MindVLA-o1面临的第一个挑战便是算力难题。

模型搭载的3D ViT编码器，其复杂度远超主流的“2D方案”，对端侧算力提出了更高要求。理想的解法是自研芯片“马赫100”。它是中国首个采用数据流原生架构的车规级5纳米芯片，天然适配AI推理计算。在标准的大规模矩阵乘计算任务上，马赫100性能较上一代提升约3倍；两颗马赫100实际运行VLA大模型时的有效算力，据称是英伟达Thor-U的5到6倍。

李想与詹锟谈论马赫100芯片，图源GTC演讲

在马赫100上，理想成功部署了参数规模达上一代6倍、计算量提升10倍的VLA模型，实现了更高的运行帧率和更快的推理速度，从传感器输入到车辆执行输出，整体延时仅200到300毫秒。此外，马赫100还取消了上一代XCU控制器，由星环OS整合替代，单颗BOM成本大幅低于外购方案。

解决了算力，训练成本成了第二个“拦路虎”。3D ViT的大规模预训练、强化学习在仿真环境中的反复迭代，都成本高昂。传统逐步优化式重建太慢，无法支撑大规模并行训练。为此，理想与NVIDIA团队共建了3D Gaussian Splatting渲染引擎及分布式训练框架，渲染速度提升近2倍，整体训练成本降低约75%。世界模拟器也升级为前馈式场景重建，可瞬时生成大规模高保真驾驶场景，并能扩展、编辑和生成新场景。

最后的难题落在车端部署。高精度模型难以直接部署到资源受限的车端，能部署的模型精度又往往不够。传统做法是通过大量实验反复调整模型结构，耗时数月。为了提升效率，理想一方面在模型上通过Sparse Attention（稀疏注意力） 机制进一步提升稀疏化率，保障端侧实时推理效率。另一方面提出了软硬件协同设计定律：结合Roofline模型刻画硬件计算能力和内存带宽的限制，在模型性能与硬件约束之间建立统一的分析框架，从约2000种架构配置中寻找精度与推理延迟的最优解。

经过实验得出的最终结论相当“反直觉”：在算力受限的条件下，“更宽更浅”的模型比“更深”的模型更高效。凭借这一方法，理想将架构探索时间从数月缩短至几天。

VLA模型带来的实际改变

翻越了算力、成本和部署三道大山，VLA模型带来的变化已经开始显现。例如，在理想2026年1月更新的OTA 8.2车机系统中，世界模型加入了毫秒级方向盘和电门动作数据，让VLA进行行为强化学习。这使得横纵向控制不再机械跟随预设参数，而是基于对当前场景的综合理解动态输出。

在人车混行路段、小路通行、窄路会车等七个典型城区场景里，其表现尤为突出。在人车混行路段，车辆能实时预测行人和非机动车的运动意图，同步规划横向避让与纵向调速；在小路通行时，加减速更细腻，能合理避让动静态障碍物；在窄路会车时，能自动调整车速和横向位置，纵向减速平稳无顿挫。

MindVLA-o1模型理解环境语义示例
MindVLA-o1模型通过语言指令理解环境语义，图源GTC演讲

在一般场景下，VLA能力也有更多体现。例如，语言指令可以直接改变驾驶行为，“开快点，我赶时间”这类说法，模型已经能够理解并执行。据理想透露，截至2025年底，VLA月使用率达80%，VLA指令使用次数达1225.4万次，用户最常用的三个指令是左右变道、直行、加减速。

结语：不止于车，通往通用物理AI

在GTC大会的演示中，MindVLA-o1的一个片段令人印象深刻：它并非在驾驶汽车，而是在操控一条机械臂，稳稳地拿起一瓶养乐多，将其倒入桌上的杯中。

为什么一个为自动驾驶设计的模型，能够操作机械臂？理想的解释是，同一套VLA模型可以驱动不同形态的物理智能体。自动驾驶与机器人控制共用同一套模型与数据体系。对于这套模型而言，不同执行器本质上属于同一类问题——理解环境、推理意图、生成动作序列。

MindVLA-o1模型的三个不同演示场景，图源GTC演讲

截至2025年11月，理想已累计近15亿公里的驾驶数据。这背后隐藏着一个更深远的逻辑：理想正在用大规模的驾驶数据，进行通用物理AI的预训练。短短数年，理想已经在通往具身智能的路上走了相当远。

2025年，理想研发投入113亿元，AI相关占比达50%；2026年1月，研发团队按“造硅基人”的逻辑重构为四大体系——脏器、脑、软件、硬件；2026年Q2，马赫100芯片将完成量产上车。

李想表示：“人工智能就是在造人。Agent是数字化的人，具身是物理化的人，只是它是硅基的人，不是我们碳基的。”他认为，未来3到5年中高端汽车的竞争，本质上是具身智能的竞争。从功能机到智能手机的演进，源于芯片和操作系统的改变；而在具身智能时代，改变对应的是芯片和模型的协同设计（Co-Design）。

这份认知驱动着理想从2022年自研芯片，到2023年构建基座模型，一步步将能力向底层收拢。如今，理想已经搭建起一套从算力、感知到决策的完整体系，其定位也从“造车公司”，转向“以汽车为载体的物理AI公司”。汽车不再只是产品，而是规模化落地与持续训练的现实世界接口。

因此，MindVLA-o1的意义远不止于性能提升。它标志着一种范式的转变：模型开始真正进入三维世界，从对输入的被动响应，转向对环境的主动建模与推演。自动驾驶的边界正在变得模糊，跨越这条界线，理想的物理AI之路，或许才刚刚开始。

对于关注前沿技术动态的开发者而言，理解此类模型背后的架构思想与技术挑战，无疑能为我们自身在深度学习与计算机视觉领域的探索带来启发。欢迎在云栈社区继续交流讨论。

上一篇：BrainAlpha多智能体系统：自动化Alpha因子发现与自修复架构深度解析
下一篇：Spring Boot 参数校验进阶：详解 BindingResult 的 6 个常见坑与最佳实践

MindVLA-o1, VLA, 自动驾驶, 具身智能, 三维视觉