项目卡片
- 项目:NVIDIA Cosmos[1]
- 状态:10k+ Star · 2026 年 5 月 31 日发布 Cosmos 3 · OpenMDW-1.1 许可证
- 一句话判断:这是 NVIDIA 面向物理 AI 推出的世界模型平台,不是又一个视频生成工具
我第一次看到 Cosmos 的时候,还以为它又是某个“文生视频”项目——Sora、Kling、可灵……类似的工具实在太多了。但读完 Cosmos 3 的技术报告和仓库之后,我发现它的定位截然不同。
它要做的是:让 AI 理解物理世界到底怎么运转,然后预测接下来发生什么。
它到底在解决什么问题
想象一个场景:你正在训练一个机器人,让它学会从货架上取货。
传统的做法是让机器人在真实环境里反复试错,摔几次、碰几次,慢慢摸索。可真实世界的试错成本太高了——机器人摔坏要修,货架上的东西碰碎要赔,更不可能在工厂里让机器人“随便试”。
Cosmos 的思路是:先在虚拟世界把物理规律学会,再到真实世界操作。
它不是简单的视频生成。给你的不是“一句话 → 一段操作视频”,而是:给定一个初始状态和一组动作指令,预测执行这些动作后,世界会变成什么样。
这就是世界模型的核心能力:因果推理+物理模拟+多模态生成。
Cosmos 3 能做什么
这一代 Cosmos 有两种运行模式:
Reasoner(推理者):输入文本和视觉信息,输出文本理解。它可以看视频回答问题、做时间定位、预测下一步动作、判断物理合理性。比如你给它一段机器人操作视频,它能告诉你“这个动作会导致物品掉落”。
Generator(生成者):输入文本、图像、视频、音频或动作序列,输出图像、视频、音频或动作预测。能做文生图、文生视频、图生视频、视频转视频,还能生成同步音频。
最让我觉得有意思的是它的动作建模能力:
- 正向动力学:给定当前画面和一组动作,预测未来画面
- 逆向动力学:给定视频,反推执行了什么动作
- 动作策略:给定任务描述,直接输出动作轨迹
这些能力组合在一起,就构成了一个完整的物理世界模拟器。仓库里已经提供了 DROID、UR、Fractal、Bridge、UMI 等多种机械臂的动作模型,甚至还有双臂机器人和人形机器人的支持。
谁应该关注这个项目
机器人开发者:如果你在做机器人训练,Cosmos 能帮你生成大量带物理规律的合成数据,大幅降低真实环境的试错成本。
自动驾驶团队:它支持自动驾驶场景的视频生成和动作预测,包括自车运动轨迹、相机姿态等。
AI 研究者:如果你想研究世界模型、物理推理、多模态生成,这是一个非常优秀的开源基座。
普通开发者:就算不做机器人,Cosmos 的视频生成能力也很强——720p、24fps、最长 300 帧(约 12 秒),且支持同步音频生成。
但要先说清楚:这个项目的门槛不低。
它需要 NVIDIA GPU(Ampere 架构以上),推荐 H100 或更好的卡。Nano 版本 16B 参数,单卡可跑;Super 版本 64B 参数,至少需要 4 张卡。模型权重要从 Hugging Face 下载,并接受许可协议。
如果你只是想“试试效果”,NVIDIA 在 build.nvidia.com 上提供了在线 Playground,可以直接在浏览器里体验 Reasoner 模式。
实际上手是什么感觉
Cosmos 提供了多条上手路径,按复杂度排列:
最简单:NIM 容器(仅 Reasoner)
docker run --runtime=nvidia --gpus all \
-e NGC_API_KEY=$NGC_API_KEY \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:1.7.0
拉起来就是一个 OpenAI 兼容的 API,用 curl 或 Python 客户端就能调用。不用折腾 CUDA 版本、不需要配 venv。第一次启动会下载模型到 ~/.cache/nim,需要等一会儿。
中等:Diffusers(Generator 研究用)
需要 Python 3.13、uv、CUDA 12.8 或 13.x。安装依赖后用 Cosmos3OmniPipeline 跑推理。第一次运行会下载模型,耗时较长。
完整:vLLM / vLLM-Omni(生产部署)
适合需要高吞吐、低延迟的场景。vLLM-Omni 支持所有 Generator 模态(包括动作),vLLM 支持 Reasoner。Docker 镜像 vllm/vllm-omni:cosmos3 是最省心的选择。
我个人建议:先用 NIM 容器试 Reasoner,确认效果符合预期后,再考虑 Generator 的部署方案。
边界和局限
Cosmos 3 不是万能的。仓库的 Limitations 部分写得很坦诚:
- 长视频、高分辨率输出容易出现伪影:时间不一致性、物体变形、相机运动不稳定
- 物理模拟不完美:3D 结构不准确、物理动态不合理的情况时有发生
- 音频同步有瑕疵:声音和画面的对齐不够精确
- 动作预测需要额外验证:不能直接用于安全关键的控制场景
此外,从成本角度看:
- Nano(16B)单卡推理,720p 文生视频大约需要 200-400 秒(H100)
- Super(64B)需要 4 卡,同样任务需要 400-900 秒
- 模型权重加上 CUDA 依赖,本地缓存可能占用几十 GB 到上百 GB
- vLLM-Omni 在 B200 上 720p 文生视频约 107 秒,已是最快
如果你的场景对实时性要求很高,或者需要严格的物理精度,Cosmos 目前还无法直接满足。但作为研究平台和合成数据生成工具,它的价值已经相当明显了。
值不值得关注
这个问题的答案取决于你是谁。
如果你是机器人或自动驾驶领域的开发者,Cosmos 几乎是目前最完整的开源世界模型平台。它不只是一个模型,而是一整套工具链:数据策划(Cosmos Curator)、模型训练(Cosmos Framework)、评估(Cosmos Evaluator)。
如果你是普通 AI 开发者,想用世界模型做视频生成或物理推理,Cosmos 的开源性和可扩展性是它的核心优势。相比闭源方案,你可以完全控制模型行为、微调适配自己的场景。
如果你只是想“玩玩视频生成”,坦白说,有更轻量的选择。Cosmos 的价值不在于“生成好看的视频”,而在于“理解和模拟物理世界”。
OpenMDW-1.1 许可证意味着你可以自由使用、修改、商用,只需保留版权声明。这在 NVIDIA 的开源项目里算是相当宽松的。
我的判断是:Cosmos 3 是一个值得持续关注的项目。它目前还不完美——长视频生成依然会出现伪影,物理模拟也有明显边界——但它让 AI 理解物理世界这件事,会是整个行业接下来几年最重要的方向之一。
如果你想继续看这类 AI 工具拆解,我会把上手路径、关键限制和可复用配置整理成清单,方便你直接判断值不值得试。
本文由云栈社区整理发布。
引用链接
[1] NVIDIA Cosmos: https://github.com/NVIDIA/cosmos