2025年6月1日,英伟达正式推出了Cosmos 3——一款面向物理人工智能领域的开放世界基础大模型。该模型基于混合Transformer架构,将视觉推理、世界生成与动作预测无缝集成于同一个系统之中。

英伟达将这一模型定义为全球首款完全开源的全模态大模型,能够原生理解并生成文本、图像、视频、环境音效及动作数据。其物理仿真精度在行业内处于领先地位。尤为关键的是,它能够将物理人工智能的训练与评估周期从数月压缩至数天——这对研发效率的提升极具价值。
与此同时,英伟达宣布成立“英伟达宇宙联盟”(NVIDIA Cosmos Coalition),汇聚了全球顶尖的世界模型研究团队与AI开发者,成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway以及Skild AI。其目标十分清晰:合力推动下一代世界模型技术的创新发展。
英伟达创始人兼CEO黄仁勋在发布时提到:“多模态推理语言、视觉以及世界模型相继取得突破,物理人工智能的变革时代即将来临。Cosmos 3系列开源前沿全模态模型将助力开发者实现技术飞跃,打造能够在现实世界中感知、推理、规划并执行动作的机器人、自动驾驶车辆及视觉人工智能系统。”
物理人工智能长期面临一项核心挑战:如何让机器人、自动驾驶车辆与视觉智能体,在有限的训练数据和零散的仿真框架下,在真实场景中具备强大的泛化能力。Cosmos 3提出的解决方案,正是直指这一关键难题。
该模型采用混合Transformer架构,将推理Transformer与专门化的生成类Transformer相结合。具体而言,它首先解析物体之间的交互、运动规律及时空关联关系,随后完成视频生成与动作轨迹预测。整个逻辑链条十分清晰。
在训练数据方面,Cosmos 3依托海量多模态物理人工智能数据集——包含数十亿条文本、图像、视频、音效及动作轨迹样本。开发者利用这一预训练基础模型构建自己的物理AI系统,所需的数据量与成本均可显著降低。
开发者可将Cosmos 3作为三类工具使用:
1. 多模态图文大模型:支持跨模态理解与推理;
2. 世界模型/视频基础模型:用于仿真物理环境、预判场景未来状态,支撑模型训练与评估;
3. 世界动作模型主干网络:辅助训练机器人完成各类专项任务。
从评测数据来看,Cosmos 3在物理AI主流基准测试中表现极为出色。在开源模型范围内,其世界生成精度在Artificial Analysis、Physics-IQ、PAI-Bench与R-Bench中均排名第一;动作策略能力领跑RoboLab和RoboArena基准;视觉理解能力则登上VANTAGE-Bench和TAR榜单榜首。多项关键指标均拔得头筹,含金量十足。
英伟达还提供了多个版本,以适配物理AI不同研发阶段的需求:
Cosmos 3 Super:针对机器人及自动驾驶模型的二次训练,追求极致的物理精度与生成效果;
Cosmos 3 Nano:能够在数秒内完成高品质视频解析与动作推理;
Cosmos 3 Edge:即将上线,主打边缘端实时推理。
目前,Cosmos 3 Super与Nano版本已正式发布,Edge版亦即将上线,边缘端实时推理这一方向值得持续关注。
