英伟达发布全球首款全开源全模态物理AI大模型Cosmos 3

时间：2026-06-01 16:22

6月1日，英伟达发布全球首款全开源全模态物理AI大模型Cosmos3，基于混合Transformer架构整合视觉推理、世界生成与动作预测，能原生理解并生成文本、图像、视频、环境音效和动作内容，物理仿真精度领先，可将训练评估周期从数月缩短到几天，并同步发起英伟达宇宙联盟。

2025年6月1日，英伟达正式推出了Cosmos 3——一款面向物理人工智能领域的开放世界基础大模型。该模型基于混合Transformer架构，将视觉推理、世界生成与动作预测无缝集成于同一个系统之中。

英伟达将这一模型定义为全球首款完全开源的全模态大模型，能够原生理解并生成文本、图像、视频、环境音效及动作数据。其物理仿真精度在行业内处于领先地位。尤为关键的是，它能够将物理人工智能的训练与评估周期从数月压缩至数天——这对研发效率的提升极具价值。

与此同时，英伟达宣布成立“英伟达宇宙联盟”（NVIDIA Cosmos Coalition），汇聚了全球顶尖的世界模型研究团队与AI开发者，成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway以及Skild AI。其目标十分清晰：合力推动下一代世界模型技术的创新发展。

英伟达创始人兼CEO黄仁勋在发布时提到：“多模态推理语言、视觉以及世界模型相继取得突破，物理人工智能的变革时代即将来临。Cosmos 3系列开源前沿全模态模型将助力开发者实现技术飞跃，打造能够在现实世界中感知、推理、规划并执行动作的机器人、自动驾驶车辆及视觉人工智能系统。”

物理人工智能长期面临一项核心挑战：如何让机器人、自动驾驶车辆与视觉智能体，在有限的训练数据和零散的仿真框架下，在真实场景中具备强大的泛化能力。Cosmos 3提出的解决方案，正是直指这一关键难题。

该模型采用混合Transformer架构，将推理Transformer与专门化的生成类Transformer相结合。具体而言，它首先解析物体之间的交互、运动规律及时空关联关系，随后完成视频生成与动作轨迹预测。整个逻辑链条十分清晰。

在训练数据方面，Cosmos 3依托海量多模态物理人工智能数据集——包含数十亿条文本、图像、视频、音效及动作轨迹样本。开发者利用这一预训练基础模型构建自己的物理AI系统，所需的数据量与成本均可显著降低。

开发者可将Cosmos 3作为三类工具使用：
1. 多模态图文大模型：支持跨模态理解与推理；
2. 世界模型/视频基础模型：用于仿真物理环境、预判场景未来状态，支撑模型训练与评估；
3. 世界动作模型主干网络：辅助训练机器人完成各类专项任务。

从评测数据来看，Cosmos 3在物理AI主流基准测试中表现极为出色。在开源模型范围内，其世界生成精度在Artificial Analysis、Physics-IQ、PAI-Bench与R-Bench中均排名第一；动作策略能力领跑RoboLab和RoboArena基准；视觉理解能力则登上VANTAGE-Bench和TAR榜单榜首。多项关键指标均拔得头筹，含金量十足。

英伟达还提供了多个版本，以适配物理AI不同研发阶段的需求：
Cosmos 3 Super：针对机器人及自动驾驶模型的二次训练，追求极致的物理精度与生成效果；
Cosmos 3 Nano：能够在数秒内完成高品质视频解析与动作推理；
Cosmos 3 Edge：即将上线，主打边缘端实时推理。

目前，Cosmos 3 Super与Nano版本已正式发布，Edge版亦即将上线，边缘端实时推理这一方向值得持续关注。

来源：https://www.163.com/dy/article/KUBHHF4G0511B8LM.html

Cosmos