多模态模型 · 机器人 · 扩散模型

Cosmos 3 解读:英伟达面向具身智能的全模态世界模型

Cosmos 3 把语言、图像、视频、音频、机器人动作塞进一个混合 Transformer 模型,英伟达称它在文生图、图生视频以及 RoboArena 策略榜上都拿到开源第一。

Cosmos 3 解读:英伟达面向具身智能的全模态世界模型

快速答案

Cosmos 3 是英伟达的一个模型,在同一个混合 Transformer 架构里同时读写五种模态——语言、图像、视频、音频、动作,而不是把视觉语言模型、视频生成器、模拟器和机器人策略四个专才硬拼在一起。英伟达称它在 Artificial Analysis 上是最强的开源文生图与图生视频模型,在 RoboArena 上是发布时排名第一的策略模型;并以宽松的 OpenMDW-1.1 协议在 GitHub 和 Hugging Face 上开放了权重、数据和评测基准。

为什么关键词是「世界模型」而非「多模态」

真正要抓的词不是「多模态」,而是面向具身智能(Physical AI)的世界模型。视觉语言模型只是描述一个场景;世界模型则要预测当智能体对场景采取动作后会发生什么。Cosmos 3 把两件事合进一张网络:给图像配文字的那套权重,也能把视频在时间上往前推演、生成配套音频、并为机器人吐出一段动作序列。英伟达的卖点是:机器人、自动驾驶车或仿真管线可以只依赖一个主干,而不是四个彼此从未被训练得相互一致的专才模型。

这种统一就是它下的赌注。说句实在话:一个要覆盖这么多任务的模型,在任何单项上通常都会输给专攻该项的专才几分,所以它的价值在于灵活与一致,而非在每个孤立榜单上夺冠。

混合 Transformer 架构怎么运作

Cosmos 3 用混合 Transformer把不同模态分流——语言、视觉、音频、动作各有专属的 Transformer 专家,但共享同一条序列,于是模型能用任意输入组合去条件化任意输出。这正是一个权重就能做灵活输入输出配置的原因:文生图、图生视频、视频加指令生成动作、世界模拟,都成了同一张网络里的不同路由,而非不同的产品。

它和英伟达此前的 Cosmos 世界模型一脉相承,但 Cosmos 3 的跨越在于把音频和动作提升为一等模态,而早期版本主要围着文本和视频转。「动作」这个模态正是它成为策略模型的关键:给定像素和指令,它输出下一步动作,这也是它能被搬上机器人榜单评测的前提。

关键结果

  • 开源最强文生图与图生视频模型:发布时在 Artificial Analysis 上对比其他开源生成器拿到的英伟达主打排名。
  • RoboArena 策略榜第一:发布时同一个会生成视频的模型,也在该榜参评条目中产出评分最高的机器人动作序列。
  • 一个模型,五种模态:语言、图像、视频、音频、动作共享单一混合 Transformer 主干,取代通常那套各自独立的专才模型堆栈。
  • 完全开放发布:基于 OpenMDW-1.1,在 GitHub 和 Hugging Face 上开放模型权重、训练数据与评测基准——这比只开权重要少见。
  • 294 位作者:说明这是组织级的工程投入,而非小规模研究原型。

为什么现在重要

具身智能——机器人、自动驾驶车、具身智能体——需要既能理解场景、又能预测在其中行动后果的模型。Cosmos 3 是英伟达的论证:同一个模型可以同时做感知、预测和控制,而且开放数据与基准(不只是权重)能让机器人社区真正在其上做开发。对于要搭机器人栈的团队,吸引力在于用一个模型替掉四个,并且不必从零训练就拿到一个 RoboArena 榜首的策略。

局限与存疑

arXiv 摘要主打的是榜单排名,而不是参数量、消融实验或逐项基准数字——所以具体的领先幅度、模型规模、以及专才在哪些项上仍然胜出,单看摘要都看不到;而且「开源最强」这类排名会随竞品发布逐月变动。「RoboArena 策略榜第一」是真信号,但也很窄:榜单名次不等于在真实世界机器人任务长尾上的可靠、安全表现,而世界模型在长程推演里仍会幻想物理、误差累积。统一架构还带来成本问题——为只需要一个模态的任务跑一个五模态主干,可能比用一个小专才更浪费。和所有世界模型一样,「生成的视频很惊艳」与「在真实动力学下动作可信」之间的差距,恰恰是榜单不衡量的部分。

常见问题

英伟达 Cosmos 3 是什么?

Cosmos 3 是英伟达的全模态世界模型家族,在一个混合 Transformer 架构里处理并生成语言、图像、视频、音频和动作,面向机器人、自动驾驶等具身智能场景。

Cosmos 3 和普通多模态模型有什么不同?

多数多模态模型只是跨模态理解输入;Cosmos 3 是世界模型,还能预测未来视频、吐出机器人动作序列。它用一个共享主干替掉了独立的视觉语言模型、视频生成器、模拟器和策略模型。

Cosmos 3 开源吗?

开源。英伟达以 OpenMDW-1.1 协议在 GitHub 和 Hugging Face 上发布了 Cosmos 3 的权重、训练数据和评测基准——是开放数据与基准,而不只是开权重。

Cosmos 3 在机器人上表现如何?

英伟达称 Cosmos 3 发布时是 RoboArena 上排名第一的策略模型。这是很强的榜单成绩,但名次并不保证它在真实机器人任务长尾上都安全可靠。

一句话:一个混合 Transformer 模型,在五种模态上同时感知、预测与行动,并为具身智能开源发布。阅读 arXiv 原文