NVIDIA OmniDreams:自动驾驶闭环仿真的实时生成式世界模型

快速答案

OmniDreams 是面向自动驾驶的生成式视频仿真器,从 NVIDIA 的 Cosmos 扩散模型中训(mid-train)和后训(post-train)而来。它在 AlpaSim 闭环栈里替换基于重建的 NuRec 渲染器,逐帧响应驾驶策略的动作。2B 单视角模型在一张 GB300 上以 68 有效 FPS 渲染 704x1280;四视角版本在 16 卡 GB300 机柜上每相机达到 105 FPS。Cosmos 提供照片级先验,OmniDreams 加上自回归、动作条件的训练和让闭环交互跑到帧率的推理栈。

Cosmos 给了什么,OmniDreams 加了什么

底座是 Cosmos-Predict 2.5,一个预训练扩散视频模型,本身已带广泛视觉先验。OmniDreams 不从零开始。它在 21k 小时真实驾驶日志上做中训(RDS 数据集,3M 条 20 秒片段,外加精选的 RDS-HQ-1M,共 1.14M 条,覆盖 15 个国家),把 Cosmos 专化到路面场景,并让生成同时受文本提示、抽象世界场景图和当前驾驶动作的条件控制。

更难的一步是把双向视频生成器变成能在闭环里跑的因果自回归模型。论文用带因果掩码的 Diffusion Forcing,让每帧只关注过去帧,再用 Self Forcing 和分布匹配蒸馏(DMD)蒸到 2 步生成器。一个滚动 KV cache 让它以固定成本生成任意长的 rollout。没有这套,扩散视频模型只是离线片段生成器,不是策略能逐步推进的仿真器。

为什么这里生成式胜过重建

NuRec 这类基于重建的神经仿真器,把一段具体采集的驾驶拟合成 3D 高斯泼溅模型。它在原轨迹附近回放清晰,但策略一旦开到采集没去过的地方,渲染就劣化,也无法凭空造出没录到的物体或天气。OmniDreams 从学到的分布里生成,所以能合成偏离轨迹的视角、插入的分布外物体和罕见条件。代价是长 rollout 会漂移,这正是重建没有的失效模式。

关键结果

实时渲染: 单视角 2B 模型在一张 GB300 上 118 ms 出 8 帧块(68 有效 FPS,704x1280)。四视角模型在 16 卡 GB300 机柜上 151 ms 出 16 帧块(每相机 105 FPS)。单卡跑四视角块要 1,289 ms(12 FPS)。
生成质量(RDS-HQ-1M,1,000 片段): 蒸馏后的 Self-Forcing 模型 FVD 24.8,低于双向教师的 26.8,也明显优于多步因果模型的 31.7。它在自身生成帧上跑的 3D 检测(LET-AP 0.400)和车道线 F1(0.828)也领先。
长 rollout(分段 FVD,20 秒): 渐进式长上下文教师把平均 FVD 从 240.0 降到 179.4,首末窗口劣化从 299.9 降到 172.9。质量仍随 rollout 下滑(前 5 秒 95.5,后 5 秒 268.4)。
闭环换仿真器(501 场景,每 533 ms 重规划): 只换传感器仿真器,OmniDreams WAM 的总事故率 4.7%,完整 Alpamayo 1.5 是 10.1%,2 相机版 20.9%,1 相机版 51.9%。
当策略底座(574 场景): 从 OmniDreams 后训的世界动作模型,把碰撞率从 6.9% 降到 4.2%(后向 5.3% 到 3.0%),参数约 2B,对比约 10B。

这些数字没有证明什么

105 FPS 的头条数字要 16 卡 GB300 机柜跑四相机;单卡跑四视角只有 12 FPS,远谈不上实时。单视角 68 FPS 才是单卡数字。闭环对比把策略节流到 OmniDreams 的 533 ms 块速率,所以并非以完整 10 Hz 对着仿真器跑策略。“世界模型胜过 5 倍大的 VLA”被作者标注为初步结果,测的是排除了 OmniDreams 训练场景的子集,且用 NuRec 回放当真实世界行为的替身,而非路测数据。

对开发者的判断

如果你在跑自动驾驶闭环仿真,撞上了重建无法外推偏离轨迹或注入罕见事件的墙,生成式世界模型现在是个能用的选项,不再是研究演示。坎在硬件:多相机输出的帧率级交互假设 GB300 级机柜,而且没有公开代码或权重。世界动作模型那部分更偏推测,它暗示同一个生成式底座既能渲染也能开车,但证据只是在留出子集上的一次初步闭环扫描。

局限与存疑

OmniDreams 没有公开 GitHub 或权重,复现取决于 Cosmos 访问权和 AlpaSim、Alpamayo 这套 NVIDIA 内部或部分开源的栈。长程漂移仍在:即便用了渐进式教师,20 秒 rollout 里 FVD 从前 5 秒到后 5 秒几乎涨到三倍。闭环事故数字把 NuRec 回放当真实参照,在录制轨迹附近合理,rollout 一发散就站不住。这样训出的世界动作模型能否泛化到 NuRec 评测集之外,是开放问题。

常见问题

NVIDIA OmniDreams 是什么?

OmniDreams 是用于自动驾驶仿真的生成式世界模型,从 NVIDIA 的 Cosmos 扩散模型中训和后训而来。它自回归地生成动作条件的相机视频,实时接入 AlpaSim 闭环栈当传感器仿真器,替换基于重建的 NuRec 渲染器。

OmniDreams 怎么做到实时?

2B 单视角模型在一张 GB300 上 118 ms 出 8 帧块,约 68 FPS、704x1280。靠的是把扩散模型用 Self Forcing 蒸到 2 步生成器,配固定大小的滚动 KV cache、局部窗口注意力、torch.compile 加 CUDA graphs,以及轻量 VAE 和 TAE 编解码器。105 FPS 四相机数字要 16 卡 GB300 机柜。

OmniDreams 在闭环里和 NuRec 比怎样?

在 501 场景上只换传感器仿真器,OmniDreams 衍生的策略总事故率 4.7%,完整 Alpamayo 1.5 是 10.1%。论文的说法是 OmniDreams 能生成偏离轨迹和罕见场景,而拟合单段采集的重建仿真器 NuRec 无法外推。

OmniDreams 也替换驾驶策略吗?

部分替换,而且只是初步结果。从 OmniDreams 后训的世界动作模型在留出子集上把碰撞率从 6.9% 降到 4.2%,参数约为五分之一。作者称这是同一个生成式底座可当策略的证据,不是成型的驾驶栈。

一句话:OmniDreams 是基于 Cosmos 的生成式驾驶仿真器,在 GB300 硬件上以帧率跑闭环,初步结果里还兼任更小却更强的驾驶策略。阅读 arXiv 原文。