视觉-语言-动作 · 机器人 · 多模态模型

Qwen-VLA:用一个模型统一操作、导航与轨迹预测

Qwen-VLA 给 Qwen 视觉-语言栈加上 DiT 动作解码器和「具身感知」提示,用单一模型同时做操作、导航与轨迹预测:LIBERO 97.9%、R2R OSR 69.0%。

Qwen-VLA:用一个模型统一操作、导航与轨迹预测

快速答案

Qwen-VLA 是一个统一的视觉-语言-动作(VLA)模型,用一套权重同时完成机器人操作、视觉语言导航和轨迹预测,而不是为每个任务各训一个专家模型。它在 Qwen 视觉-语言栈之上接了一个基于 DiT(扩散 Transformer)的动作解码器,把理解转成连续动作。Instruct 版报告 LIBERO 97.9%、Simpler-WidowX 73.7%、RoboTwin-Easy/Hard 86.1%/87.2%、R2R OSR 69.0%、RxR SR 59.6%——一个 checkpoint 覆盖了平时要分开建模的多类基准。

它针对的「碎片化」问题

具身智能通常被拆成一个个孤岛:一个模型学抓取,一个学在楼里导航,再一个预测物体怎么动。每个都绑死在各自的动作空间、机器人和环境上,能力之间不互通,每换一个新任务或新机械臂就得从头收数据、重训。Qwen-VLA 的赌注是:这些任务只是表面不同,本质上都是「给定像素和语言指令,预测接下来的动作或轨迹」——一个在它们上联合训练的模型可以共享视觉定位和空间推理,而不是把同一件事学三遍。

模型怎么搭

Qwen-VLA 从 Qwen 的视觉-语言模型出发——这部分本身已经能对图像和文本做感知、理解、推理——再外接一个基于 DiT 的动作解码器,把这种理解转成连续动作与轨迹。视觉-语言主干读场景和指令,扩散解码器生成运动。这一点很关键:语言模型天生输出离散 token,跟机器人需要的平滑、高频控制并不契合,而扩散动作头是产生连续轨迹更干净的做法。

真正做「统一」的是两个设计。其一是具身感知提示条件(embodiment-aware prompt):用一段机器人专属的文字描述告诉模型当前在驱动哪具「身体」、它的控制约定是什么,于是同一套权重能驱动 WidowX 单臂、ALOHA 双臂或一个导航智能体,不用为每个平台单设输出头。其二是把操作、导航、轨迹预测统一进同一个「动作-轨迹预测」框架,让三类任务说同一种输出语言,从而可以联合训练。

训练数据里有什么

预训练配方刻意做得很杂:机器人操作轨迹、人类第一视角演示、合成仿真数据、视觉语言导航数据、以轨迹为中心的监督,以及辅助的视觉-语言数据。人类第一视角和仿真这两路最有意思——它们让模型不必在真机上把每个技能都演示一遍就能学到操作先验,而真机演示恰恰是机器人学习里最贵的瓶颈。把导航和轨迹数据混进同一个模型,才支撑起「空间推理可迁移」这个说法,而不是三个互不相干的技能拼在一起。

关键结果

以下均为作者报告的 Qwen-VLA-Instruct 数据:

  • LIBERO:97.9%——这套操作基准上强专家已经扎堆在 90 多,所以重点是「统一模型仍有竞争力」,而非刷新操作记录。
  • Simpler-WidowX:73.7%RoboTwin-Easy/Hard:86.1%/87.2%——仿真操作整体扎实,难档几乎追平易档。
  • R2R:69.0% OSRRxR:59.6% SR——视觉语言导航由那个同时还在做操作的 checkpoint 完成,这才是真正不寻常的点。
  • 真机 ALOHA:平均 76.9% OOD 成功率——在场景布局、背景、光照、物体配置和具身变化下测的分布外压力测试,不是分布内的好看数字。
  • DOMINO 动态操作:零样本 26.6%——很低也很诚实;没见过的动态任务依旧难,作者照实报告而非藏起来。

真正的结果不是某一个分数(多数都有强劲的任务专精对手),而是一套权重同时在操作、导航、轨迹三类基准上都拿到了说得过去的成绩

局限与存疑

DOMINO 零样本 26.6% 是最能说明问题的一个数:没见过的动态操作基本还没解决,统一也没把它修好。LIBERO 97.9% 已接近饱和,它更多证明「做通用没付出明显代价」,而非展示新能力。摘要没有突出参数量、训练算力或推理延迟,所以「一个大的多任务模型 vs 几个小专家」在工程成本上的对比并不清楚——而延迟对实时控制极其重要。「统一」还依赖手写的具身提示,每接一个新机器人都是一次人工集成,而非自动的形态发现。和多数 VLA 工作一样,真机证据来自受控的 ALOHA 台架,不是脏乱的真实部署,泛化结论应被读作有希望,而非已被证明。

常见问题

Qwen-VLA 是什么?

Qwen-VLA 是 Qwen 团队推出的统一视觉-语言-动作模型,用单一模型完成机器人操作、视觉语言导航和轨迹预测,做法是在 Qwen 视觉-语言栈上外接一个基于 DiT 的动作解码器。

Qwen-VLA 怎么适配不同机器人?

Qwen-VLA 用具身感知提示条件:一段机器人专属文字描述指定当前的具身和控制约定,于是同一套权重不必为每个机器人单设输出头,就能驱动不同平台。

Qwen-VLA 报告了哪些基准?

Qwen-VLA-Instruct 报告 LIBERO 97.9%、Simpler-WidowX 73.7%、RoboTwin-Easy/Hard 86.1%/87.2%、R2R OSR 69.0%、RxR SR 59.6%、真机 ALOHA 平均 76.9% 分布外成功率,以及 DOMINO 动态操作零样本 26.6%。

Qwen-VLA 真的比专精机器人模型更强吗?

在单项基准上它是有竞争力而非碾压——LIBERO 97.9% 已接近专家也能达到的天花板。它的独特卖点是广度:一个 checkpoint 同时在操作、导航和轨迹任务上都保持强势。

一句话:给视觉-语言模型加一个扩散动作头和具身提示,单一模型就能把操作、导航、轨迹一起做了。阅读 arXiv 原文