MolmoAct2:面向真实机器人的开源动作推理模型

快速答案

MolmoAct2 是一套开源的「动作推理」栈:它不把像素直接映射成电机指令,而是先对 3D 空间显式推理,再输出动作。在真实世界的 DROID 操作上,它开箱即用就达到 87.1% 成功率,领先第二名 38.7 个点;它的具身推理大脑 Molmo2-ER 在基准套件上平均 63.8%,压过 GPT-5 和 Gemini Robotics ER-1.5。模型、OpenFAST 动作分词器,以及总计 330 万样本的三套新数据集,全部开源放出。

为什么是「动作推理」而非端到端 VLA

大多数视觉-语言-动作(VLA)模型学的是从相机画面加指令到底层动作的直接映射。这在分布内能用,但场景、机体或任务一变就很脆,因为模型从没形成一个可复用的显式计划。MolmoAct2 押的是另一条路:策略应当先对空间推理——物体在 3D 里的位置、哪些区域重要、夹爪要伸到什么深度——然后才发动作。推理本身就是产品,而不是一团藏起来的激活值。

正因如此,团队没有复用通用聊天模型,而是专门做了 Molmo2-ER(ER 即具身推理)这样一个空间 VLM。它用「先专精再回顾」的配方在 330 万样本语料上训练,在磨练空间能力的同时不丢失通用视觉-语言能力。

让它跑通的三个部件

Molmo2-ER 是推理主干——一个面向空间与具身问题(物体位置、可达性、深度、可供性)的 VLM。它在具身推理上比 Molmo2 基线高 17 个点,在整个基准套件上拿到 1313 项里的 99 项最佳。

OpenFAST 是一个开源权重的动作分词器,把一秒钟的机器人轨迹压成离散 token,词表 2048 个动作 token,训练数据是跨五种机体的一百万条动作序列。正是它让语言模型式的头部能「说出」动作。

MolmoAct2-Think 是面向部署的自适应深度变体。它的诀窍是:只对在相邻时间步之间真正发生变化的场景区域重新预测深度 token,从而在保住几何 grounding 的同时,削掉那种通常让推理型策略慢到无法上真机的单步延迟。

关键结果

真实 DROID: 成功率 87.1%,领先第二名 38.7 个点——这是头条数字,也是最关键的,因为 DROID 是真实、多样的操作场景而非仿真。
具身推理: Molmo2-ER 在基准套件上平均 63.8%,超过 GPT-5 和 Gemini Robotics ER-1.5,1313 项里拿下 99 项最佳,比 Molmo2 基线高 17 个点。
开箱部署: 在 MolmoSpaces 上比 π₀.₅ 高 10.6%,在 MolmoBot 上绝对值高 3.2%(均为跨任务平均);SO-100/101 上 56.7% 对基线 45.3%。
微调 LIBERO: MolmoAct2-Think 平均 98.1%,π₀.₅ 为 96.9%。
开放数据: 三套数据集共 330 万样本,含 3.45 万条双臂示范、共 720 小时,外加 DROID(74,604 段)与 SO-100/101(38,059 段、约 184 小时)。

老实说

DROID 上 +38.7 的差距很吸睛,但要把它当成「部署场景结果」而非普适结论:到了仿真基准,差距就缩到个位数(MolmoSpaces +10.6%、MolmoBot +3.2%、LIBERO 约 1.2 个点)。这种规律其实才是有意思的故事——显式空间推理在分布漂移最严重的地方收益最大,而那恰恰就是真机。只看榜单差值会低估它;只看头条又会高估它在仿真上的增益。

局限与存疑

让 MolmoAct2 更稳健的推理,也是它的代价所在。即便有 MolmoAct2-Think 的「只重算变化区域深度」,显式推理策略仍比直接 VLA 多一份推理开销,论文也把延迟说成「缓解」而非「消除」。它最强的增益集中在真实操作上,仿真差距并不大,所以准确说法是「在要紧处明显更好」,而非「全面碾压」。OpenFAST 只在五种机体上训练,分词器能否迁移到差异更大的机器人仍是问号。和所有 VLA 一样,远低于 100% 的成功率意味着这些还是研究系统,而非生产级可靠控制器——它真正的价值,是给行业一套开源可复现的推理栈来继续往上搭,连同放出的权重、分词器与 330 万样本数据。

常见问题

MolmoAct2 是什么,谁做的?

MolmoAct2 是 Ai2(艾伦人工智能研究院)与合作者推出的开源视觉-语言-动作栈,它先对 3D 空间显式推理再产出机器人动作,而不是把图像直接映射成电机指令。

MolmoAct2 和 Pi-0.5(π₀.₅)比怎么样?

开箱即用 MolmoAct2 全面胜出——MolmoSpaces 上高 10.6%、MolmoBot 绝对值高 3.2%;微调后的 MolmoAct2-Think 在 LIBERO 上达 98.1%,π₀.₅ 为 96.9%。

MolmoAct2 的推理模型比 GPT-5 强吗?

在具身推理上是的:Molmo2-ER 平均 63.8%,超过体量大得多的通用模型 GPT-5 和 Gemini Robotics ER-1.5,因为它专门针对空间与具身问题做了优化。

MolmoAct2 里的 OpenFAST 是什么?

OpenFAST 是 MolmoAct2 的开源权重动作分词器。它把一秒机器人轨迹转成 2048 词表里的离散 token,训练于跨五种机体的一百万条序列,让语言模型头部能像预测词一样预测动作。

MolmoAct2 开源吗?

是的——模型、OpenFAST 分词器,以及总计 330 万样本(含 720 小时双臂遥操作)的三套数据集,都已开源放出供复现。

一句话:先在 3D 里把场景想清楚再动手,而回报在真机上最明显——MolmoAct2 在 DROID 上做到 87.1%。阅读 arXiv 原文。