MolmoAct2:面向真实机器人的开源动作推理模型
MolmoAct2 是开源视觉-语言-动作栈,先在 3D 空间推理再动手。真实 DROID 成功率 87.1%,领先第二名 38.7 个点,推理模型 Molmo2-ER 还超过 GPT-5。
快速答案
MolmoAct2 是一套开源的「动作推理」栈:它不把像素直接映射成电机指令,而是先对 3D 空间显式推理,再输出动作。在真实世界的 DROID 操作上,它开箱即用就达到 87.1% 成功率,领先第二名 38.7 个点;它的具身推理大脑 Molmo2-ER 在基准套件上平均 63.8%,压过 GPT-5 和 Gemini Robotics ER-1.5。模型、OpenFAST 动作分词器,以及总计 330 万样本的三套新数据集,全部开源放出。
为什么是「动作推理」而非端到端 VLA
大多数视觉-语言-动作(VLA)模型学的是从相机画面加指令到底层动作的直接映射。这在分布内能用,但场景、机体或任务一变就很脆,因为模型从没形成一个可复用的显式计划。MolmoAct2 押的是另一条路:策略应当先对空间推理——物体在 3D 里的位置、哪些区域重要、夹爪要伸到什么深度——然后才发动作。推理本身就是产品,而不是一团藏起来的激活值。
正因如此,团队没有复用通用聊天模型,而是专门做了 Molmo2-ER(ER 即具身推理)这样一个空间 VLM。它用「先专精再回顾」的配方在 330 万样本语料上训练,在磨练空间能力的同时不丢失通用视觉-语言能力。
让它跑通的三个部件
Molmo2-ER 是推理主干——一个面向空间与具身问题(物体位置、可达性、深度、可供性)的 VLM。它在具身推理上比 Molmo2 基线高 17 个点,在整个基准套件上拿到 1313 项里的 99 项最佳。
OpenFAST 是一个开源权重的动作分词器,把一秒钟的机器人轨迹压成离散 token,词表 2048 个动作 token,训练数据是跨五种机体的一百万条动作序列。正是它让语言模型式的头部能「说出」动作。
MolmoAct2-Think 是面向部署的自适应深度变体。它的诀窍是:只对在相邻时间步之间真正发生变化的场景区域重新预测深度 token,从而在保住几何 grounding 的同时,削掉那种通常让推理型策略慢到无法上真机的单步延迟。
关键结果
- 真实 DROID: 成功率 87.1%,领先第二名 38.7 个点——这是头条数字,也是最关键的,因为 DROID 是真实、多样的操作场景而非仿真。
- 具身推理: Molmo2-ER 在基准套件上平均 63.8%,超过 GPT-5 和 Gemini Robotics ER-1.5,1313 项里拿下 99 项最佳,比 Molmo2 基线高 17 个点。
- 开箱部署: 在 MolmoSpaces 上比 π₀.₅ 高 10.6%,在 MolmoBot 上绝对值高 3.2%(均为跨任务平均);SO-100/101 上 56.7% 对基线 45.3%。
- 微调 LIBERO: MolmoAct2-Think 平均 98.1%,π₀.₅ 为 96.9%。
- 开放数据: 三套数据集共 330 万样本,含 3.45 万条双臂示范、共 720 小时,外加 DROID(74,604 段)与 SO-100/101(38,059 段、约 184 小时)。
老实说
DROID 上 +38.7 的差距很吸睛,但要把它当成「部署场景结果」而非普适结论:到了仿真基准,差距就缩到个位数(MolmoSpaces +10.6%、MolmoBot +3.2%、LIBERO 约 1.2 个点)。这种规律其实才是有意思的故事——显式空间推理在分布漂移最严重的地方收益最大,而那恰恰就是真机。只看榜单差值会低估它;只看头条又会高估它在仿真上的增益。
局限与存疑
让 MolmoAct2 更稳健的推理,也是它的代价所在。即便有 MolmoAct2-Think 的「只重算变化区域深度」,显式推理策略仍比直接 VLA 多一份推理开销,论文也把延迟说成「缓解」而非「消除」。它最强的增益集中在真实操作上,仿真差距并不大,所以准确说法是「在要紧处明显更好」,而非「全面碾压」。OpenFAST 只在五种机体上训练,分词器能否迁移到差异更大的机器人仍是问号。和所有 VLA 一样,远低于 100% 的成功率意味着这些还是研究系统,而非生产级可靠控制器——它真正的价值,是给行业一套开源可复现的推理栈来继续往上搭,连同放出的权重、分词器与 330 万样本数据。
常见问题
MolmoAct2 是什么,谁做的?
MolmoAct2 是 Ai2(艾伦人工智能研究院)与合作者推出的开源视觉-语言-动作栈,它先对 3D 空间显式推理再产出机器人动作,而不是把图像直接映射成电机指令。
MolmoAct2 和 Pi-0.5(π₀.₅)比怎么样?
开箱即用 MolmoAct2 全面胜出——MolmoSpaces 上高 10.6%、MolmoBot 绝对值高 3.2%;微调后的 MolmoAct2-Think 在 LIBERO 上达 98.1%,π₀.₅ 为 96.9%。
MolmoAct2 的推理模型比 GPT-5 强吗?
在具身推理上是的:Molmo2-ER 平均 63.8%,超过体量大得多的通用模型 GPT-5 和 Gemini Robotics ER-1.5,因为它专门针对空间与具身问题做了优化。
MolmoAct2 里的 OpenFAST 是什么?
OpenFAST 是 MolmoAct2 的开源权重动作分词器。它把一秒机器人轨迹转成 2048 词表里的离散 token,训练于跨五种机体的一百万条序列,让语言模型头部能像预测词一样预测动作。
MolmoAct2 开源吗?
是的——模型、OpenFAST 分词器,以及总计 330 万样本(含 720 小时双臂遥操作)的三套数据集,都已开源放出供复现。
一句话:先在 3D 里把场景想清楚再动手,而回报在真机上最明显——MolmoAct2 在 DROID 上做到 87.1%。阅读 arXiv 原文。