RLDX-1:多流视觉-语言-动作模型,专攻灵巧机器人

快速答案

RLDX-1 是 RLWRLD 与 KAIST 推出的视觉-语言-动作(VLA)模型,补上了大多数 VLA 缺的三样东西:运动感知、对近期场景理解的长期记忆,以及预测触觉与力矩信号的物理流。在论文里最难的真机测试——用 ALLEX 仿人手抓飞行物体上,它的成功率是 87.5%,而基线 pi0.5 仅 29.2%。在 LIBERO-Plus 仿真基准上它拿到 86.7%,领先 GR00T N1.6 的 72.6%。

为什么标准 VLA 喂不饱灵巧手

大多数 VLA 把「一张图 + 一句指令」映射成机器人动作,在平行夹爪上慢速抓放没问题,但碰到灵巧、接触密集、对时机敏感的任务就崩了。单帧静止画面看不出物体正以多快的速度冲向手;无状态策略两秒前看到什么转头就忘,没法在序列上推理;纯视觉模型对接触力一无所知,而这恰恰是多指手既不捏碎又不滑落所需要的信号。RLDX-1 的思路不是从零重做一个 VLA,而是把这三种缺失的「感官」直接装到一个现代 VLA 上。

多流动作 Transformer 怎么运作

骨干是 Qwen3-VL 8B,在视觉编码器第 9 层加了一个运动模块,通过时空自相似度计算,让模型显式感知场景如何运动,而不是看一张冻结的快照。视觉-语言模型吐出「认知 token」——压缩后的场景理解,而记忆模块维护一个队列,保留最近三份认知特征,让策略能在短时程上推理,而非逐帧反应。

动作头就是多流动作 Transformer(MSAT):它把认知流、动作流、物理流送进联合自注意力。物理流是最特别的一环——它预测未来的触觉与力矩信号,逼模型为抓取和操作提前预判接触。训练分三阶段:先在跨多种机器人形态的 150 万条轨迹上预训练(64 张 H200 跑 10 万步),再做特定形态的中段训练(2.5 万步),最后做特定任务的后训练并可选地加强化学习。另有一条合成数据管线,用视频生成加质量与运动一致性过滤,生成稀有操作场景。

关键结果

以下数字均出自该技术报告,基线为 pi0.5(原文写作 π₀.₅)与 GR00T N1.6。

抓飞行物体(ALLEX 仿人手): 87.5%,pi0.5 仅 29.2%——报告中差距最大的一项,也是运动流见效最直接的证据。
盒中选物(ALLEX): 91.7%,而 pi0.5 与 GR00T N1.6 都只有约 30%。
LIBERO-Plus(仿真): 86.7%,GR00T N1.6 为 72.6%。
LIBERO: 97.8%,GR00T N1.6 为 96.7%——已接近饱和,这里优势很小。
SIMPLER WidowX: 71.9%,pi0.5 为 46.9%。
SIMPLER Google-VM: 81.5%,pi0.5 为 72.7%。
真机 OpenArm,未见物体 / 未见任务: 均为 54.2%,pi0.5 分别为 37.5% 与 45.8%。
推理: 静态图转换带来 1.63 倍加速,在 RTX 5090 上把单步延迟从 71.2 毫秒降到 43.7 毫秒。

老实说:在 LIBERO 这类已饱和的基准上,差距小到只是四舍五入;但在抓取、选物、LIBERO-Plus 这些动态、重接触的任务上,RLDX-1 拉开了真实差距,而这正是它架构设计的目标场景。

为什么现在重要

VLA 领域已经收敛到一个相似模板(VLM 骨干 + 动作专家),pi0.5 和 GR00T 是大家公认的对标对象。RLDX-1 的主张是:下一波收益不来自更大的骨干,而来自给策略喂上手真正用到的感官——运动、记忆与力。物理流预测触觉与力矩,是这里最可迁移的点子,其它实验室可以照搬。大幅领先恰恰出现在抓取和重接触选物、而非静态桌面基准上,这是支撑该论点最有力的证据。

局限与存疑

这是一份技术报告,不是同行评审论文,通篇先讲胜绩、没有专门的局限章节,这本身就是一个保留点。最亮眼的数字来自 RLWRLD 自家的 ALLEX 与 OpenArm 平台,因此抓取和选物结果离开那套硬件很难复现。模型并不开放:报告里没有放出权重或代码,所以对 pi0.5 和 GR00T 的对比全建立在作者自己的评测框架上。实时性的说法绑在 RTX 5090 上——那是高端桌面 GPU,而非机器人端侧算力预算。训练成本也不低:两段预训练用了 64 张 H200,从零复现对多数学术实验室遥不可及。

常见问题

RLDX-1 是什么?

RLDX-1 是 RLWRLD 与 KAIST 面向灵巧手和仿人机器人的视觉-语言-动作模型。它把 Qwen3-VL 8B 骨干与多流动作 Transformer 结合,后者额外加入运动感知、短期记忆,以及预测触觉与力矩信号的物理流。

RLDX-1 和 pi0.5、GR00T N1.6 有什么不同?

RLDX-1 补上了标准 VLA 缺的三种感官——显式运动、近期场景特征的记忆队列、力的预测。收益集中在动态和重接触任务:抓飞行物体成功率 87.5% 对 pi0.5 的 29.2%,LIBERO-Plus 上 86.7% 对 GR00T N1.6 的 72.6%。

RLDX-1 开源吗?

技术报告没有放出权重或代码,因此模型并不公开。基准对比跑在作者自己的评测平台上,包括 ALLEX 仿人手和 OpenArm。

RLDX-1 需要什么硬件?

训练在预训练与中段训练阶段共用了 64 张 H200。推理上,报告在单张 RTX 5090 上、经过 1.63 倍静态图加速后测得单步 43.7 毫秒,所以实时控制假设的是高端桌面 GPU 而非嵌入式硬件。

一句话:给 VLA 喂上手真正用到的感官——运动、记忆与力,提升就恰好出现在最要紧的地方:抓取和重接触操作。阅读 arXiv 技术报告原文。