主题

视觉-语言-动作

把感知与语言直接映射到机器人动作的模型。

视觉-语言-动作模型试图让机器人利用语言和视觉模型已经学到的语义世界。目标不只是识别物体或理解指令，而是输出能在真实硬件上工作的连续动作或离散动作 token。

这个主题还早，但战略价值很高。RT-2 展示了如何通过类语言动作表示，把网页规模视觉语言知识迁移到机器人控制。π0 则用连续动作上的 flow matching 推向更通用的机器人策略。真正难点在数据采集、安全、具身迁移、延迟，以及单一策略能否适应真实机器人硬件差异。

从这里开始

视觉-语言-动作 · Physical Intelligence

π0 详解:用流匹配生成连续动作的视觉-语言-动作模型

π0 在预训练 VLM 上接一个流匹配动作专家,以约 50Hz 输出连续动作块,让一个策略跨单臂、双臂和移动机器人完成叠衣服、收餐桌、装箱子等灵巧任务。

视觉-语言-动作 · Google DeepMind

RT-2 解读:把动作当文本 token 的视觉-语言-动作模型

RT-2 把机器人动作写成文本 token,联合微调网页预训练的视觉语言模型,在约 6000 次试验中涌现出对新物体、未见指令和基础推理的泛化能力。

奠基论文

视觉-语言-动作 · Google DeepMind

RT-2 解读:把动作当文本 token 的视觉-语言-动作模型

RT-2 把机器人动作写成文本 token,联合微调网页预训练的视觉语言模型,在约 6000 次试验中涌现出对新物体、未见指令和基础推理的泛化能力。

视觉-语言-动作 · Physical Intelligence

π0 详解:用流匹配生成连续动作的视觉-语言-动作模型

π0 在预训练 VLM 上接一个流匹配动作专家,以约 50Hz 输出连续动作块,让一个策略跨单臂、双臂和移动机器人完成叠衣服、收餐桌、装箱子等灵巧任务。

视觉-语言-动作 · Allen Institute for AI

MolmoAct2:面向真实机器人的开源动作推理模型

MolmoAct2 是开源视觉-语言-动作栈,先在 3D 空间推理再动手。真实 DROID 成功率 87.1%,领先第二名 38.7 个点,推理模型 Molmo2-ER 还超过 GPT-5。

视觉-语言-动作 · RLWRLD

RLDX-1:多流视觉-语言-动作模型,专攻灵巧机器人

RLWRLD 与 KAIST 的 VLA,在 Qwen3-VL 上加运动、记忆与触觉三条流。抓飞行物体成功率 87.5%,基线 pi0.5 仅 29.2%。

近期解读

视觉-语言-动作 · Zhejiang University

LabVLA:面向科学实验室的VLA模型

LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。

世界模型 · Independent Researcher

AnchorWorld:具身视角世界模拟

AnchorWorld:具身视角世界模拟把自我视角世界模拟变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

机器人 · Independent Researcher

TVRBench:模型能否移动到目标视角

TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

机器人 · Tsinghua University

Humanoid-GPT:GPT 式 Transformer 做人形动作跟踪

在 20 亿帧动作语料(比此前大 200 倍)上,从约 384 个 PPO 专家蒸馏出因果 Transformer。仿真成功率 92.58 percent,单步推理低于 1.5ms。

AI 智能体 · Shanghai Jiao Tong University

MMSkills:给通用视觉智能体的多模态技能包

MMSkills 把流程、状态卡、关键帧打包成可复用技能,在 OSWorld 上把 8B 小模型从 10.78% 翻倍到 25.40%,235B 模型从 21.34% 升到 39.17%。

视觉-语言-动作 · Allen Institute for AI

MolmoAct2:面向真实机器人的开源动作推理模型

MolmoAct2 是开源视觉-语言-动作栈,先在 3D 空间推理再动手。真实 DROID 成功率 87.1%,领先第二名 38.7 个点,推理模型 Molmo2-ER 还超过 GPT-5。

视觉-语言-动作 · Zhejiang University

LabVLA:面向科学实验室的VLA模型

LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。

世界模型 · Independent Researcher

AnchorWorld:具身视角世界模拟

AnchorWorld:具身视角世界模拟把自我视角世界模拟变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

机器人 · Independent Researcher

TVRBench:模型能否移动到目标视角

TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

机器人 · Tsinghua University

Humanoid-GPT:GPT 式 Transformer 做人形动作跟踪

在 20 亿帧动作语料(比此前大 200 倍)上,从约 384 个 PPO 专家蒸馏出因果 Transformer。仿真成功率 92.58 percent,单步推理低于 1.5ms。

AI 智能体 · Shanghai Jiao Tong University

MMSkills:给通用视觉智能体的多模态技能包

MMSkills 把流程、状态卡、关键帧打包成可复用技能,在 OSWorld 上把 8B 小模型从 10.78% 翻倍到 25.40%,235B 模型从 21.34% 升到 39.17%。

视觉-语言-动作 · Allen Institute for AI

MolmoAct2:面向真实机器人的开源动作推理模型

MolmoAct2 是开源视觉-语言-动作栈,先在 3D 空间推理再动手。真实 DROID 成功率 87.1%,领先第二名 38.7 个点,推理模型 Molmo2-ER 还超过 GPT-5。

视觉-语言-动作 · Shanghai AI Laboratory

PhysBrain 1.0:把人类视频编译成机器人的物理先验

PhysBrain 1.0 把人类第一视角视频编译成物理问答预训练 VLM,再适配成机器人策略:真实 Franka 抓取 50 次试验从 47.1% 提到 63.3%(对比 pi0.5)。

视觉-语言-动作 · Alibaba Qwen Team

Qwen-VLA:用一个模型统一操作、导航与轨迹预测

Qwen-VLA 给 Qwen 视觉-语言栈加上 DiT 动作解码器和「具身感知」提示,用单一模型同时做操作、导航与轨迹预测:LIBERO 97.9%、R2R OSR 69.0%。

视觉-语言-动作 · RLWRLD

RLDX-1:多流视觉-语言-动作模型,专攻灵巧机器人

RLWRLD 与 KAIST 的 VLA,在 Qwen3-VL 上加运动、记忆与触觉三条流。抓飞行物体成功率 87.5%,基线 pi0.5 仅 29.2%。

视觉-语言-动作 · ETH Zurich

机器人不止需要 VLA 和世界模型:四个缺失的接口

来自 ETH、斯坦福、TU Darmstadt 与 IIT 的立场论文主张:堆大 VLA 和世界模型不够,机器人真正缺的是把无标注人类与视频行为转成可训练监督信号的四个数据接口。

视觉-语言-动作 · Physical Intelligence

π0 详解:用流匹配生成连续动作的视觉-语言-动作模型

π0 在预训练 VLM 上接一个流匹配动作专家,以约 50Hz 输出连续动作块,让一个策略跨单臂、双臂和移动机器人完成叠衣服、收餐桌、装箱子等灵巧任务。

视觉-语言-动作 · Google DeepMind

RT-2 解读:把动作当文本 token 的视觉-语言-动作模型

RT-2 把机器人动作写成文本 token,联合微调网页预训练的视觉语言模型,在约 6000 次试验中涌现出对新物体、未见指令和基础推理的泛化能力。

从这里开始

奠基论文

近期解读

相关主题