视觉-语言-动作 · Physical Intelligence
π0 详解:用流匹配生成连续动作的视觉-语言-动作模型
π0 在预训练 VLM 上接一个流匹配动作专家,以约 50Hz 输出连续动作块,让一个策略跨单臂、双臂和移动机器人完成叠衣服、收餐桌、装箱子等灵巧任务。
主题
把感知与语言直接映射到机器人动作的模型。
视觉-语言-动作模型试图让机器人利用语言和视觉模型已经学到的语义世界。目标不只是识别物体或理解指令,而是输出能在真实硬件上工作的连续动作或离散动作 token。
这个主题还早,但战略价值很高。RT-2 展示了如何通过类语言动作表示,把网页规模视觉语言知识迁移到机器人控制。π0 则用连续动作上的 flow matching 推向更通用的机器人策略。真正难点在数据采集、安全、具身迁移、延迟,以及单一策略能否适应真实机器人硬件差异。
视觉-语言-动作 · Physical Intelligence
π0 在预训练 VLM 上接一个流匹配动作专家,以约 50Hz 输出连续动作块,让一个策略跨单臂、双臂和移动机器人完成叠衣服、收餐桌、装箱子等灵巧任务。
RT-2 把机器人动作写成文本 token,联合微调网页预训练的视觉语言模型,在约 6000 次试验中涌现出对新物体、未见指令和基础推理的泛化能力。
RT-2 把机器人动作写成文本 token,联合微调网页预训练的视觉语言模型,在约 6000 次试验中涌现出对新物体、未见指令和基础推理的泛化能力。
视觉-语言-动作 · Physical Intelligence
π0 在预训练 VLM 上接一个流匹配动作专家,以约 50Hz 输出连续动作块,让一个策略跨单臂、双臂和移动机器人完成叠衣服、收餐桌、装箱子等灵巧任务。
视觉-语言-动作 · Allen Institute for AI
MolmoAct2 是开源视觉-语言-动作栈,先在 3D 空间推理再动手。真实 DROID 成功率 87.1%,领先第二名 38.7 个点,推理模型 Molmo2-ER 还超过 GPT-5。
RLWRLD 与 KAIST 的 VLA,在 Qwen3-VL 上加运动、记忆与触觉三条流。抓飞行物体成功率 87.5%,基线 pi0.5 仅 29.2%。
视觉-语言-动作 · Zhejiang University
LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。
AnchorWorld:具身视角世界模拟把自我视角世界模拟变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
在 20 亿帧动作语料(比此前大 200 倍)上,从约 384 个 PPO 专家蒸馏出因果 Transformer。仿真成功率 92.58 percent,单步推理低于 1.5ms。
AI 智能体 · Shanghai Jiao Tong University
MMSkills 把流程、状态卡、关键帧打包成可复用技能,在 OSWorld 上把 8B 小模型从 10.78% 翻倍到 25.40%,235B 模型从 21.34% 升到 39.17%。
视觉-语言-动作 · Allen Institute for AI
MolmoAct2 是开源视觉-语言-动作栈,先在 3D 空间推理再动手。真实 DROID 成功率 87.1%,领先第二名 38.7 个点,推理模型 Molmo2-ER 还超过 GPT-5。
视觉-语言-动作 · Zhejiang University
LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。
AnchorWorld:具身视角世界模拟把自我视角世界模拟变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
在 20 亿帧动作语料(比此前大 200 倍)上,从约 384 个 PPO 专家蒸馏出因果 Transformer。仿真成功率 92.58 percent,单步推理低于 1.5ms。
AI 智能体 · Shanghai Jiao Tong University
MMSkills 把流程、状态卡、关键帧打包成可复用技能,在 OSWorld 上把 8B 小模型从 10.78% 翻倍到 25.40%,235B 模型从 21.34% 升到 39.17%。
视觉-语言-动作 · Allen Institute for AI
MolmoAct2 是开源视觉-语言-动作栈,先在 3D 空间推理再动手。真实 DROID 成功率 87.1%,领先第二名 38.7 个点,推理模型 Molmo2-ER 还超过 GPT-5。
视觉-语言-动作 · Shanghai AI Laboratory
PhysBrain 1.0 把人类第一视角视频编译成物理问答预训练 VLM,再适配成机器人策略:真实 Franka 抓取 50 次试验从 47.1% 提到 63.3%(对比 pi0.5)。
Qwen-VLA 给 Qwen 视觉-语言栈加上 DiT 动作解码器和「具身感知」提示,用单一模型同时做操作、导航与轨迹预测:LIBERO 97.9%、R2R OSR 69.0%。
RLWRLD 与 KAIST 的 VLA,在 Qwen3-VL 上加运动、记忆与触觉三条流。抓飞行物体成功率 87.5%,基线 pi0.5 仅 29.2%。
来自 ETH、斯坦福、TU Darmstadt 与 IIT 的立场论文主张:堆大 VLA 和世界模型不够,机器人真正缺的是把无标注人类与视频行为转成可训练监督信号的四个数据接口。
视觉-语言-动作 · Physical Intelligence
π0 在预训练 VLM 上接一个流匹配动作专家,以约 50Hz 输出连续动作块,让一个策略跨单臂、双臂和移动机器人完成叠衣服、收餐桌、装箱子等灵巧任务。
RT-2 把机器人动作写成文本 token,联合微调网页预训练的视觉语言模型,在约 6000 次试验中涌现出对新物体、未见指令和基础推理的泛化能力。