ABot-Earth 0.5:从卫星图生成3D城市
ABot-Earth 0.5 用卫星图生成 3D Gaussian Splatting 城市场景,报告每平方公里 10 分钟内生成,FID 为 16.1。
主题
面向物理机器人的学习与控制。
ABot-Earth 0.5 用卫星图生成 3D Gaussian Splatting 城市场景,报告每平方公里 10 分钟内生成,FID 为 16.1。
视觉-语言-动作 · Zhejiang University
LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。
AnchorWorld:具身视角世界模拟把自我视角世界模拟变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
Function2Scene:按功能生成室内三维布局把功能驱动三维场景布局变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
AI 智能体 · Independent Researcher
SpatialWorld:交互式空间推理智能体把交互式空间推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
在 20 亿帧动作语料(比此前大 200 倍)上,从约 384 个 PPO 专家蒸馏出因果 Transformer。仿真成功率 92.58 percent,单步推理低于 1.5ms。
Cosmos 3 把语言、图像、视频、音频、机器人动作塞进一个混合 Transformer 模型,英伟达称它在文生图、图生视频以及 RoboArena 策略榜上都拿到开源第一。
视觉-语言-动作 · Allen Institute for AI
MolmoAct2 是开源视觉-语言-动作栈,先在 3D 空间推理再动手。真实 DROID 成功率 87.1%,领先第二名 38.7 个点,推理模型 Molmo2-ER 还超过 GPT-5。
视觉-语言-动作 · Shanghai AI Laboratory
PhysBrain 1.0 把人类第一视角视频编译成物理问答预训练 VLM,再适配成机器人策略:真实 Franka 抓取 50 次试验从 47.1% 提到 63.3%(对比 pi0.5)。
Qwen-VLA 给 Qwen 视觉-语言栈加上 DiT 动作解码器和「具身感知」提示,用单一模型同时做操作、导航与轨迹预测:LIBERO 97.9%、R2R OSR 69.0%。
RLWRLD 与 KAIST 的 VLA,在 Qwen3-VL 上加运动、记忆与触觉三条流。抓飞行物体成功率 87.5%,基线 pi0.5 仅 29.2%。
来自 ETH、斯坦福、TU Darmstadt 与 IIT 的立场论文主张:堆大 VLA 和世界模型不够,机器人真正缺的是把无标注人类与视频行为转成可训练监督信号的四个数据接口。
视觉-语言-动作 · Physical Intelligence
π0 在预训练 VLM 上接一个流匹配动作专家,以约 50Hz 输出连续动作块,让一个策略跨单臂、双臂和移动机器人完成叠衣服、收餐桌、装箱子等灵巧任务。
RT-2 把机器人动作写成文本 token,联合微调网页预训练的视觉语言模型,在约 6000 次试验中涌现出对新物体、未见指令和基础推理的泛化能力。