ACE-Ego-0:把人类第一视角视频和机器人数据统一进 VLA 预训练
ACE-Ego-0 用 6000 多小时数据做 VLA 预训练,把机器人轨迹和转成伪动作的人类第一视角视频混在一起。六个真机双臂任务平均 78.3%,高于 pi-0.5 的 71.7%。
机构
专注视觉-语言-动作模型的具身智能与机器人实验室,ACE-Ego-0 VLA 预训练框架的提出方。
ACE-Ego-0 用 6000 多小时数据做 VLA 预训练,把机器人轨迹和转成伪动作的人类第一视角视频混在一起。六个真机双臂任务平均 78.3%,高于 pi-0.5 的 71.7%。