SpatialClaw:空间智能体为何需要Python工作区
SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。
快速答案
SpatialClaw 的判断很直接:很多 VLM 空间推理智能体失败,不是因为没有工具,而是因为调用工具的接口太僵硬。它不给模型一个固定 JSON 工具菜单,也不让模型一次性写完整程序后等待结果,而是提供一个持久 Python kernel。模型每一步可以写一个 cell,调用感知和几何原语,查看 mask、depth、plot、变量和报错,再决定下一步。论文在 20 个空间推理基准上报告 59.9% 平均准确率,相比同表近期 spatial-agent baseline 的 48.7% 高 11.2 点。
核心想法:代码就是动作接口
工具增强空间智能体通常用结构化调用暴露感知模块。这很干净,但组合能力有限。如果问题需要先分割物体,再结合深度图,再拟合平面,再根据中间结果修正轨迹判断,固定 schema 很容易变成瓶颈。
SpatialClaw 把代码当作行动媒介。模型一次写一个 Python cell,运行后看到中间输出,再写下一段。kernel 持久存在,所以变量、图像、几何结果和错误信息都能留在工作区里。空间证据不再只是一次性返回文本,而是可检查、可组合的计算状态。
这更像 harness 论文,不是基础模型论文。它没有声称 VLM 本身突然真正理解 3D,而是证明一个更开放、可迭代的执行界面能让 VLM 更好地使用外部空间证据。
关键结果
- 总体准确率: 使用 Gemma 4-31B backbone 时,SpatialClaw 在 20 个基准上平均 59.9%。
- 相对 baseline: 同表近期 spatial-agent baseline 为 48.7%,headline 提升为 11.2 点。
- 接口对比: 无工具 53.4,single-pass code 55.2,structured tool-call 56.7,SpatialClaw 59.9。
- 强项类别: 多视角、视频和 4D 空间推理提升更明显,因为这些任务更依赖多步几何计算。
- MindCube 和 DSI-Bench: SpatialClaw 在 MindCube 上为 72.8,高于 structured tool-call 的 62.4 和 SpaceTools 的 52.9;在 DSI-Bench 上为 62.9,高于 structured 的 58.4 和 SpaceTools 的 43.0。
- 工具消融: 去掉 utility functions 后平均从 56.9 到 56.4,影响很小;去掉感知工具后降到 51.4。
持久执行为什么有效
single-pass code 的表达力很强,但它在看到中间证据前就必须提交完整策略。structured tool-call 能安全暴露模块,但设计者必须提前想到所有组合方式。SpatialClaw 的持久 Python 工作区避开了这两个问题:模型可以运行一步、发现 mask 错了、换方法、保留变量继续算。
这解释了为什么 camera motion、多视角推理、relative direction、temporal reasoning 等类别提升更大。这些任务往往不是一句语义判断,而是一串小的空间操作。论文的 pairwise 分析显示,SpatialClaw 在 13 个 meta-category 中有 11 个胜过 single-pass code 和 structured tool-call。
对开发者的启发
最值得复制的不是「给智能体更多工具」。SpatialClaw 的真正启发是:少量可靠感知原语加一个可编程、有状态的工作区,可能比一大堆窄工具 endpoint 更好。视觉智能体需要看见、计算、检查和修正,而不是只调用函数拿文本结果。
另一个启发是要把 harness 和模型分开评测。SpatialClaw 用多个 backbone,并尽量保持 prompt、工具和超参一致,所以「动作接口带来提升」这个说法更站得住。
局限与存疑
SpatialClaw 是 training-free,但不是 cost-free。多步代码执行、感知调用、图像输出和 retry 都会增加延迟和失败模式。如果放到机器人或 AR 系统里,还需要比 benchmark 更严格的安全边界。
基准覆盖很宽,但许多任务仍可归结为感知加几何问题。论文证明的是受控工具栈下 benchmark 空间推理提升,不是证明 VLM 智能体已经能在真实世界做可靠物理规划。
常见问题
SpatialClaw 是什么?
SpatialClaw 是 NVIDIA 提出的 training-free 空间推理智能体。它给 VLM 一个持久 Python kernel,里面有输入帧、感知工具和几何原语,让模型迭代检查和计算空间证据。
SpatialClaw 提升有多大?
论文报告在 20 个空间推理基准上平均准确率 59.9%,高于无工具 53.4、single-pass code 55.2、structured tool-call 56.7,也高于近期 spatial-agent baseline 的 48.7。
SpatialClaw 在 MindCube 和 DSI-Bench 上提升多少?
MindCube 上 SpatialClaw 为 72.8,structured tool-call 为 62.4,SpaceTools 为 52.9。DSI-Bench 上 SpatialClaw 为 62.9,structured 为 58.4,SpaceTools 为 43.0。
SpatialClaw 为什么不用固定工具调用?
固定工具调用安全清晰,但限制测试时组合。Python 工作区允许模型根据中间 mask、depth、变量和错误动态改变计算方式。
SpatialClaw 是否证明 VLM 真懂 3D?
不是。它证明更好的动作接口能让 VLM-backed agent 更有效使用外部空间证据。提升应归因于 harness、工具和模型的组合,不能只算在 base model 上。
一句话:SpatialClaw 的重点不是工具更多,而是空间智能体需要一个可检查、可迭代的计算工作区。阅读 arXiv 原文。