直接语料交互 DCI:让智能体用 grep 取代检索器

快速答案

直接语料交互(Direct Corpus Interaction,DCI)彻底丢掉检索器,让搜索智能体用 grep、find、文件读取和 shell 管道直接读原始语料——不用嵌入模型、不用向量索引、不用 top-k 接口。在同样的 Claude Sonnet 4.6 底座下,把 Qwen3-Embedding-8B 检索工具换成 DCI,BrowseComp-Plus 准确率从 69.0% 升到 80.0%(+11.0 分),整套评测成本从 1440 美元降到 1016 美元(−29.4%)。论文的核心论点:对能力够强的智能体,检索瓶颈在于”接口”,而非检索器本身。

DCI 要解决的瓶颈

传统检索器——BM25、稠密嵌入、重排——都把语料压缩成单一相似度分数,在推理开始前只给智能体一份 top-k 切片。这对一次性 RAG 够用,但悄悄丢掉了智能体搜索真正需要的东西:精确词面约束、多个弱线索的合取、局部上下文核验。更糟的是,在 top-k 阶段被滤掉的证据后面再强的模型也救不回来。作者把这归结为一个”分辨率”问题:top-k 列表只能定位整篇文档或段落,永远到不了智能体真正想核验的那一小段。

DCI 怎么工作

DCI 把语义理解下放给 LLM,直接给它字节级的高分辨率访问。智能体不再查检索器,而是发出终端调用:grep、rg 做精确或正则匹配,find、glob 做结构导航,head、tail、sed 做局部精读。关键在于这些能拼成管道——grep 'foo' file | grep 'bar' 强制合取,find . | grep 'report' | grep '2024' 组合弱线索,grep -n 'keyword' file | head 对照局部上下文验证假设。整个过程无需离线建索引,语料变了也能即时适应。

论文用两套脚手架实现 DCI:一套是强配置(Sonnet 4.6 上的 Claude Code),另一套是为证明通用性而搭的极简框架(基于 Pi 与 GPT-5.4 nano),只用 bash 和 read 加简单的截断/压缩做上下文管理。两套都跑赢了检索基线。

关键结果

BrowseComp-Plus: 同底座下用 DCI 替换 Qwen3-Embedding-8B 检索工具,准确率从 69.0% 升到 80.0%(+11.0 分),整套评测成本从 1440 美元降到 1016 美元(−29.4%)。
多跳问答: DCI 配 Claude Code 拿到 83.0 平均准确率,比最强检索智能体基线高 30.7 分。
IR 排序: 同一配置在四个 BRIGHT 和两个 BEIR 数据集上达到 68.5 平均 NDCG@10,比最优检索基线高 21.5 分。
增益来源: 消融实验显示,DCI 通常并非靠”捞出更多金标文档”取胜——即便检索智能体已经捞出全部金标证据,它往往仍能胜出。优势来自把这些证据转化成更细粒度的局部搜索与核验。

最后一点是最诚实也最有意思的结论:这不是”grep 找得更多”,而是”grep 让智能体把已经找到的东西看得更细”。

局限与存疑

DCI 有一条很陡的能力边界,论文对此很坦诚。当 BrowseComp-Plus 语料从 10 万篇扩到 20 万篇,每题工具调用次数从 38.5 跳到 86.9,延迟和成本都翻倍以上,准确率掉 13.6 分。扩到 40 万篇时准确率跌到 37.5%,平均工具调用 122.4 次,有 20 个样本直接耗尽工具预算。DCI 在搜索”深度”上扩展良好,但在搜索”广度”上很差——在巨大候选空间里定位第一个有用锚点,正是成本爆炸的地方。作者也承认,对大规模静态语料,稠密与稀疏检索仍是正解;DCI 面向的是本地、动态、由智能体掌控的工作区。这些胜绩还基于精选的 BRIGHT/BEIR 子集,且依赖前沿模型(Sonnet 4.6、GPT-5.4 nano),所以结果一部分是”智能体有多强”的故事,而不只是接口本身。

常见问题

什么是直接语料交互 DCI?

DCI 是一种检索范式:搜索智能体用通用终端工具(grep、find、文件读取、shell 管道)直接读原始语料,而不调用基于嵌入的检索器或向量索引。整个语料始终可见,由智能体自己决定看哪里。

DCI 把智能体搜索准确率提升了多少?

在 BrowseComp-Plus 上,同样的 Claude Sonnet 4.6 底座下,用 DCI 替换 Qwen3-Embedding-8B 检索器,准确率从 69.0% 升到 80.0%(+11.0 分),成本同时降 29.4%。在多跳问答上达到 83.0 平均准确率,比最强检索智能体基线高 30.7 分。

DCI 在 IR 基准上能打过稠密和稀疏检索吗?

在测试集上可以:在四个 BRIGHT 和两个 BEIR 数据集上拿到 68.5 平均 NDCG@10,比最优检索基线高 21.5 分,且全程不用任何传统语义检索器。

DCI 什么时候会失效?

语料越大 DCI 越吃力。把 BrowseComp-Plus 扩到 40 万篇文档,准确率跌到 37.5%,每题平均工具调用升到 122.4 次。它适合本地、动态语料,而非稠密或稀疏检索更省钱的海量静态索引。

为什么 grep 能打过训练好的检索器?

因为增益来自接口分辨率,而非召回率。top-k 检索器只能返回整篇文档;DCI 让智能体在已经捞出的字节上做精确匹配、正则与局部上下文核验,把粗粒度证据变成细粒度验证。

一句话:当智能体强到能像研究者一样搜索时,被压缩的相似度索引反而成了瓶颈。阅读 arXiv 原文。