主题

AI 智能体

由大模型驱动、能规划、行动、调用工具并携带技能的系统。

深色屏幕上的自主智能体工作流

AI 智能体把大模型套进规划、工具调用、记忆与行动的循环里,让只能一问一答的模型变成能跨多步追求目标的系统。真正重要的研究,不在于某个具体模型,而在于智能体如何推理、调用工具、从错误中恢复,并在任务之间携带可复用的技能。

这个主题记录了从巧妙提示到持久基础设施的转变:ReAct 把推理与行动交织,Toolformer 教模型调用 API,而 COLLEAGUE.SKILL 这类技能打包系统把专长变成可移植、可纠正的产物。真正的难题在可靠性、评测、安全边界,以及如何大规模地编写和维护技能。

奠基论文

智能体记忆 · UC Berkeley

MemGPT:把大模型上下文窗口当操作系统来管

MemGPT 借来操作系统的虚拟内存:让大模型用函数调用给自己的上下文分页换入换出,深度记忆检索在 GPT-4 上做到 93.4%,而递归摘要只有 35.3%。

长上下文 · University of Illinois Urbana-Champaign

从上下文到技能:Ctx2Skill 让大模型自进化学技能

Ctx2Skill 用多智能体自博弈,无需人工标注或外部奖励,从长上下文中挖出自然语言技能,把 GPT-4.1 从 11.1% 提到 16.5%。

AI 智能体 · University of Illinois Urbana-Champaign

Eywa:让大模型智能体调用科学基础模型

Eywa 让大模型智能体把时序、表格交给 Chronos、TabPFN 等专用模型,而非塞进文本。EywaBench 上效用从 0.6154 提到 0.6558,省约 30% token。

AI 智能体 · University of Waterloo

直接语料交互 DCI:让智能体用 grep 取代检索器

DCI 让搜索智能体直接 grep 原始语料,不再调用检索器。BrowseComp-Plus 准确率从 69.0% 升到 80.0%,成本降 29.4%。

近期解读

智能体记忆 · National University of Singapore

EvoArena:智能体记忆必须追踪环境变化

EvoArena 把静态智能体任务改造成演化链,当前智能体平均准确率只有 39.6%;EvoMem 用 patch memory 将链级准确率提高 3.7 点。

AI 智能体 · Google DeepMind

From AGI to ASI:DeepMind的超智能路径图

Google DeepMind 报告梳理 AGI 到 ASI 的四条非互斥路径,并把数据墙、资源约束、监管等瓶颈视为开放研究问题。

AI 智能体 · NVIDIA

SpatialClaw:空间智能体为何需要Python工作区

SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。

AI 智能体 · Renmin University of China

Arbor:用假设树管理自主科研

Arbor 用持久假设树管理科研尝试,6 个 AO 任务 held-out 结果全胜,MLE-Bench Lite Any Medal 达 86.36%。

AI 智能体 · TokenRhythm Technologies

Claw-SWE-Bench:编码智能体不能只看模型

Claw-SWE-Bench 用 350 个 issue 测 coding-agent harness,完整 adapter 让 OpenClaw Pass@1 升至 73.4%。

AI 智能体 · Independent Researcher

AdaPlanBench:测试智能体自适应规划

AdaPlanBench:测试智能体自适应规划把约束下的自适应规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

智能体记忆 · National University of Singapore

EvoArena:智能体记忆必须追踪环境变化

EvoArena 把静态智能体任务改造成演化链,当前智能体平均准确率只有 39.6%;EvoMem 用 patch memory 将链级准确率提高 3.7 点。

AI 智能体 · Google DeepMind

From AGI to ASI:DeepMind的超智能路径图

Google DeepMind 报告梳理 AGI 到 ASI 的四条非互斥路径,并把数据墙、资源约束、监管等瓶颈视为开放研究问题。

AI 智能体 · NVIDIA

SpatialClaw:空间智能体为何需要Python工作区

SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。

AI 智能体 · Renmin University of China

Arbor:用假设树管理自主科研

Arbor 用持久假设树管理科研尝试,6 个 AO 任务 held-out 结果全胜,MLE-Bench Lite Any Medal 达 86.36%。

AI 智能体 · TokenRhythm Technologies

Claw-SWE-Bench:编码智能体不能只看模型

Claw-SWE-Bench 用 350 个 issue 测 coding-agent harness,完整 adapter 让 OpenClaw Pass@1 升至 73.4%。

AI 智能体 · Independent Researcher

AdaPlanBench:测试智能体自适应规划

AdaPlanBench:测试智能体自适应规划把约束下的自适应规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · UC Berkeley

Agents' Last Exam:AI智能体终极考试

ALE 用 1490 个专家构建的专业任务测试智能体,覆盖 55 个数字行业,最难档平均完整通过率只有 2.6%。

AI 智能体 · Independent Researcher

ArcANE:角色扮演智能体何时出戏

ArcANE:角色扮演智能体何时出戏把角色扮演语言智能体可靠性变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

视频生成 · Nanjing University

CoVEBench:视频编辑能否听懂复杂指令

CoVEBench:视频编辑能否听懂复杂指令把视频编辑复杂指令遵循变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Nanjing University

DRIFT:精准定位深度研究 Agent 错在哪一步

TELBench 让模型在十余步的研究轨迹里找出坏掉的那一段。DRIFT 用主张对证据的审计法,把 span 级宏 F1 推到 54.91%,比直接喂原始轨迹最高高出 30 个百分点。

AI 智能体 · University of Illinois Urbana-Champaign

Harness-1：把搜索智能体的记账活儿搬出策略

Harness-1 是个 20B 的 RL 搜索智能体，把工作记忆交给环境维护，平均策展召回 0.730，比最强开源子智能体高 11.4 分。

AI 智能体 · Independent Researcher

K-BrowseComp:韩语网页智能体基准

K-BrowseComp:韩语网页智能体基准把韩语语境网页浏览智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Shanghai Jiao Tong University

LatentSkill：把智能体技能烧进 LoRA 权重，而非塞进提示词

超网络一次前向就把文本技能编译成 LoRA。ALFWorld 成功率涨 21.4 分，prefill token 省 64.1%。

AI 智能体 · Independent Researcher

搜索智能体何时该屏蔽旧观察论文详细解读

搜索智能体何时该屏蔽旧观察把搜索智能体上下文管理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Lehigh University

OpenSkill:无监督下的自进化 LLM 智能体

OpenSkill 让智能体从开放网络自建技能与验证器,SkillsBench 上达 43.6%(+8.9),全程不碰目标任务答案。

AI 智能体 · Shanghai AI Laboratory

ResearchClawBench:自主科研智能体基准

ResearchClawBench:自主科研智能体基准把端到端自主科研智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

强化学习 · Tsinghua University

CHERRL:把 Rubric RL 的奖励黑客变成可复现实验

CHERRL 主动给裁判注入四类已知偏见,让奖励黑客稳定复现;只读训练日志的检测 agent 把六次实验的起点定位区间误差合计压到 11 步,零漏检。

AI 智能体 · Xiamen University

SAAS:教搜索智能体何时该停手

SAAS 用自我感知强化学习,把 Qwen2.5-7B 搜索智能体的平均检索次数从 2.19 降到 0.97,准确率仍贴近最优基线(48.7% vs 49.8%)。

强化学习 · University of Edinburgh

SCOPE：让大模型在开放任务上自博弈进化

SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化，靠一份冻结的自评委打分，八个开放基准最高提升 +10.4 分，且不用任何人工标注的提示。

AI 智能体 · Ant Group

SkillAdaptor:让 LLM 智能体自己改写技能库

SkillAdaptor 不动模型权重,只从失败轨迹里改写技能库,WebShop 分数 +2.3、PinchBench +1.5,提升真实但有限。

AI 智能体 · Independent Researcher

SoCRATES:主动式 LLM 调解评测

SoCRATES:主动式 LLM 调解评测把主动调解智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

SpatialWorld:交互式空间推理智能体

SpatialWorld:交互式空间推理智能体把交互式空间推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · HKUST

StreamMA：多智能体推理里，边写边传比等完再传更聪明

StreamMA 让智能体生成一步推理就立刻流式传给下游，而不是等整条链写完。8 个基准平均涨 7.3 个百分点（HMMT 2026 最高 +22.4），并行场景最快提速 26.9 倍。

AI 智能体 · Shanghai Jiao Tong University

SWE-Explore：编程智能体真能找对代码吗

SWE-Explore 单独考核代码探索：848 个 issue 上智能体远超 BM25（HitFile 0.65 对 0.08），但行级召回卡在 0.15-0.20，这才是真瓶颈。

AI 智能体 · Independent Researcher

TASTE:从工具序列生成智能体难题

TASTE:从工具序列生成智能体难题把工具调用基准生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

TIDE:模板引导的主动发现问题

TIDE:模板引导的主动发现问题把主动式问题发现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

ToolMaze:工具失败后的智能体重规划

ToolMaze:工具失败后的智能体重规划把工具失败后的动态重规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

多模态模型 · The Chinese University of Hong Kong

X-Stream：多路视频流为何让 MLLM 只拿 50 分

X-Stream 是首个多路并发视频流理解基准。最强的 Gemini 3 Pro 仅 49.6%，人类却有 91.84%，主动反应能力更跌破 21%。

智能体记忆 · UC Berkeley

MemGPT:把大模型上下文窗口当操作系统来管

MemGPT 借来操作系统的虚拟内存:让大模型用函数调用给自己的上下文分页换入换出,深度记忆检索在 GPT-4 上做到 93.4%,而递归摘要只有 35.3%。

AI 智能体 · Shanghai AI Laboratory

AgentDoG 1.5:轻量可扩展的 AI 智能体安全护栏

AgentDoG 1.5 仅用约 1k 样本训练 0.8B-8B 智能体安全护栏,4B 版在 R-Judge 上拿到 92.2% 准确率,逼近 GPT-5.4,部署开销砍掉两个数量级。

AI 智能体 · Shanghai Jiao Tong University

ARIS:用跨模型对抗多智能体做自主科研

ARIS 是开源自主科研框架,让 Claude 系执行者搭配 GPT 系审稿者互相攻击,专治「看似成功实则无依据」,含 65+ 技能与三阶段证据审计。

AI 智能体 · UNC-Chapel Hill

AutoResearchClaw:跑赢 AI Scientist v2 的科研智能体

AutoResearchClaw 用 23 阶段多智能体管线自主做研究,ARC-Bench 上 0.648 远超 AI Scientist v2 的 0.419,但只有人在环时质量才达标。

AI 智能体 · Shanghai AI Laboratory

Pi-Bench:AI 助手能猜到你没说出口的需求吗

Pi-Bench 不只看完成度,更测「主动性」。100 个长程任务里最强的 GPT-5.4 主动性也只有 67.0%,抽走历史会话后骤降 9.5 个百分点。

AI 智能体 · University of Waterloo

直接语料交互 DCI:让智能体用 grep 取代检索器

DCI 让搜索智能体直接 grep 原始语料,不再调用检索器。BrowseComp-Plus 准确率从 69.0% 升到 80.0%,成本降 29.4%。

AI 智能体 · University of Illinois Urbana-Champaign

Code as Agent Harness:把代码重新定义为 AI 智能体的运行时

这篇综述提出:代码不是智能体生成的产物,而是它运行其上的可执行底座,并用「接口—机制—多智能体扩展」三层把 40 多个系统串成一张图,末尾列出七个开放问题。

AI 智能体 · Shanghai AI Laboratory

COLLEAGUE.SKILL:把一个人的专长蒸馏成可移植 AI 技能

COLLEAGUE.SKILL 把一个人零散的工作痕迹蒸馏成带版本、可审查的技能包,分能力与受限行为两条轨道,任何 agent 都能安装、纠正、回滚。开源系统报告约 1.85 万 star。

多模态模型 · University of Illinois Urbana-Champaign

Crafter:多智能体协作生成可编辑科研图表

Crafter 给图像模型套上五个协作智能体,PaperBanana-Bench 拿到 50.34 分,而同款底座单跑只有 11.13;CraftEditor 再把位图转成可编辑 SVG。

长上下文 · University of Illinois Urbana-Champaign

从上下文到技能:Ctx2Skill 让大模型自进化学技能

Ctx2Skill 用多智能体自博弈,无需人工标注或外部奖励,从长上下文中挖出自然语言技能,把 GPT-4.1 从 11.1% 提到 16.5%。

世界模型 · NVIDIA

Gamma-World：突破两人上限的多智能体世界模型

英伟达的多人交互视频世界模型，蒸馏后以 24 FPS 实时推理，从两人到四人无需重新训练，FVD 较 Solaris 几乎砍半。

AI 智能体 · University of Illinois Urbana-Champaign

Eywa:让大模型智能体调用科学基础模型

Eywa 让大模型智能体把时序、表格交给 Chronos、TabPFN 等专用模型,而非塞进文本。EywaBench 上效用从 0.6154 提到 0.6558,省约 30% token。

AI 智能体 · MemTensor

MemPrivacy:用可逆占位符守住端云 Agent 的记忆隐私

MemPrivacy 端侧把敏感片段换成带类型占位符交云端处理记忆,再本地还原,效用损失控制在 1.6% 内,0.6B-4B 小模型识别隐私片段反超 GPT-5.2。

AI 智能体 · Shanghai Jiao Tong University

MMSkills:给通用视觉智能体的多模态技能包

MMSkills 把流程、状态卡、关键帧打包成可复用技能,在 OSWorld 上把 8B 小模型从 10.78% 翻倍到 25.40%,235B 模型从 21.34% 升到 39.17%。

多模态模型 · Sea AI Lab

OpenSearch-VL:多模态搜索智能体的开源配方

OpenSearch-VL 开源了数据、代码与权重,训练会调用真实搜索、OCR 和图像工具的视觉语言搜索智能体,30B-A3B 在七个基准上平均比 Qwen3-VL 基座提升 13.8 分。

AI 智能体 · Zhejiang University

自蒸馏智能体强化学习:特权教师逐 token 引导 GRPO

SDAR 在 GRPO 之上加了一路带门控的 token 级自蒸馏信号,由「看得到检索技能」的教师引导,让多轮智能体在 WebShop 上最高 +10.2、ALFWorld 上 +9.4。

AI 智能体 · University of Science and Technology of China

Skill1:一个 RL 策略统一管技能的选、用、蒸

Skill1 用一个 Qwen2.5-7B 策略,在同一任务结果奖励下统一学会检索、使用、提炼可复用技能,ALFWorld 达 97.5%,超最强纯 RL 基线 6.5 个点。

AI 智能体 · Microsoft Research

SkillOpt:把冻结智能体的技能文本当模型来训

SkillOpt 不动模型权重,只训练一份自然语言技能文档:靠有界增删改、文本学习率和留出验证门,把 GPT-5.5 在直聊场景六个基准上平均拉高 +23.5 分。

AI 智能体 · MemTensor

SkillsVote:为可复用的智能体技能做全生命周期治理

SkillsVote 把智能体技能当成受治理的库:百万级语料筛选、运行前推荐、运行后门控。离线进化让 GPT-5.2 在 Terminal-Bench 2.0 上最高提升 7.9 个百分点。

AI 智能体 · Peking University

Video2GUI：从互联网视频里挖出 1200 万条 GUI 智能体轨迹

Video2GUI 把 5 亿条无标注教程视频自动转成 WildGUI 数据集——1200 万条 GUI 交互轨迹，在其上预训练让多项 GUI 基准提升 5-20%。