From AGI to ASI:DeepMind的超智能路径图
Google DeepMind 报告梳理 AGI 到 ASI 的四条非互斥路径,并把数据墙、资源约束、监管等瓶颈视为开放研究问题。
主题
激发并提升大语言模型的逐步推理能力。
Google DeepMind 报告梳理 AGI 到 ASI 的四条非互斥路径,并把数据墙、资源约束、监管等瓶颈视为开放研究问题。
MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。
AI 智能体 · Renmin University of China
Arbor 用持久假设树管理科研尝试,6 个 AO 任务 held-out 结果全胜,MLE-Bench Lite Any Medal 达 86.36%。
AI 智能体 · Independent Researcher
AdaPlanBench:测试智能体自适应规划把约束下的自适应规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
ALE 用 1490 个专家构建的专业任务测试智能体,覆盖 55 个数字行业,最难档平均完整通过率只有 2.6%。
TELBench 让模型在十余步的研究轨迹里找出坏掉的那一段。DRIFT 用主张对证据的审计法,把 span 级宏 F1 推到 54.91%,比直接喂原始轨迹最高高出 30 个百分点。
综述把长视频 MLLM 重构为「看-记-想」三种能力,对比 11 篇已有综述,梳理 100+ 方法与 5 个应用领域。
AI 智能体 · Independent Researcher
K-BrowseComp:韩语网页智能体基准把韩语语境网页浏览智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
LeanDojo:检索增强定理证明把Lean 中的检索增强定理证明落到具体方法和可检查结果上,适合判断该方向的真实进展。
清华 LongTraceRL 从搜索智能体轨迹挖更难的干扰文档,再加实体级 rubric 奖励,让 Qwen3-4B 五个长上下文基准平均分从 53.3 涨到 59.0。
MiniF2F:形式化奥赛数学基准把形式化奥赛级数学评测落到具体方法和可检查结果上,适合判断该方向的真实进展。
AI 智能体 · Shanghai AI Laboratory
ResearchClawBench:自主科研智能体基准把端到端自主科研智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
强化学习 · University of Edinburgh
SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化,靠一份冻结的自评委打分,八个开放基准最高提升 +10.4 分,且不用任何人工标注的提示。
AI 智能体 · Independent Researcher
SoCRATES:主动式 LLM 调解评测把主动调解智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
StreamMA 让智能体生成一步推理就立刻流式传给下游,而不是等整条链写完。8 个基准平均涨 7.3 个百分点(HMMT 2026 最高 +22.4),并行场景最快提速 26.9 倍。
AI 智能体 · Independent Researcher
TASTE:从工具序列生成智能体难题把工具调用基准生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
大模型推理 · Shanghai AI Laboratory
ThoughtFold 用掩码偏好学习,把 DeepSeek-R1-Distill-Qwen-7B 的冗余推理平均压掉约 56% 的 token,准确率基本不变。
AI 智能体 · Independent Researcher
TIDE:模板引导的主动发现问题把主动式问题发现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
微调与适配 · The Hong Kong Polytechnic University
TA-OPD 只监督教师修正落在学生 top-K 支撑集内的约 5% token,效果常追平甚至超过全 token 在线蒸馏(Qwen3-4B 蒸 1.7B:44.89 对 42.37)。
AI 智能体 · Independent Researcher
ToolMaze:工具失败后的智能体重规划把工具失败后的动态重规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
多模态模型 · Independent Researcher
VideoKR:知识密集型视频理解把视频理解中的知识与推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
不让视频模型自己硬推,而是让 VLM 给中间帧打分、逐样本微调一个 LoRA。RULER-Bench 从 46.4 拉到 68.2。
PF-OPSD 训练 Qwen3.5-9B 学会判断何时调用视频世界模型、如何核验生成画面,并在两个新基准上把准确率分别提升 10.6 和 10.9 个百分点。
这项工作把 AI 形式化证明搜索放到开放数学题上评测:最强 agent 解出 353 个 Erdos 问题中的 9 个,证明 492 个 OEIS 猜想中的 44 个。
DeepSeek-Prover-V1.5 把 Lean 反馈、强化学习和 RMaxTS 搜索结合起来,miniF2F 达 63.5%,ProofNet 达 25.3%。
TrOPD 只在教师真正可信的 token 上做在线策略蒸馏,在数学、代码、STEM 上比标准 OPD 平均高出 3.06 到 3.52 分。
大模型推理 · Shanghai AI Laboratory
上海 AI 实验室的 30B-A3B 开源模型 SU-01,仅用约 33.8 万条短 SFT 轨迹加 200 步两阶段 RL,就在 IMO 2025 拿到 35 分金牌线。
AntiSD 把自蒸馏反过来——只奖励特权上下文与原模型分歧最大的 token——用 2 到 10 倍更少的步数追平 GRPO,在 4B 到 30B 的五个模型上最终高出至多 11.5 分。
AI 智能体 · Shanghai Jiao Tong University
ARIS 是开源自主科研框架,让 Claude 系执行者搭配 GPT 系审稿者互相攻击,专治「看似成功实则无依据」,含 65+ 技能与三阶段证据审计。
AutoResearchClaw 用 23 阶段多智能体管线自主做研究,ARC-Bench 上 0.648 远超 AI Scientist v2 的 0.419,但只有人在环时质量才达标。
只在示例里多写几步中间推理,大模型就能解多步难题——540B 模型配 8 个思维链示例,GSM8K 达到当时最优的 57%,超过带验证器的微调版 GPT-3。
AI 智能体 · University of Illinois Urbana-Champaign
这篇综述提出:代码不是智能体生成的产物,而是它运行其上的可执行底座,并用「接口—机制—多智能体扩展」三层把 40 多个系统串成一张图,末尾列出七个开放问题。
大模型推理 · Renmin University of China
DelTA 把 RLVR 更新重加权,让信用落在真正能区分对错的 token 上,使 Qwen3-8B-Base 平均提升 3.26 分、Qwen3-14B-Base 提升 2.62 分。
DVAO 按各奖励在组内的方差自适应加权,而非固定系数,在 Qwen3-4B-Base 上把平均准确率从 38.99% 提到 42.19%,长度合规率从 96.39% 拉到 99.91%。
在线策略蒸馏并非介于 SFT 与 RLVR 之间,而是自成一套几何:它改动更少权重、避开主方向,并在训练早期就锁进一个狭窄低维子空间。
检索增强生成 · University of Massachusetts Amherst
GrepSeek 训练大模型用 grep 等 shell 命令直接搜原始语料、不建嵌入索引,在七个开放域问答基准上拿到最佳 F1 与精确匹配,检索最高提速 7.6 倍。
多模态模型 · University of Washington
想象式感知标记(IPT)训练视觉语言模型渲染出它在另一视角下会看到的画面,再据此推理,而非用文字思考。多视角计数提升 3.4%,路径追踪比肩闭源模型,而文本思维链有时反而拖后腿。
KVarN 用 Hadamard 旋转加双轴方差归一化,把 KV 缓存压到 2-bit 且无需标定数据,专治长推理解码中量化误差逐步放大的问题。
OCC-RAG 是 0.6B 与 1.7B 的两个推理小模型,只依据给定上下文作答、答不出就拒答,在多跳问答上追平甚至超过体量 2-6 倍的通用模型。
近端策略优化(PPO)用一个裁剪过的代理目标稳住策略梯度——几乎和 TRPO 一样稳,却简单得多——后来成了 ChatGPT、InstructGPT 背后 RLHF 的默认强化学习引擎。
ReAct 让模型把推理过程和搜索、API 调用等行动交替进行,削减思维链幻觉,仅凭一两个示例就在 ALFWorld 上以 34% 绝对成功率超越强化学习智能体。
SDAR 在 GRPO 之上加了一路带门控的 token 级自蒸馏信号,由「看得到检索技能」的教师引导,让多轮智能体在 WebShop 上最高 +10.2、ALFWorld 上 +9.4。
AI 智能体 · University of Science and Technology of China
Skill1 用一个 Qwen2.5-7B 策略,在同一任务结果奖励下统一学会检索、使用、提炼可复用技能,ALFWorld 达 97.5%,超最强纯 RL 基线 6.5 个点。
Toolformer 让模型自己决定调用哪个 API、传什么参数——计算器、问答、搜索、翻译、日历——只靠保留那些能降低下一词损失的采样调用,每个工具只需几条示范。
TransitLM 收录四座中国城市 1300 万条规划记录,让语言模型脱离地图引擎直接规划公交路线,4B 模型在最优路线上达 97.0% 连通性、71.0% 完全匹配。
在线策略蒸馏会把教师监督浪费在学生早期的烂 rollout 上。TRB 在热身阶段于 KL 信赖域内混入接近教师的行为策略,再把预算退火到零——两个数学推理设置上拿到最强平均成绩。
AlphaGeometry 用语言模型加符号引擎,在 1 亿条合成定理上从零训练,30 道奥赛几何题解出 25 道,而此前最强方法只有 10 道。
DPO 用一个分类式损失直接在偏好对上求解 RLHF 问题:不训练单独的奖励模型,不跑强化学习循环,训练时也不采样。
GPT-4 技术报告是一份成绩单,而非复现手册:多模态图文输入,模拟律师考试约前 10%,却不公开架构、数据与算力。
Meta 把 Llama 3 做成一个模型家族,旗舰是 405B 参数的稠密 Transformer,支持 128K 上下文,用 15 万亿以上 token 预训练,并公开了权重。
只奖励答案对错、不喂人工推理过程,DeepSeek-R1 让大模型自发学会逐步推理,数学基准比肩 OpenAI o1,且开源 MIT 权重。