大模型也需要睡眠:离线巩固加做梦改写权重

快速答案

谷歌研究院提出:大模型不该只在回答问题时学习,它还需要一个离线的「睡眠」阶段来改写自己的权重——就像人在夜里巩固一天的经历。这套两阶段方案把「清醒」时吸收的短期上下文转成持久参数:先用巩固阶段把新知识蒸馏进网络,再用做梦阶段靠强化学习生成合成训练数据、无需人工监督地自我提升。加上睡眠后,Qwen3-8B 在 AIME-24 拿到 79.2%,Transformer 在 ARC 小样本任务上成功率 80%,而 SEAL 自编辑基线只有 72.5%、测试时训练只有 10%。

问题:上下文学习会遗忘

模型处理长对话或长文档时,新事实只存在激活值和上下文窗口里。论文说得直白:这种在线学习是「选择性、依赖检索的」——相关文本还在上下文里时有效,之后就蒸发了。什么都没写回权重,下一次会话又从零开始。作者用生物学类比:清醒阶段廉价但不可靠地收集经验,要把任何东西真正存入长期记忆,需要一个独立的离线阶段。其核心论点是,光靠在线巩固「不足以实现稳健的持续学习」。

方法:先巩固,再做梦

睡眠分两阶段。巩固阶段通过作者称为「向上蒸馏」的知识播种完成:一个吸收了近期上下文的更小更快的模型,反过来教更大的网络,把广义知识蒸馏(GKD)和基于强化学习的模仿学习目标结合起来;同时扩展参数量,为新知识腾出空间而不覆盖旧技能。做梦阶段负责自我提升:模型生成自己的合成训练数据,用基于梯度的重要性给候选「梦境」打分,并通过受控的专家随机化注入新意。两步分离是刻意的——论文指出「在持续学习中反复做自我提升可能引发灾难性遗忘」,所以把巩固和做梦拆成不同阶段,而非揉进同一个更新循环。

为什么是现在:持续学习撞墙

测试时训练和 SEAL 这类自编辑方法已让离线自改写成为活跃方向,但各自只覆盖一小块——要么适配单个任务,要么记住单段文本。这项工作想用一套睡眠时间表统一长程记忆、持续学习、知识吸收和小样本泛化,并配上一个作者称为 Hope 的多频率记忆架构:不同参数组在睡眠周期里以不同速率更新。

关键结果

ARC 小样本:加睡眠后 Transformer 成功率 80%,SEAL 为 72.5%,测试时训练 10%,上下文学习 0%。
数学推理:Qwen3-8B 加睡眠在 AIME-24 拿 79.2%、AIME-25 拿 69.0%、HMMT-25 拿 46.1%;Qwen3-1.7B 加睡眠为 53.2%、40.2%、29.3%。相对 OPSD 基线,8B 模型在 AIME-24 上 +2.6%。
知识吸收(SQuAD):四级记忆加睡眠单段达 48.9%、n=200 段达 46.2%,SEAL 为 46.7% 与 43.2%。
长上下文记忆:Hope 架构在 BABILong 上扩展到 1000 万 token 仍接近满分,而 Titans 和 ARMT 超过 100 万 token 后急剧退化。
持续翻译(CTNL):Hope 在依次接触多语言后,几乎恢复到单语言性能;上下文学习在同样设置下大幅下滑。

一个一致的现象:随着巩固阶段增多,长上下文任务(MK-NIAH、LongHealth、QASPER)的准确率单调上升。

局限与存疑

数字是真的,但叙事重度依赖大脑隐喻,而论文自己点出了核心风险:反复自改写会招致灾难性遗忘,两阶段设计只是缓解而非解决。最强的长上下文和持续学习结果都建立在定制的 Hope 架构上,因此尚不清楚收益有多少来自睡眠时间表、多少来自底层架构。数学增益有限——AIME-24 相对 OPSD 的 +2.6% 真实但狭窄。摘要页未给出跑一次睡眠周期的算力或耗时,因此在两次部署之间真做这件事是否划算还没定论。在自生成数据上「做梦」能否在多周期后不漂移,是最值得追问的开放问题。

常见问题

大模型的睡眠范式是什么?

这是谷歌研究院提出的两阶段离线流程,让大模型在会话之间改写自身权重:巩固阶段把近期上下文蒸馏进网络,做梦阶段在自生成的合成数据上用强化学习自我提升,无需人工标注。

睡眠方法比 SEAL 强吗?

在所报告的基准上是的:ARC 小样本 80% 对 SEAL 的 72.5%,SQuAD 单段知识吸收 48.9% 对 46.7%。

巩固和做梦有什么区别?

巩固通过向上蒸馏把刚学到的上下文转入稳定权重;做梦生成合成练习数据并在其上自我提升。两者拆成独立阶段是为了抑制灾难性遗忘。

谁写的《大模型也需要睡眠》?

谷歌研究院的 Ali Behrouz、Farnoosh Hashemi 和 Vahab Mirrokni,arXiv 编号 2606.03979,2026 年 6 月 2 日提交。