反向自蒸馏 AntiSD:用点互信息加速推理 RL

快速答案

AntiSD(反向自蒸馏)是一种用于推理强化学习的逐 token 奖励:它能用 2 到 10 倍更少的训练步数追平 GRPO 的精度,最终再高出至多 11.5 分,在 4B 到 30B 的五个模型、多个数学推理基准上验证。核心招数是把自蒸馏反过来——传统做法是把策略拉向「看到特权上下文(题目加部分解题过程)的教师」,而 AntiSD 反过来,只奖励那些特权教师与无条件模型分歧最大的 token,也就是真正携带新信息的 token。

普通自蒸馏的毛病

这篇论文最锋利的地方是诊断而非算法:标准自蒸馏作为推理 RL 的辅助信号时,恰好磨亮了错误的 token。它会抬高教师在结构性、低信息 token(换行、「Step」、等号、套路骨架)上的置信度,却压低了推敲 token 的置信度——而推敲 token 才是模型真正在权衡选择的地方。于是「最小化师生分歧」把梯度花在了从来不是瓶颈的 token 上,还悄悄把最该探索的位置的分布拍平了。如果你纳闷过为什么蒸馏辅助损失「先有点用、然后停滞」,这就是一个具体机制。

AntiSD 到底算什么

AntiSD 把逐 token 信号重新表述为下一个 token 与特权上下文之间的条件点互信息(PMI)。具体做法是对比下一个 token 的两个分布:一个来自看到特权上下文(题目加提示或部分解)的模型,一个来自没有它的模型。特权上下文让分布移动得多,该 token 就携带信息、给奖励;移动不大,就是结构性 token、几乎不给。它不是去缩小这个差距(蒸馏),而是去放大它——所以叫「反向」。优势用一个光滑函数 phi(u) = 0.5 * (softplus(u) - log 2) 来整形,作者在推敲一侧把它下界限制在 -0.5 * log 2,这样奖励就不会过度惩罚探索性 token。

熵门控

防止它崩掉的关键是一个由熵触发的门控。在 5 步预热阶段,方法自动标定一个基线教师熵 H_warm。一旦教师熵 H 跌破 tau_down = 0.93 * H_warm——也就是教师已经变得自信、再无可挖的有用分歧——PMI 奖励就关闭;当熵回到基线时再重新开启。这是它工程上诚实的内核:信号只在有信息量时才施加,所以才能前期激进、后期无害。

关键结果

AntiSD 在测试的各模型上,用 2 到 10 倍更少的训练步数追平 GRPO 基线精度。
最终精度比 GRPO 基线最多高出 11.5 分。
在 Qwen3-8B / HMMT 2025 上,AntiSD 约用 1/5 的步数就达到 GRPO 的峰值,最终再高出约 15 个百分点,这是全文最强的单点数据。
在 4B 到 30B 的五个模型上评测:Qwen3-4B-Instruct-2507、Qwen3-8B、Qwen3-30B-A3B、OLMo-3-7B-Instruct、OLMo-3-7B-Think。
数学基准覆盖 AIME 2024 / 2025 / 2026、HMMT 2025(报告为 avg@32)与 MinervaMath(avg@4);代码推理在 HumanEval+ 与 MBPP+(avg@10)上检验。

值得关注之处,以及我会谨慎的地方

真正新的点子是把逐 token 奖励读作「相对特权上下文的 PMI」,这给了「哪些 token 该得分」一个有原则的答案,比大多数硬塞进 GRPO 的 token 级启发式奖励更干净。样本效率才是卖点:2 到 10 倍更少步数是训练成本的主张,而不只是榜单上动一动;熵门控也巧妙地避开了辅助损失常见的「失效变陈旧」毛病。

我诚实的保留意见是适用面。亮眼增益都在数学这一个领域——这里特权「部分解」容易构造、正确的下一个 token 定义明确。在开放式或 agent 任务里如何定义一个有信息量的特权上下文,远没那么显然,而那些常数(0.93、5 步预热、phi 的下界)看起来是调出来的。请把 +11.5 / +15 当作数学推理的最好情况,而非普适加速。

局限与存疑

作者明确说评测聚焦数学推理,并把扩展到多轮 agent 场景和更广的代码基准列为自然的下一步。开放问题包括:结果对门控阈值与预热长度有多敏感;特权上下文的构造能否泛化到数学之外;在教师熵动态不同的更长 RL 训练里 AntiSD 如何表现;以及增益能否在 Qwen3 / OLMo-3 之外的基座模型上保持。

常见问题

反向自蒸馏 AntiSD 到底做了什么?

AntiSD 把逐 token 奖励算作下一个 token 与特权上下文之间的点互信息,然后放大这个分歧,而不是像普通自蒸馏那样缩小它。它奖励高信息量的推敲 token,忽略结构性 token。

AntiSD 比 GRPO 快多少?

AntiSD 用 2 到 10 倍更少的训练步数追平 GRPO 基线精度,最终再高出至多 11.5 分。在 Qwen3-8B / HMMT 2025 上,它约用 1/5 步数达到 GRPO 峰值,最终再高出约 15 个百分点。

AntiSD 为什么要用熵门控?

熵门控在教师熵跌破其预热基线的 0.93 倍时关闭 PMI 奖励,因为自信的教师不再产生可学习的有用分歧;当熵回升时再开启,使信号只在有信息量时施加。

AntiSD 有哪些局限?

AntiSD 在 4B 到 30B 的五个模型上、于数学推理上得到验证;作者指出多轮 agent 场景与更广的代码基准尚未测试。如何在数学之外定义有信息量的特权上下文是主要的开放挑战。

一句话:奖励特权教师与原模型分歧的 token,而不是它们一致的地方,推理 RL 就能快得多。阅读 arXiv 原始论文。