在线策略蒸馏的几何:一种独立的参数更新模式

快速答案

在线策略蒸馏(OPD)不是夹在监督微调与强化学习中间的折中点,而是自带一套更新几何。在一整套参数空间诊断下,OPD 的更新比 SFT 改动的权重更少、更强烈地避开模型的主方向,但又比 RLVR 更宽松。最关键的发现是「子空间锁定」:OPD 的累积权重变化在训练很早就坍缩进一个狭窄低维通道;把之后所有更新都限制在这个早期子空间内,OPD 的性能几乎不受影响,而 SFT 在同样约束下却严重退化。

OPD 是什么,为什么它的动态一直是黑箱

在线策略蒸馏让学生模型在自己采样产生的轨迹(rollout)上训练,以更强教师的逐 token 分布为评分依据——也就是说,学生是在它真正会生成的轨迹上学习,而不是在固定语料上学习。它已成为把大教师的推理能力迁移进小学生模型的常用配方,处在蒸馏与强化学习的交叉地带。

论文要攻的问题是:几乎所有人都默认 OPD 就是「带 RL 味的 SFT」或「带 SFT 味的 RL」,却没人去核实。如果 OPD 真的只是两者的混合,那它在参数空间的足迹就该落在两者之间。作者没有在嘴上争论,而是直接去测。

参数空间诊断怎么做

这套方法是诊断性的,而非新的训练算法。作者在同一设置上跑三种训练范式——OPD、SFT、RLVR(带可验证奖励的强化学习)——并测量每一种把模型挪到了权重空间的哪里:

局部性:有多少权重发生了实质性移动,移动有多集中。
主方向对齐度:更新是顺着模型已有的主导方向(SFT 倾向如此),还是刻意避开它们。
秩随时间的动态:随训练推进,累积更新的有效维度如何变化。

结果显示 OPD 落在他们称为「放松的离主方向区」:比 SFT 改动更少权重、更强地避开主方向,却又不像 RLVR 那样被紧紧约束。这把 OPD 放在了 SFT–RLVR 连线之外,而不是线上。

子空间锁定这一核心结果

真正承重的结论是动态的,而非静态的。OPD 的累积更新在训练早期就迅速汇入一个狭窄低维子空间——它「锁住了」。为验证这个子空间是偶然还是功能性的,作者把更新空间冻结到早期形成的子空间,只在其内部继续训练。OPD 在这一约束下保住了性能,SFT 却做不到——同样的限制让它明显退化。这种不对称正是证据:被锁住的子空间对 OPD 来说是功能上足够的——OPD 早期找到的通道,正是它真正需要的通道。

关键结果

离主方向定位:OPD 更新比 SFT 改动的权重更少、更强避开主方向,同时比 RLVR 更宽松——所以 OPD 不是两者的插值。
子空间锁定:OPD 的累积更新在训练早期就进入一个狭窄低维通道,而非铺开。
功能上足够:把训练限制在那个早期子空间能保住 OPD 性能,而同样约束下 SFT 明显退化。
秩动态稳健:稀疏化「哪些 token 被更新」、把 rollout 生成转为离策略,都不改变秩动态。
反例印证规则:把 OPD 目标与 RLVR 混合会改变秩动态——说明这套几何是 OPD 目标本身的属性,而非数据或 token 选择带来的。

为什么现在重要

OPD 已经悄悄成为把推理蒸馏进小模型的默认手段,却一直靠经验调参。如果 OPD 真正有用的更新确实活在一个训练早期就定下的低维子空间里,那就是一个具体的杠杆:它暗示 OPD 也许能用远少得多的有效参数来跑,训练早期的信号或可预测最终的有用子空间,而把 OPD 与 RLVR 混合并非免费午餐——因为它扰动了正是让 OPD 高效的那套几何。

局限与存疑

这是一篇诊断性研究,它止步于兑现自己暗示的收益之前。诚实的缺口是:论文证明了被锁子空间足以保住性能,却没有把它变成一个真正利用它来训得更快或更省的方法——那份工程红利是被断言的,而非被演示的。结论也依赖于所研究的特定模型、教师和任务;「子空间锁定」是否在不同模型规模、模态以及差距悬殊的师生对上依然成立,尚未可知。而且「权重更少、离主方向、低秩」是相关性的几何特征——它们描述 OPD 挪到了哪里,而非给出它为何泛化更好的机制原因,因此因果故事仍是假设。

常见问题

在线策略蒸馏(OPD)是什么,和 SFT 有何不同?

在线策略蒸馏让学生在自己采样的 rollout 上训练,以教师的逐 token 分布评分,因此它学的是自己真正会生成的轨迹。SFT 则在固定外部数据集上训练。本文表明这种区别并非表面:OPD 改动的权重更少,且远比 SFT 更强地避开主方向。

在线策略蒸馏里的「子空间锁定」是什么?

子空间锁定是本文的发现:OPD 的累积权重更新在训练早期就坍缩进一个狭窄低维通道。把之后的更新冻结在这个早期子空间内,OPD 性能不受影响,这意味着被锁子空间对 OPD 所做的事在功能上是足够的。

OPD 只是 SFT 和 RLVR 的混合吗?

不是。参数空间诊断把 OPD 放在一个放松的离主方向区,它落在 SFT–RLVR 连线之外而非两者之间,所以 OPD 自成一套更新几何,而非对两者做插值。

把 OPD 和 RLVR 混合有帮助吗?

并非免费。稀疏化更新 token、或把 rollout 转为离策略,都不改变 OPD 的秩动态;但把 OPD 目标与 RLVR 混合却会改变它们——这是一个信号:两者混合会扰动让 OPD 与众不同的那套几何。

一句话:在线策略蒸馏在权重空间里自成一类——低秩、离主方向、早早锁定。阅读 arXiv 原文。