多域 RL 为何会遗忘,一次数学复习就能治好
按数学→代码→问答→写作顺序做 RL 后训练,数学从峰值 66.49 跌到 57.66,可梯度看上去却是正交的。末尾补一段短数学复习,数学回到 66.04,其余三域几乎不动。
机构
位于中国天津的重点综合性研究型大学;其智能与计算学部的 TJUNLP 实验室从事自然语言处理与大语言模型研究。
按数学→代码→问答→写作顺序做 RL 后训练,数学从峰值 66.49 跌到 57.66,可梯度看上去却是正交的。末尾补一段短数学复习,数学回到 66.04,其余三域几乎不动。