机构

Tianjin University

位于中国天津的重点综合性研究型大学；其智能与计算学部的 TJUNLP 实验室从事自然语言处理与大语言模型研究。

按数学→代码→问答→写作顺序做 RL 后训练，数学从峰值 66.49 跌到 57.66，可梯度看上去却是正交的。末尾补一段短数学复习，数学回到 66.04，其余三域几乎不动。