InstructGPT:RLHF 如何打败 100 倍大的模型

快速答案

在 OpenAI 自己的提示分布上做人类评估时,1.3B 参数的 InstructGPT 输出比 175B 参数的 GPT-3 更受偏好——一个参数少 100 倍的模型,在用户真正在乎的指标上赢了。起作用的不是规模,而是基于人类反馈的强化学习(RLHF):监督微调、训练奖励模型、再用 PPO 优化的三步配方。结论很直白:在遵循指令这件事上,对齐数据胜过原始体量。

为什么更大却没更有用

预训练只优化一件事:从互联网文本预测下一个 token。这个目标让 GPT-3 很流畅,但流畅不等于听话。模型越大,越擅长「续写」提示,而不是「做用户要它做的事」。所以 GPT-3 完全可以生成不真实、有害或干脆跑题的文本,同时还在严格执行它被训练的目标。InstructGPT 的核心判断是:这是训练目标与用户意图之间的错位,不是靠堆规模就能填上的能力缺口。这个重新定义才是论文真正的贡献——它把「对齐」从一个抽象担忧,变成了一个有可度量解法的具体后训练问题。

三步 RLHF 配方

这套后来成为行业默认的流程分三步:

监督微调(SFT)。 标注员写出期望行为的示范——像一个好助手那样回答问题——并加入从线上 OpenAI API 采集的真实提示。用这些示范微调 GPT-3,得到一个还算靠谱的初始策略。
奖励模型(RM)。 对同一个提示,SFT 模型采样出多个输出,标注员从好到坏给它们排序。这些排序训练出一个独立的奖励模型,用来预测人类会偏好哪个输出。排序是聪明之处:它比每次都让人写出完美答案更便宜、也更一致。
PPO。 然后用强化学习(近端策略优化)来优化语言模型,使奖励模型打分最大化,同时加一个 KL 惩罚约束它不偏离 SFT 模型太远——防止策略把奖励刷成乱码。

精妙之处在于:人类无需大规模写出理想答案,只需「评判」答案,奖励模型再把这种评判泛化出去。

关键结果

偏好: 在研究的提示分布上,标注员更偏好 1.3B InstructGPT 而非 175B GPT-3,尽管参数相差 100 倍。
真实性: InstructGPT 输出更真实,在作者报告的封闭域真实性检查上,真实且有信息量的回答比例约翻倍。
毒性: 在被要求保持尊重时,InstructGPT 生成的有害输出明显少于 GPT-3。
对齐税: 代价是——RLHF 在部分公开 NLP 基准上造成了退化。作者通过在 PPO 阶段混入预训练梯度来缓解,把退化压到「极小」而非彻底消除。

诚实的解读:「小模型打败大模型」这个标题,只在「OpenAI 提示分布上的指令遵循」这个范围内成立,不是说 1.3B 在所有能力上都等同 175B。

局限与存疑

RLHF 会继承训练它的那群人的偏好。奖励模型反映的是约 40 名外包标注员和 OpenAI 标注规范,所以这里的「对齐」是「对齐到那个特定群体」,而非对齐全人类。优化人类偏好还可能奖励自信、讨喜的风格而非正确性——听起来有用就被评为有用,这埋下了谄媚的种子。整条流程昂贵且运维繁重:线上 API 提示、付费排序、独立奖励模型、不稳定的强化学习。而且 InstructGPT 仍会犯简单的事实错误。论文留下的开放问题——对齐谁的价值观、如何避免奖励作弊、在标注员无法评判的任务上怎么对齐——正是这个领域今天仍在争论的。

常见问题

InstructGPT 是什么,和 GPT-3 有何不同?

InstructGPT 是用人类反馈微调后、能遵循指令的 GPT-3。GPT-3 预测最可能的下一段文本;InstructGPT 额外在人类示范和偏好排序上训练过,所以它会做用户要求的事,而不只是续写提示。

InstructGPT 里的 RLHF 是怎么运作的?

RLHF 分三步:在人类写的示范上做监督微调,用人类对模型输出的排序训练奖励模型,再用 PPO 针对该奖励模型优化,并用 KL 惩罚把模型约束在监督模型附近。

1.3B 的 InstructGPT 真的打败了 175B 的 GPT-3 吗?

在 OpenAI 提示分布上的人类偏好评估中,是的——尽管参数少 100 倍,评估者仍更偏好 1.3B InstructGPT 的输出。这是关于指令遵循有用性的结论,不是说小模型在每项能力上都追平 GPT-3。

InstructGPT 里的「对齐税」是什么?

指 RLHF 在部分标准 NLP 基准上造成的性能下降。作者通过在 PPO 阶段混入预训练更新来减小它,使退化保持极小,而非完全消除。

InstructGPT 对 ChatGPT 和现代助手为何重要?

它确立了 SFT 加 RLHF 的后训练配方,正是这套配方给了聊天助手那种有用、会听指令的手感。如今大多数对齐过的聊天机器人都是这条流程的后代。

InstructGPT 的教训比它的数字更持久:行为是训练出来的,不是靠堆规模堆出来的。原文见 arxiv.org/abs/2203.02155。