宪法 AI:用 AI 反馈训练无害助手

快速答案

宪法 AI(Constitutional AI,CAI)训练一个无害的 AI 助手,几乎不需要任何「标注哪些输出有害」的人工标签。唯一的人工输入是一份简短的成文规则——即「宪法」。模型用这些原则批评并改写自己的回答,之后再用它们判断两个答案孰优孰劣;这些由 AI 生成的偏好数据驱动强化学习。Anthropic 把第二阶段称为 RLAIF——从 AI 反馈中做强化学习。最核心的结论是:得到的助手比标准 RLHF 基线既更无害、又更不回避——面对有害请求,它不是直接拒绝,而是参与进来,解释自己为何反对。

解决什么问题

针对无害性的标准 RLHF,需要人去阅读并标注大量令人不适的内容——而这恰恰是你不希望模型产出的东西。这个过程慢、贵,对标注者也是心理负担。它还把价值观藏进一堆不透明的偏好数据里:你读不到策略本身,只能从标签里反推。CAI 同时解决这两点:把人的角色上移到一小份清晰可读的原则上,让模型去做「按原则逐条处理海量样本」的体力活,于是无害性监督随算力扩展,而非随人工标注工时扩展。

「宪法」到底是什么

宪法不是代码,也不是奖励函数,而是一份自然语言写成的原则清单——比如要求挑出最不有害、最不带歧视、最不可能协助危险行为的那个回答。训练时模型一次只看到一条原则(常常随机抽取),据此行动。关键在于:行为目标是写下来、可编辑的——改变「无害」的含义就是改一句话,而非重新标注数据集。论文里最经得起时间检验的正是这种透明性:它把对齐监督重新定义成可审计、可争论的东西,而非黑箱。

监督阶段怎么运作

第一阶段是有监督的自我批评与改写。流程从一个已训练得乐于助人(但还不无害)的模型出发,用红队专门诱发有害答案的提问去刺激它,再让同一个模型对照抽中的某条宪法原则批评自己的回答并改写。反复「批评—改写」得到清理过的答案,再用这些改写后的回答微调原模型。结果是模型把原则内化到足以不再产出最糟输出——而整个过程没人去标注任何一条有害样本。

RLAIF:从 AI 反馈做强化学习

第二阶段把 RLHF 里的人类偏好换成 AI 偏好。微调后的模型对有害提问生成成对回答;另一个被某条宪法原则引导的模型挑出哪个更好。这些选择组成偏好数据集,在其上训练偏好模型,再以它作为强化学习的奖励信号。于是普通 RLHF 里的人工无害性比较,被换成由成文规则推导的 AI 标注。在他们的设定里,有用性偏好仍来自人类;被自动化的是无害性这条信号。

关键结果

无害却不回避。 CAI 助手被评定为比「对无害性做人类反馈强化学习」的模型既更无害、又更有用——它不再用套路化的拒绝来搪塞,而是解释自己为何反对某个有害请求。
几乎零人工有害标注。 唯一的人工监督是宪法加上有用性数据;无害性训练不需要任何标注有害输出的人工标签。
思维链既提升又揭示。 让模型在批评或选择前一步步推理,既提高了人类评判下的表现,也让它的决策过程更透明。
帕累托式的推进。 早期工作把无害与有用当作此消彼长——越安全的模型越爱回避;CAI 的贡献是把这条前沿往外推,让模型在更无害的同时不至于变得没用。

局限与存疑

CAI 移走了标注瓶颈,却没消除信任问题——它只是把问题挪到了宪法和那个做评判的模型身上。如果评判模型本身有盲区或偏见,AI 反馈会在没有人类把关的情况下把它大规模固化下来;论文也没有证明这些原则能泛化到所测有害类型之外。宪法本身很短,且由实验室手写,所以「以谁的价值观为准」仍是悬而未决的治理问题。该方法还预设了一个本就足够强、能有效自我批评的基座模型;模型太弱时,自我批评没什么可纠正的。而且这里的「无害」是针对红队提问操作化定义的——对这一分布之外的对抗式越狱是否稳健,本工作并未给出定论。

常见问题

宪法 AI 用大白话说是什么?

宪法 AI 是一种训练方法:AI 助手对照一份简短的成文原则清单(「宪法」)来检查自己的回答,从而改进行为,而不依赖人去标注有害输出。模型先批评并改写自己的回答,再从 AI 生成的偏好里学习。

RLAIF 是什么意思?

RLAIF 指「从 AI 反馈中做强化学习」。它是宪法 AI 的第二阶段:不再由人挑哪个回答更好(那是 RLHF),而是由一个受宪法引导的模型做这些偏好判断,再用强化学习对其优化。

宪法 AI 和 RLHF 有什么不同?

RLHF 用人类对模型输出的偏好标签来训练无害性。宪法 AI 把这些无害性标签换成由成文原则推导的 AI 标签,于是唯一与有害相关的人工输入就是宪法本身。论文中的 CAI 助手比 RLHF 基线既更无害、又更不回避。

宪法 AI 对对齐为什么重要?

它把指导模型的价值观变得显式、可编辑,而不是埋在偏好数据集里;并让无害性监督随算力扩展,而非随人工标注工时扩展。正是这种透明与可扩展的组合,让「宪法」式方法在整个领域扩散开来。

一句话:把规则写下来,让模型对照规则自我约束,用原则而非成堆人工标签来监督无害性。阅读 arXiv 原文。