机构

Anthropic

Claude 模型背后的 AI 安全公司,以 RLHF 与 Constitutional AI 等对齐研究著称。

对齐 · Anthropic

宪法 AI:用 AI 反馈训练无害助手

几乎不用人工标注有害内容,模型对照一份写好的原则清单自我批评并改写答案,再从 AI 生成的偏好里做强化学习(RLAIF)。