机构
Claude 模型背后的 AI 安全公司,以 RLHF 与 Constitutional AI 等对齐研究著称。
对齐 · Anthropic
几乎不用人工标注有害内容,模型对照一份写好的原则清单自我批评并改写答案,再从 AI 生成的偏好里做强化学习(RLAIF)。