Llama 2 解读:Meta 开放权重与那套 RLHF 对话配方

快速答案

Llama 2 是 Meta 的一组开放权重语言模型,规模为 7B、13B、70B,训练数据约 2 万亿 token,另带一个对话微调版 Llama 2-Chat。它真正的贡献不是基座的裸分,而是 Meta 把整套 RLHF 配方一步步公开了出来:用了超过 100 万条人工偏好比较,并刻意拆成「有用性」和「安全性」两个独立奖励模型,然后把权重开放给商用。一套被写清楚的对话流程,加上一份能用的许可证,正是 Llama 2(而不是 2023 年更强的闭源模型)成为开源生态默认基座的原因。

Llama 2 要补的那个缺口

到 2023 年年中,开源社区有了不错的预训练基座,却没有一个像样的开源对话模型。把基座通过 RLHF 对齐成一个有用、安全的助手,被当成闭源实验室的独门绝活——他们公开的描述都很单薄,唯一够强的指令模型只能走 API。Llama 1 又是仅限研究用途,谁都不能合法拿它做产品。Llama 2 一次性解决两件事:它把对话对齐流程写得异常详细,并以一份允许月活 7 亿以下商用的许可证发布。

对话流程到底怎么跑

Llama 2-Chat 是分阶段搭出来的。先在约 2 万亿 token 上预训练基座,其中 70B 用了分组查询注意力(GQA),让大规模推理更省。接着是监督微调(SFT),用的是一批精挑细选的高质量指令样本——Meta 在这里的结论既直白又有用:几万条干净的 SFT 样本胜过几百万条爬来的,所以他们停在了约 2.7 万条。

对齐随后走迭代式 RLHF。Meta 收集了超过 100 万条二选一的人工偏好比较,并训练了两个奖励模型而不是一个——一个管有用性,一个管安全性——因为把两者揉成单一奖励去优化,反而让模型两头都变差。他们在多轮里交替使用拒绝采样(采样大量回答,挑评分最高的去微调)和 PPO。一个值得点名的具体技巧是 Ghost Attention(GAtt):这种微调方法让模型在多轮对话里始终听从系统指令(某个人设、「全程用法语回答」),而不是聊一两轮就忘掉。

关键结果

规模: 开放权重 7B、13B、70B,在约 2 万亿 token 上预训练,上下文 4,096 token——是 Llama 1 的两倍。
对比开源对话模型: 在 Meta 测试的大多数有用性与安全性基准上,Llama 2-Chat 70B 超过了发布时已有的开源对话模型。
对比闭源模型: 在 Meta 自己的人工评测中,Llama 2-Chat 70B 在有用性与安全性上大致与 ChatGPT(GPT-3.5)持平——Meta 的说法是它「可能可以作为闭源模型的替代」,这是个有保留的措辞,不是说赢了 GPT-4。
偏好数据: RLHF 用了超过 100 万条人工偏好比较,比当时多数公开偏好数据集都大。
安全,如实呈现: Llama 2-Chat 在红队测试中违规率很低,但 Meta 也明确把有用性与安全性的取舍画出来,而非藏着掖着。

为什么它成了开源默认

它真正持久的影响在生态,而不在排行榜。因为权重可下载、可商用,Llama 2 在 2023、2024 两年里成了成千上万次微调、量化和产品的底座;论文的 RLHF 章节也成了那些没有前沿实验室预算、却想复现对话对齐的团队的事实教科书。双奖励模型设计和 GAtt 技巧尤其被广泛照抄。要说它为什么重要,一句话:它把「对话模型到底怎么做 RLHF」从口口相传的经验,变成了一份写下来的配方。

局限与存疑

这份许可证是「偏开放」,不是真开放。月活 7 亿以下才可商用的条款,加上禁止用其输出去训练竞争模型的限制,意味着 Llama 2 不符合 OSI 的开源定义,好几个团体都反对 Meta 把它称作「开源」。在能力上,基座在推理和代码上落后于同期最强的闭源模型,4,096 的上下文按后来的标准也偏短。安全微调还有一个被记录在案的代价:过重的安全 RLHF 让早期 Llama 2-Chat 拒答了不少无害请求,这种过度拒答问题后来的模型不得不往回调。而那句抢眼的「与 ChatGPT 持平」靠的是 Meta 自家的人工评测——这是个合理信号,但不是独立基准,应当当作厂商说法,而非定论。

常见问题

Llama 2 有哪几个尺寸?

Llama 2 提供三个开放权重尺寸——7B、13B、70B——每个都有一个预训练基座版和一个对话微调的 Llama 2-Chat 版。

Llama 2-Chat 和基座 Llama 2 有什么区别?

基座 Llama 2 是预训练的下一 token 预测模型。Llama 2-Chat 在其上加了监督微调,以及用「有用性」和「安全性」两个独立奖励模型做的迭代 RLHF,这才让它会听指令、会拒绝不安全请求。

Llama 2 算真正的开源吗?

按 OSI 的定义不算。权重可免费下载、月活 7 亿以下可商用,但许可证限制了最大规模的部署,并禁止用其输出训练竞品,所以更准确的叫法是「开放权重」,而非开源。

Llama 2 和 ChatGPT 比怎么样?

在 Meta 自己的人工评测里,Llama 2-Chat 70B 在有用性与安全性上大致与 GPT-3.5 时代的 ChatGPT 相当。它达不到 GPT-4,而且这是 Meta 内部评测,不是独立基准。

一句话:Llama 2 给行业的礼物不是一次跑分胜利,而是一份能复现的 RLHF 配方,外加一批能用的权重。阅读 arXiv 原文。