语言模型 · Transformer

Chinchilla:算力最优的模型为何能打赢更大的模型

Chinchilla 证明参数量与训练 token 应等比例增长:700 亿参数、约 1.4 万亿 token,打赢 Gopher 280B 和 GPT-3 175B。

Chinchilla:算力最优的模型为何能打赢更大的模型

快速答案

在算力预算固定时,应该让参数量和训练 token 等比例增长——模型翻倍,数据也翻倍。DeepMind 用这条结论训练了 Chinchilla:700 亿参数,约 1.4 万亿 token(约为 Gopher 的 4 倍数据),却和 2800 亿参数的 Gopher 用掉同样多的算力。结果 Chinchilla 在各项任务上全面超过 Gopher,MMLU 平均准确率达到当时最优的 67.5%,比 Gopher 高出 7 个百分点以上。核心结论一句话:2021 年那批旗舰模型不是太小,而是训练得远远不够。

所有人都在犯的缩放错误

上一代缩放研究(尤其是指导 GPT-3 的 2020 年 Kaplan 等人定律)给出的建议是:算力变多时,绝大部分应该投到更多参数上,数据只需小幅增加。这套建议直接催生了一场堆参数的军备竞赛——Gopher 2800 亿、GPT-3 1750 亿、MT-NLG 5300 亿,但不管模型多大,训练数据都卡在 3000 亿 token 左右。

Chinchilla 的作者把实验重做得更严谨:训练了 400 多个模型,参数从 7000 万到 160 亿以上,数据从 50 亿到 5000 亿 token,再用三种独立方法去拟合损失曲面。三种方法结论一致,且都推翻了此前的判断:参数和 token 的指数大致相等,应当同步增长。按这个算法,一个 5300 亿参数的模型若要做到算力最优,需要约 10 万亿 token——远超当时这些巨头实际吃到的数据量。

数据与参数等比例扩张

落到实操上规则非常直白:模型规模每翻一倍,训练 token 数也翻一倍。最优点不是一条窄缝,而是一个较宽的盆地,但 2020 年那套配方明显偏到了「数据严重不足」的一侧。

Chinchilla 就是这条结论的实证。它和 Gopher 用掉一样的浮点运算量,只是重新分配:模型缩小到四分之一,数据扩大到四倍。整篇论文的贡献就在这次重新分配——没有新结构、没有新目标函数、没有花哨的数据管线,只是把预算切对了。也正因为如此简单,结论才让那些手握巨大却训练不足的模型的实验室格外难堪。

关键结果

  • Chinchilla 为 700 亿参数、约 1.4 万亿训练 token,算力预算与 2800 亿参数的 Gopher 完全相同。
  • MMLU 平均准确率 67.5%,为当时最优,比 Gopher 提升 7 个百分点以上。
  • 在大量下游任务上全面超过 Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)和 MT-NLG(530B),而它的参数量只有对手的 1/2.5 到 1/7.5。
  • 因为模型小,Chinchilla 的微调和推理成本都低得多,效率优势会在落地阶段持续放大,而不只体现在训练时。

局限与存疑

缩放定律是经验拟合,不是物理规律。它的指数会随数据质量、分词器、模型结构和优化器策略而变——后续复现工作已对原始的「Chinchilla 最优」系数提出部分质疑,论文本身也发过一份勘误修正了部分拟合。更关键的是,这套定律优化的是单次训练的预训练损失,如果一个模型要被调用数十亿次,这就是错的目标:那种场景下应该刻意把较小模型训练到超过算力最优点(LLaMA 的思路),用训练换推理成本。

Chinchilla 也完全没有触及指令微调、对齐、工具调用或长上下文——它只是一篇关于「预训练经济学」的论文。而且现实天花板已经变了:当高质量 token 变得稀缺,「数据直接翻倍」就不再是免费的建议。

常见问题

Chinchilla 缩放定律一句话怎么说?

算力最优训练下,参数量和训练 token 应等比例增长——参数每翻一倍,数据也要翻一倍。

Chinchilla 有多大、训练用了多少数据?

Chinchilla 有 700 亿参数,使用约 1.4 万亿 token 训练,算力预算和 2800 亿参数的 Gopher 完全相同。

Chinchilla 真的打赢了 GPT-3 和 Gopher 吗?

是的。Chinchilla 在大量下游任务上全面且显著超过 Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)和 MT-NLG(530B),MMLU 达到 67.5%,明显高于 Gopher。

Chinchilla 的配方现在还是训练大模型的正解吗?

不一定。Chinchilla 优化的是固定预算下的训练成本;但如果模型要大规模上线服务,团队现在反而会把较小模型训练到超过 Chinchilla 点,以节省推理开销,而高质量数据稀缺也让「数据翻倍」这条规则变得复杂。

Chinchilla 真正留下的,是被修正的一个数字:数据是和参数同等重要的缩放变量,一个吃饱的 700 亿可以让饿着肚子的 5300 亿颜面扫地。原文见 arXiv