PaLM:用 Pathways 训练 540B dense 语言模型

快速答案

PaLM 是 Google 的一个 540B 参数、dense 激活、decoder-only 的 Transformer,在 6144 块 TPU v4 芯片上用全新的 Pathways 系统训练。它的核心结论是:规模仍在持续兑现收益。PaLM 540B 在数百个语言理解与生成基准上刷新少样本最优成绩,在一组多步推理任务上超过此前需要微调才能达到的最优水平,并在 BIG-bench 的总分上超过了人类平均表现。最值得注意的不是参数量,而是:相当一部分 BIG-bench 任务的表现随规模”突变”——在最大模型上陡然跃升,而不是平滑提升。

用 Pathways 跨两个 TPU v4 Pod 训练

真正的工程故事是 Pathways——一套为”在多个 TPU Pod 上高效训练同一个模型”而设计的 ML 系统。PaLM 在两个通过数据中心网络相连的 TPU v4 Pod 之间做数据并行,每个 Pod 内部再做模型与数据并行,合计 6144 块芯片,是当时单模型描述过的最大 TPU 配置之一。这一点很关键:540B dense 模型最难的已经不是架构本身——PaLM 的结构相当标准。真正的贡献在于让这么大的模型在不拆成 mixture-of-experts 的前提下,仍能以高硬件利用率训练。可以说,PaLM 是在用扎实的系统工程证明:当稀疏 MoE 吸引大量关注时,dense 扩展路线依然走得通。

规模何时解锁推理

PaLM 的推理结果最值得细看。配合 chain-of-thought 提示——让模型写出中间推理步骤——PaLM 540B 仅用少样本提示,就在多步算术和常识推理基准上追平甚至超过了需要专门微调才能达到的最优水平。这是一个有分量的转变:过去必须靠任务专属微调才能解决的问题,现在只要模型足够大、再加提示就能够到。论文把这解读为某些能力是随规模”涌现”而非平滑插值出来的证据,这恰好与 BIG-bench 上那些突变曲线相互印证。

关键结果

540B 参数、dense、decoder-only,在 6144 块 TPU v4 芯片上经 Pathways 跨两个 TPU v4 Pod 训练。
在数百个语言理解与生成基准上取得少样本最优成绩。
多步推理突破:配合 chain-of-thought 提示,PaLM 540B 仅用少样本就超过了一组推理任务上需要微调的最优水平。
在 BIG-bench 总分上超过人类平均表现。
随规模突变:相当一部分 BIG-bench 任务只在最大模型上陡然提升,而非逐步改善。
在大量基准上展现出强多语言与源代码生成能力。
提供了系统的偏见与毒性分析,并研究了训练数据记忆程度如何随模型规模增长。

局限与存疑

PaLM 昂贵得很有”时代特征”:540B dense 模型训练贵、服务也贵,论文也没假装规模能解决一切。chain-of-thought 推理在基准上很亮眼,但不等于稳健可靠的推理——同一个模型仍会胡编,也会在对抗性变体上翻车。记忆分析则诚实地点出一个真实代价:模型越大,记住的训练数据越多,带来隐私与版权隐患。而”超过人类平均水平”是 BIG-bench 上多任务的总平均,并不意味着 PaLM 在最难的任务上胜过人类。PaLM 留下却没回答的更深问题是:为什么某些能力会”突变”出现——涌现至今仍是被观察到的现象,而非被解释清楚的机制。

常见问题

PaLM 是什么,有多大?

PaLM(Pathways Language Model)是 Google Research 的一个 540B 参数、dense 激活、decoder-only 的 Transformer。“dense”指每个 token 都会用到全部参数,与稀疏的 mixture-of-experts 模型不同。

PaLM 是怎么训练的?

PaLM 在 6144 块 TPU v4 芯片上用 Pathways 系统训练,该系统能跨多个 TPU Pod 高效训练。PaLM 用了两个通过数据中心网络相连的 TPU v4 Pod。

PaLM 为什么对推理重要?

配合 chain-of-thought 提示,PaLM 540B 仅用少样本提示就在多步推理和算术任务上追平或超过需要微调的最优水平,说明只要模型足够大,提示就能替代任务专属微调。

PaLM 里”随规模突变”是什么意思?

在相当一部分 BIG-bench 任务上,PaLM 的准确率只在最大模型上陡然跃升,而非平滑上升——这是某些能力随规模突然涌现的证据。

PaLM 真的超过人类了吗?

PaLM 540B 在 BIG-bench 总分上超过了人类平均水平。这是多任务的平均值,并不代表它胜过专家,也不代表它在每个单项任务上都赢。

PaLM 留下的长久启示是:前沿模型已经既是神经网络设计,也是一项大型分布式系统工程——完整论文见 arXiv:2204.02311。