开放模型 · 大模型推理

Llama 3:一个开放的 405B 稠密模型,对标 GPT-4

Meta 把 Llama 3 做成一个模型家族,旗舰是 405B 参数的稠密 Transformer,支持 128K 上下文,用 15 万亿以上 token 预训练,并公开了权重。

Llama 3:一个开放的 405B 稠密模型,对标 GPT-4

快速答案

Llama 3 是一个语言模型家族,旗舰是参数量 405B 的稠密 Transformer,上下文窗口最高 128K token,用超过 15 万亿 token 预训练,并且权重完全公开。按 Meta 自己的评测,它在大量任务上达到与 GPT-4 等领先闭源模型相近的质量,同时还有更适合日常部署的 8B 和 70B 模型。真正的看点不是某个架构新招,而是一个前沿级模型连同它的训练与评测报告,现在都摆在了公开台面上。

一个 405B 稠密模型,完全开放

Llama 3 最关键的设计选择,恰恰在于它”不是什么”:它不是混合专家(MoE)模型。405B 旗舰是一个单一的稠密 Transformer,每个 token 都会激活全部参数。这让它比同等标称规模的稀疏模型更难服务,但更容易理解、微调和复现——当目标是做一个其他实验室能接着搭的开放参考时,这点比省算力更重要。

这次发布是一个”群”(herd),不是单个 checkpoint。8B 和 70B 覆盖了大多数人真正部署的场景:笔记本、单卡、对延迟敏感的产品。405B 则是那个证明”开放权重也能站在前沿”的招牌模型。Meta 同时公开了 405B 的预训练版和后训练(指令微调)版,还配了用于输入输出安全过滤的 Llama Guard 3。这些模型天生面向多语言、代码、推理和工具使用,而不只是英文聊天。

押注数据与规模,而非架构花招

Llama 3 的赌注是:扎实的规模扩张胜过取巧的架构。预训练语料超过 15 万亿 token,相比 Llama 2 的约 2 万亿是一次大跳跃,而模型本身只是相当常规的稠密 Transformer。真正讲究的工程在”配方”里:数据配比与过滤、预训练的规模,再到用监督微调和偏好优化做后训练,叠加安全调优和工具使用行为。论文把这一整套栈写得异常详细,这才是它送给整个领域的礼物——多数前沿报告披露得远不如它多。

128K 的上下文窗口是个实用杠杆,而不是刷榜噱头:它让模型能一次吃下长文档、整个代码库或多步工具调用记录。配合原生工具使用,这才让这群模型可以当作 agent 的骨干,而不只是一个聊天玩具。

组合式多模态,仍在实验室

论文还报告了用”组合式”方法给 Llama 3 接入图像、视频、语音的实验——也就是把各模态的编码器拼接到语言模型上,而不是从零训练一个原生统一多模态模型。Meta 称这些版本在图像、视频和语音识别任务上与最先进系统有竞争力。但论文自己也老实写明:这些多模态模型仍在开发中,并未广泛发布。所以当有人说”Llama 3 是多模态的”,他们描述的是一个研究结果,而不是大多数人真正拿到的那份权重。

关键结果

按 Meta 自己的评测,Llama 3 405B 在大量任务上达到与 GPT-4 等领先闭源模型相近的质量。旗舰是一个稠密 405B Transformer——不是 MoE——上下文窗口 128K,预训练超过 15 万亿 token。公开发布覆盖 405B 的预训练与后训练权重,以及 8B、70B 模型,并附带专门的安全分类器 Llama Guard 3。组合式图像/视频/语音版本在各自任务上与最先进系统有竞争力,但因仍在开发而未发布。最突出的贡献是透明度:报告披露的训练与评测细节,远多于一次普通的产品发布。

局限与存疑

开放权重不等于开放训练。你拿到的是参数,但精确的数据配比、完整的过滤规则、算力预算和安全流程,仍然只能相信 Meta 的报告——在这个规模上没人能独立复现。服务 405B 稠密模型确实很贵:因为每个 token 都激活全部参数,真正落地的价值大多来自蒸馏、量化,或直接用 70B 和 8B,而不是旗舰本身。“对标 GPT-4”这一说法主要建立在 Meta 自家的评测体系上,应当读作强信号,而非中立裁决。多模态则是论文里最软的部分:在一个公众下载不到的模型上报出有竞争力的分数,那是承诺,不是产品。

谁该跳过它:如果你今天就需要一个能上线的助手,从 70B 或 8B 起步,把 405B 当成可以蒸馏的”老师”,而不是直接拉去跑生产。

常见问题

Llama 3 405B 是混合专家(MoE)模型吗?

不是。Llama 3 旗舰是一个稠密的 405B 参数 Transformer,意味着每个 token 都会激活全部参数。Meta 刻意没有采用稀疏 MoE 设计,这也是它服务成本相对高、但更便于微调和研究的原因。

Llama 3 用了多少数据训练?

Llama 3 的预训练数据超过 15 万亿 token,相比 Llama 2 的约 2 万亿是一次大幅增加。模型在推理时还支持最高 128K token 的上下文窗口。

Llama 3 真的能对标 GPT-4 吗?

在大量任务上,Meta 报告 Llama 3 405B 达到与 GPT-4 等领先闭源模型相近的质量。这个结论来自 Meta 自己的评测,因此应被看作一个有力但并非完全独立的对比。

Llama 3 是多模态的吗?

部分是。论文描述了组合式的图像、视频、语音版本,它们与最先进系统有竞争力,但仍在开发中、未广泛发布——大家普遍能拿到的 Llama 3 权重是文本模型。

Llama 3 真正发布的不是那个 405B 模型,而是一本”如何造出它”的手册。阅读原文:arXiv:2407.21783