GPT-4 技术报告解读:只给分数,不给配方

快速答案

GPT-4 是一个可接收图像和文本输入、输出文本的多模态模型,在大量专业与学术基准上达到接近人类的水平,模拟统一律师资格考试(Bar Exam)约处于全体考生的前 10%。但真正值得引用的一点是:这份报告只告诉你 GPT-4 考了多少分,不告诉你它是怎么造出来的——模型规模、训练数据和算力被刻意隐去。

一份隐去方法的报告

技术报告通常的存在意义,是让别人能复现工作。这份报告反转了这个约定。OpenAI 直言,“考虑到竞争格局和安全影响”,不公开架构、参数量、训练数据和硬件的任何细节。剩下能说的,只有一句:基于 Transformer 的下一 token 预测,再加一个后训练对齐阶段——这是一份 100 页文档里唯一的”方法”。

这恰恰是报告里真正新的东西,而它不是一项能力。2020 年的 GPT-3 论文是一份可照着搭建的说明书;GPT-4 报告则是前沿实验室公开宣告”前沿”与”开放配方”从此不再同行的时刻。报告里所有实质内容都是评测,而非构建。

可预测扩展

技术上最有意思的披露,是 OpenAI 搭建了一套在不同规模下表现稳定的基础设施和优化方法,再用小规模训练去预测大模型。他们用不超过 GPT-4 算力 1/1000 的模型,准确预测了 GPT-4 的部分性能。

这一点比任何单项基准都重要。训练一个前沿模型是一次极其昂贵的单次下注,你赔不起事后才发现它表现不及预期。能从廉价小跑稳定外推,就把这次下注变成了更接近工程的事——花算力之前就大致知道会买到什么。这也是竞争对手最想要、却最拿不到的部分:结论给了,方法没给。

关键结果

GPT-4 在一大批专业和学术考试上表现出接近人类的水平,模拟统一律师资格考试约处于前 10%,而同一份考试上 GPT-3.5 接近垫底的后 10%。后训练对齐让模型在事实性和遵循期望行为的指标上,相比基座模型有所提升。

多模态这一说法是真的,但很窄:GPT-4 接收图文交错的输入并输出文本,在图表、示意图和考题配图上做了演示。它不生成图像。发布时图像输入并未全面开放,所以对多数用户来说,GPT-4 表现为一个更强的纯文本模型。报告也坦承,尽管考试分数亮眼,GPT-4 在许多真实场景中”仍不如人类”。

为什么它重塑了行业

GPT-4 改变了模型发布的话语方式。在它之后,一次发布被默认要附带基准覆盖面、安全/系统卡片,以及成文的部署行为说明,而不只是一条损失曲线。它也让一个矛盾常态化:最有影响力的系统可以被公开充分评测,其构建过程却保持私密。如果你在前沿 API 之上做开发,这种不透明已成为你必须围绕设计的长期前提,而非临时状态。

局限与存疑

诚实地看:考试百分位是这份报告最有力的营销,也是它最薄弱的证据。标准化考试恰好奖励一个在网络文本上训练的下一 token 模型最擅长的东西——对有标准答案问题的记忆与模式匹配——却很难说明它在开放式、多步骤真实工作中的可靠性。报告自己也承认,GPT-4 仍会产生幻觉、有固定知识截止日期、不会从经验中学习。

由于设计上无法复现,任何外部方都无法审计其训练数据是否存在污染、偏见或受版权材料,基准分数只能部分基于信任接受。谁该跳过这篇:想学会如何训练这类模型的人。请把它当作关于能力的一手资料,以及定义了”封闭前沿模型”含义的那份文档来读。

GPT-4 的报告告诉你模型考了多少分,而不是它怎么造的——这处省略本身就是重点。完整论文:https://arxiv.org/abs/2303.08774

常见问题

GPT-4 技术报告讲了什么?

这是 OpenAI 于 2023 年 3 月发布的论文(arXiv 2303.08774),介绍 GPT-4 这一可接收图像与文本输入、输出文本的多模态模型。它记录了基准表现与安全工作,但隐去了架构、数据集和算力细节。

GPT-4 技术报告公开模型规模和训练数据了吗?

没有。OpenAI 明确拒绝公开参数量、数据集、训练算力和硬件,理由是竞争与安全考量。方法只被概括为:下一 token 预测的 Transformer,加上后训练对齐。

GPT-4 在律师考试中考得怎么样?

GPT-4 在模拟统一律师资格考试中约处于全体考生的前 10%,而同一份考试上 GPT-3.5 接近后 10%。

GPT-4 真的是多模态吗?

输入是多模态:GPT-4 接收图文交错输入,能对配图、图表和示意图做推理。它只输出文本,不生成图像,且图像输入在发布时并未全面开放。

GPT-4 报告里的可预测扩展是什么?

指 OpenAI 声称用算力少至 1/1000 的模型,借助为跨规模稳定表现而搭建的基础设施,提前预测了 GPT-4 的部分性能——让一次前沿训练在投入算力前更可预期。