GPT-3 解读:提示词成为编程界面的时刻

快速答案

GPT-3 是一个 1750 亿参数的自回归 Transformer,只靠提示词里的文本就能完成大量语言任务,不做梯度更新,也不做微调。它的参数量是此前任何非稀疏语言模型的 10 倍。论文的核心主张是:仅靠这个规模,“给模型看几个示例”就能替代专门训练一个任务模型。真正的标题不是某个单一基准分数,而是任务适配从优化器里搬到了上下文窗口里。

这里的”少样本”指什么

在这篇论文里,少样本不是指用少量标签去微调,而是在推理时把任务描述和几个完整示例直接写进提示词,让冻结的模型顺着这个模式续写。作者在每个任务上测三种设置:零样本(只给指令)、单样本(给一个示例)、少样本(通常 10 到 100 个能塞进上下文的示例)。整体规律是:上下文里的示例越多,准确率越高;而且模型越大,各设置之间的差距越明显——小模型几乎从示例里学不到东西,GPT-3 却收益巨大。规模与上下文学习之间的这种相互作用,才是真正的发现,比任何榜单数字都重要。

把规模推到 1750 亿参数

GPT-3 刻意让架构保持平淡:它沿用 GPT-2 那套纯解码器 Transformer 配方,只是放大,在大规模网页语料(Common Crawl 加更高质量的来源)上训练。它押的注是:能力来自规模,而不是来自新架构或新目标函数。这正是它的历史意义——它是”只要做得更大”就能换来质变行为(也就是可用的上下文学习)最干净的一次大规模演示。这也是论文坦诚之处:结论是经验性的,这里没有任何理论解释为什么 1750 亿能跨过一个 13 亿跨不过的门槛。

关键结果

GPT-3 不做任何任务专用训练,就拿到了很强的少样本成绩。在 LAMBADA 完形填空任务上,它的少样本准确率约为 86%,远高于此前的零样本最好水平。在开放域 TriviaQA 上,它少样本能答对约 71% 的问题,可以和那些用了多得多监督数据的微调系统相竞争。它还能处理考察即时推理的合成任务——还原打乱的字母、在句子里使用一个新定义的词、做三位数算术——这些是早先的语言模型完全无法仅凭提示词完成的。最让人不安的结果是:人类评估者很难把 GPT-3 生成的短篇新闻和人写的区分开,判别接近随机水平。

局限与存疑

论文对失效之处格外坦白。少样本表现很脆弱:它会随提示词措辞、示例顺序和示例挑选而大幅波动,所以报告的数字更像是最好情况,而非稳定保证。在需要严密双向对比或多步推理的任务上,GPT-3 仍然输给微调模型,也暴露了从左到右目标函数的局限。作者还指出网页级训练带来的方法学问题——基准污染(测试数据可能泄漏进训练集),以及偏见和这么大模型的高昂成本。我的判断是:GPT-3 留下的持久教训是界面的转变,而不是最高准确率。它证明了提示词能承载任务,却没有证明模型能可靠推理;后续大量工作(指令微调、RLHF、检索增强)的存在,恰恰是为了补上这篇论文暴露出来的缺口。

常见问题

一句话讲 GPT-3 是什么?

GPT-3 是 OpenAI 的 1750 亿参数自回归语言模型,只靠写进提示词的示例就能完成语言任务,不做任何梯度更新或微调。

GPT-3 的少样本学习和微调有什么区别?

微调会在标注数据集上更新模型权重;GPT-3 的少样本学习保持权重冻结,在推理时把任务和示例作为文本放进上下文窗口,因此同一个模型不重新训练就能处理任意任务。

GPT-3 在哪些基准上表现好?

GPT-3 在 LAMBADA 完形填空任务上少样本约 86%,在开放域 TriviaQA 上少样本约 71%,还能完成字母还原和三位数算术这类即时任务。

GPT-3 的主要弱点是什么?

GPT-3 对提示词措辞和示例挑选很敏感,在部分对比和推理任务上仍落后于微调模型,并且因为在大规模网页语料上学习而面临训练数据污染、偏见和高算力成本的问题。

为什么 GPT-3 这篇论文被认为重要?

GPT-3 把提示词变成了一种编程表面——示例和指令就能驾驭一个固定模型——这为提示工程、指令微调以及之后的现代助手产品定下了模板。

GPT-3 真正的贡献不是某个基准分数,而是让提示词像代码一样可用。阅读原文:arXiv:2005.14165。