T5 解读:用一套文本到文本接口统一所有 NLP 任务

快速答案

T5(Text-to-Text Transfer Transformer)把分类、翻译、摘要、问答统统当成同一件事:读进一段文本,写出一段文本。Google Research 用这一套统一接口,在数十个语言任务上做了一次受控对照实验,系统比较预训练目标、架构、数据集和规模,再用 110 亿参数的大模型把这套配方推到极致,在 GLUE、SuperGLUE、SQuAD 以及多个摘要基准上拿到当时的 SOTA。它真正的贡献不是某个魔法技巧,而是统一格式带来的「同一标尺下的公平对比」。

把每个任务都写成文本到文本

串起全文的招式简单到近乎朴素:在输入前面加一个简短的任务前缀,输出永远解码成自由文本。translate English to German: ...、summarize: ...、cola sentence: ... 全都喂进同一个 encoder-decoder;连 STS-B 这种 1 到 5 的相似度回归目标,也直接当成 3.8 这样的文本字符串吐出来。没有任务专用的输出头,没有各自的损失函数,没有一任务一输出层。

正是这种「输入输出契约永不变」让全篇结论可信。因为接口固定,作者可以一次只动一个变量——目标、架构、语料、微调策略——并把差异干净地归因到那一个变量。此前多数迁移学习论文往往同时改了好几样东西;T5 的价值恰恰在于它没有。

C4 语料

要大规模预训练就得有干净数据,于是团队从 Common Crawl 造出了 Colossal Clean Crawled Corpus(C4)。清洗手法激进而带主观判断:丢掉没有句末标点的页面,扔掉只有寥寥几词的短行,删掉命中脏词表的内容,去重,只保留英文。最终约 750GB 文本,远大于当时常见的精选语料;而且实验显示,这套清洗本身就明显优于直接拿原始 Common Crawl 训练。

系统对照实验发现了什么

这场横扫才是论文的真正主体。几条扛过全部消融的结论:在参数量对齐的前提下,encoder-decoder 架构胜过 decoder-only 和 prefix-LM 变体;BERT 式的去噪(span 损坏)目标胜过语言建模和打乱重排目标;把被丢弃的单 token 替换成更短的哨兵 span,能缩短序列长度、加快训练,且不损质量。在作者尝试的每一个维度上,放大规模都有效——更多参数、更多数据、更多步数——正是这种单调乏味、方向一致的信号,才让造 11B 大模型显得理所当然。

关键结果

旗舰版 T5-11B 在大量基准上刷出 SOTA。SuperGLUE 平均分达到 88.9,几乎追平 89.8 的人类基线——对 2019 年的系统而言相当惊人。它同时登顶 GLUE 榜单,在 SQuAD 上拿到强劲的 EM/F1,并在 CNN/Daily Mail 摘要上达到 SOTA。诚实地说:这些头条提升大头来自规模和 C4,叠加在一个本就很强的 encoder-decoder 之上,而非来自某个新目标——目标对照实验更多是在告诉你「别把算力浪费在哪些选择上」。

团队还公开了数据(C4)、五种尺寸(Small 到 11B)的预训练权重和代码,这也是 T5 能成为默认基线、而不只是一次性结果的重要原因。

局限与存疑

统一的文本到文本格式优雅,但有损:把结构化输出(span、分数、标签)硬塞进自由文本解码,会丢掉任务专用头本可利用的结构,还额外引入「解析输出」这一新的出错点。C4 的清洗是钝器——脏词黑名单也会误删正当内容,且把英文网页偏见固化进来,「更干净」只是启发式定义,并无任何下游保证。11B 模型微调和部署都很贵,这些 SOTA 数字在 2019 年是多数从业者付不起的代价。最后,T5 早于指令微调和 RLHF;它的任务前缀是固定提示词,而非后来模型学会遵循的灵活自然语言指令。

常见问题

T5 是什么的缩写?

T5 是 Text-to-Text Transfer Transformer 的缩写——五个以 T 开头的词。它是 Google Research 的 encoder-decoder 模型,把每个 NLP 任务都转成「输入文本字符串、输出文本字符串」。

T5 和 BERT 有什么区别?

BERT 是 encoder-only 模型,产出表示后再外挂任务专用头;T5 是完整的 encoder-decoder,直接把答案当文本生成出来。T5 借用了 BERT 的掩码去噪思路做预训练,但用一个生成式接口统一了所有下游任务,而不是为每个任务配分类头。

T5 用的 C4 数据集是什么?

C4(Colossal Clean Crawled Corpus)是从 Common Crawl 过滤出的约 750GB 英文网页语料,专为预训练 T5 而建。清洗会去掉模板样板、过短或无标点的行、重复内容和脏词命中项,实测明显优于直接拿原始 Common Crawl 预训练。

T5 现在还值得用吗?

对许多 seq2seq 任务,它的架构仍是稳妥基线,Flan-T5 等指令微调后代也仍然实用。但 T5 早于 RLHF 和现代指令遵循,做对话或通用场景你会转向更新的模型。T5 经久不衰的价值在方法论,不在那份权重。

T5 真正的遗产是一种纪律,而非一个模型:一次只改一样,先量化它,然后才把算力砸在规模上。原文见 arXiv。