Imagen:冻结文本编码器为何胜过更大的图像模型
Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID,并发现扩展冻结的 T5-XXL 文本编码器,比扩展扩散模型本身更能提升画质与文图对齐。
快速答案
Imagen 是 Google 在 2022 年发布的文生图扩散模型,在完全没有用 COCO 训练的情况下取得了 7.27 的 COCO FID,刷新当时纪录。它最反直觉的发现是:扩展一个冻结、且只用纯文本训练的语言编码器(T5-XXL),对画质和文图对齐的提升,比把图像扩散模型做得更大还要明显。在作者自建的 DrawBench 基准上,人类评测者在画质和提示对齐两方面,都更偏好 Imagen,而非 DALL-E 2、Latent Diffusion 和 VQ-GAN+CLIP。
为什么文本编码器更关键
此前多数文生图工作,都用图文配对数据联合训练文本编码器(CLIP 那一类)。Imagen 反其道而行:直接拿一个通用大语言模型 T5-XXL——只在纯文本语料上预训练——把它冻结,再用它的文本表示去条件化图像模型。在 Imagen 的整个训练过程中,T5-XXL 没有见过任何一张图像。
回报就是这篇论文最核心的结论。当作者放大 T5 编码器、收缩扩散侧规模时,对齐与画质同时上升;而保持编码器不变、只把 U-Net 做大,提升要小得多。其解释是:理解提示词——解析句子里的从句、属性和关系——的瓶颈在语言建模能力,而不在去噪能力。一个在远更大语料上训练的纯文本模型,对语言的理解本就强于只见过图注数据的编码器。
Imagen 还引入了动态阈值采样技巧,每一步对像素预测做截断和重缩放。这让模型能用很高的无分类器引导权重(能锐化文图对齐),又不会出现高引导通常带来的过曝、失真画面。
级联扩散
Imagen 不是一次生成高分辨率图像,而是级联三个扩散模型:基础模型先在 T5 文本表示条件下生成 64×64 图像,再由两个文本条件超分辨率模型,依次上采样到 256×256 和 1024×1024。超分阶段用噪声条件增强训练,对低分辨率阶段传上来的伪影更鲁棒。
这种「先粗语义、后补细节」的拆分,让规模不大的基础模型扛起语义负担,上采样模型则专注纹理和清晰度。它后来成为高分辨率生成器普遍复用的范式。
关键结果
- COCO FID 7.27,是当时的新纪录,且为零样本——Imagen 从未在 COCO 上训练。
- 在文图对齐上,人类评测者认为 Imagen 的样本与 COCO 参考图像本身不相上下。
- 在 DrawBench(作者自建的 200 条提示基准,专门压测组合性、数数、颜色和罕见组合)上,人类评测者在画质和对齐两方面都更偏好 Imagen,而非 DALL-E 2、Latent Diffusion 与 VQ-GAN+CLIP。
- 扩展 T5-XXL 对 FID 和对齐的提升,超过扩展 64×64 扩散 U-Net——这正是论文被记住的结论。
一句实话:FID 7.27 很亮眼,但 FID 衡量的是分布匹配,而非单张图是否「对」。更耐看的证据是横跨四个竞争系统的人类偏好对比,以及那个编码器扩展消融实验——让这篇论文至今被引用的,是那个消融,而非那个 FID 数字。
局限与存疑
Imagen 从未作为公开模型或开放权重发布,论文也坦诚说明了原因。作者指出,它训练所用的 LAION 式网络数据带有社会与文化偏见,包含问题内容,而文生图模型可能被滥用于伪造。基于这些理由,他们明确选择不发布代码和在线演示。
强提示对齐也不等于会推理。和同期模型一样,Imagen 在可靠数数、精确空间关系,以及在复杂场景里把属性绑定到正确对象上,都表现吃力——DrawBench 的存在恰恰是为了暴露这些失败。而且冻结编码器这一发现虽然干净,只是在 T5-XXL 某个特定规模上得到的,并不能证明在任何预算、任何下游控制任务下,冻结文本编码器都是最优解。
常见问题
Imagen 是什么,由谁开发?
Imagen 是 Google Research 在 2022 年提出的文生图扩散模型。它用一个冻结的大语言模型作为文本编码器,再加上一组级联扩散模型,从文本提示生成照片级真实的图像。
Imagen 为什么要冻结 T5-XXL 文本编码器?
因为一个在海量语料上预训练的纯文本语言模型,本就把语言理解得很好,而扩展这个编码器对画质和对齐的提升,比扩展图像扩散模型更大。该编码器在图像上从不微调。
Imagen 如何达到 1024×1024 分辨率?
Imagen 级联三个扩散模型:64×64 基础模型,再加两个文本条件超分辨率模型,依次上采样到 256×256 和 1024×1024,并用噪声条件增强,对低分辨率伪影保持鲁棒。
DrawBench 是什么,Imagen 为何要引入它?
DrawBench 是 Imagen 作者自建的 200 条提示评测集,用于考察组合性、数数、颜色和罕见提示。在 DrawBench 上,人类评测者更偏好 Imagen,而非 DALL-E 2、Latent Diffusion 与 VQ-GAN+CLIP。
我可以用 Imagen 吗?
最初的 Imagen 论文没有发布代码、权重或公开演示,理由是网络训练数据中的偏见和滥用风险。Google 后来通过产品形态对外提供了 Imagen 衍生能力,但研究模型本身被保留未公开。
Imagen 留下的真正教训不是一个数字:是「理解提示词」才是当时的约束瓶颈,而更强的语言建模——而非更大的画师——是买下这份理解更便宜的方式。原文见 https://arxiv.org/abs/2205.11487。