Imagen：冻结文本编码器为何胜过更大的图像模型

快速答案

Imagen 是 Google 在 2022 年发布的文生图扩散模型，在完全没有用 COCO 训练的情况下取得了 7.27 的 COCO FID，刷新当时纪录。它最反直觉的发现是：扩展一个冻结、且只用纯文本训练的语言编码器（T5-XXL），对画质和文图对齐的提升，比把图像扩散模型做得更大还要明显。在作者自建的 DrawBench 基准上，人类评测者在画质和提示对齐两方面，都更偏好 Imagen，而非 DALL-E 2、Latent Diffusion 和 VQ-GAN+CLIP。

为什么文本编码器更关键

此前多数文生图工作，都用图文配对数据联合训练文本编码器（CLIP 那一类）。Imagen 反其道而行：直接拿一个通用大语言模型 T5-XXL——只在纯文本语料上预训练——把它冻结，再用它的文本表示去条件化图像模型。在 Imagen 的整个训练过程中，T5-XXL 没有见过任何一张图像。

回报就是这篇论文最核心的结论。当作者放大 T5 编码器、收缩扩散侧规模时，对齐与画质同时上升；而保持编码器不变、只把 U-Net 做大，提升要小得多。其解释是：理解提示词——解析句子里的从句、属性和关系——的瓶颈在语言建模能力，而不在去噪能力。一个在远更大语料上训练的纯文本模型，对语言的理解本就强于只见过图注数据的编码器。

Imagen 还引入了动态阈值采样技巧，每一步对像素预测做截断和重缩放。这让模型能用很高的无分类器引导权重（能锐化文图对齐），又不会出现高引导通常带来的过曝、失真画面。

级联扩散

Imagen 不是一次生成高分辨率图像，而是级联三个扩散模型：基础模型先在 T5 文本表示条件下生成 64×64 图像，再由两个文本条件超分辨率模型，依次上采样到 256×256 和 1024×1024。超分阶段用噪声条件增强训练，对低分辨率阶段传上来的伪影更鲁棒。

这种「先粗语义、后补细节」的拆分，让规模不大的基础模型扛起语义负担，上采样模型则专注纹理和清晰度。它后来成为高分辨率生成器普遍复用的范式。

关键结果

COCO FID 7.27，是当时的新纪录，且为零样本——Imagen 从未在 COCO 上训练。
在文图对齐上，人类评测者认为 Imagen 的样本与 COCO 参考图像本身不相上下。
在 DrawBench（作者自建的 200 条提示基准，专门压测组合性、数数、颜色和罕见组合）上，人类评测者在画质和对齐两方面都更偏好 Imagen，而非 DALL-E 2、Latent Diffusion 与 VQ-GAN+CLIP。
扩展 T5-XXL 对 FID 和对齐的提升，超过扩展 64×64 扩散 U-Net——这正是论文被记住的结论。

一句实话：FID 7.27 很亮眼，但 FID 衡量的是分布匹配，而非单张图是否「对」。更耐看的证据是横跨四个竞争系统的人类偏好对比，以及那个编码器扩展消融实验——让这篇论文至今被引用的，是那个消融，而非那个 FID 数字。

局限与存疑

Imagen 从未作为公开模型或开放权重发布，论文也坦诚说明了原因。作者指出，它训练所用的 LAION 式网络数据带有社会与文化偏见，包含问题内容，而文生图模型可能被滥用于伪造。基于这些理由，他们明确选择不发布代码和在线演示。

强提示对齐也不等于会推理。和同期模型一样，Imagen 在可靠数数、精确空间关系，以及在复杂场景里把属性绑定到正确对象上，都表现吃力——DrawBench 的存在恰恰是为了暴露这些失败。而且冻结编码器这一发现虽然干净，只是在 T5-XXL 某个特定规模上得到的，并不能证明在任何预算、任何下游控制任务下，冻结文本编码器都是最优解。

常见问题

Imagen 是什么，由谁开发？

Imagen 是 Google Research 在 2022 年提出的文生图扩散模型。它用一个冻结的大语言模型作为文本编码器，再加上一组级联扩散模型，从文本提示生成照片级真实的图像。

Imagen 为什么要冻结 T5-XXL 文本编码器？

因为一个在海量语料上预训练的纯文本语言模型，本就把语言理解得很好，而扩展这个编码器对画质和对齐的提升，比扩展图像扩散模型更大。该编码器在图像上从不微调。

Imagen 如何达到 1024×1024 分辨率？

Imagen 级联三个扩散模型：64×64 基础模型，再加两个文本条件超分辨率模型，依次上采样到 256×256 和 1024×1024，并用噪声条件增强，对低分辨率伪影保持鲁棒。

DrawBench 是什么，Imagen 为何要引入它？

DrawBench 是 Imagen 作者自建的 200 条提示评测集，用于考察组合性、数数、颜色和罕见提示。在 DrawBench 上，人类评测者更偏好 Imagen，而非 DALL-E 2、Latent Diffusion 与 VQ-GAN+CLIP。

我可以用 Imagen 吗？

最初的 Imagen 论文没有发布代码、权重或公开演示，理由是网络训练数据中的偏见和滥用风险。Google 后来通过产品形态对外提供了 Imagen 衍生能力，但研究模型本身被保留未公开。

Imagen 留下的真正教训不是一个数字：是「理解提示词」才是当时的约束瓶颈，而更强的语言建模——而非更大的画师——是买下这份理解更便宜的方式。原文见 https://arxiv.org/abs/2205.11487。