Imagen:冻结文本编码器为何胜过更大的图像模型
Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID,并发现扩展冻结的 T5-XXL 文本编码器,比扩展扩散模型本身更能提升画质与文图对齐。
主题
通过迭代去噪合成数据的生成模型。
扩散模型通过把生成问题变成迭代去噪,改变了图像生成。模型不是一步生成像素,而是学习如何反转加噪过程,因此更容易兼顾真实感、多样性、条件控制和后续编辑。
这个主题的关键区别是:扩散不只是文生图技巧。Latent Diffusion 把去噪移到压缩潜空间,让高分辨率生成变得实用。Imagen 说明文本理解会显著影响提示词对齐。DALL-E 2 则把语言-图像表征和生成连接起来。它们共同解释了现代创意 AI 为什么同时依赖去噪模型和强条件控制。
Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID,并发现扩展冻结的 T5-XXL 文本编码器,比扩展扩散模型本身更能提升画质与文图对齐。
DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。
把去噪过程放进预训练自编码器的压缩潜空间,而非直接在像素上做,既大幅降低训练与推理成本,又用交叉注意力支持文本和布局条件。
DDPM 训练一个网络逐步还原高斯加噪过程,在 CIFAR-10 上把 FID 打到 3.17——也为后来的 Stable Diffusion、DALL-E 2 打下了地基。
把去噪过程放进预训练自编码器的压缩潜空间,而非直接在像素上做,既大幅降低训练与推理成本,又用交叉注意力支持文本和布局条件。
DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。
Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID,并发现扩展冻结的 T5-XXL 文本编码器,比扩展扩散模型本身更能提升画质与文图对齐。
Brain-Diffuser:fMRI 自然场景重建把从 fMRI 信号重建自然场景落到具体方法和可检查结果上,适合判断该方向的真实进展。
DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
DreamDiffusion:从 EEG 生成图像把从 EEG 信号生成图像落到具体方法和可检查结果上,适合判断该方向的真实进展。
生物分子建模 · Independent Researcher
Feynman-Kac 引导可控蛋白设计把用引导扩散做可控蛋白设计落到具体方法和可检查结果上,适合判断该方向的真实进展。
扩散模型 · The Hong Kong Polytechnic University
GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
MinD-Vis:用扩散模型解码大脑视觉把基于 fMRI 的图像重建落到具体方法和可检查结果上,适合判断该方向的真实进展。
Brain-Diffuser:fMRI 自然场景重建把从 fMRI 信号重建自然场景落到具体方法和可检查结果上,适合判断该方向的真实进展。
DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
DreamDiffusion:从 EEG 生成图像把从 EEG 信号生成图像落到具体方法和可检查结果上,适合判断该方向的真实进展。
生物分子建模 · Independent Researcher
Feynman-Kac 引导可控蛋白设计把用引导扩散做可控蛋白设计落到具体方法和可检查结果上,适合判断该方向的真实进展。
扩散模型 · The Hong Kong Polytechnic University
GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
MinD-Vis:用扩散模型解码大脑视觉把基于 fMRI 的图像重建落到具体方法和可检查结果上,适合判断该方向的真实进展。
MMAE:大规模音频编辑基准把音频编辑评测变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
SwanSphere 流式生成与视频/文本同步的一阶环绕声,首块仅 0.21 秒出声,Frechet 距离压到 120.28(OmniAudio 为 157.67),质量与实时兼得。
MatterGen 是按目标性质生成无机晶体的扩散模型——它唯一真正合成出来的 TaCr2O6,实测刚度与 200 GPa 目标相差约 20%。
MindEye 把 fMRI 脑活动映射到 CLIP 等多模态空间,同时做图像检索和扩散重建,在 NSD 上刷新重建与检索表现。
NaturalSpeech 2 用神经音频 codec 隐向量上的扩散模型做 TTS,训练覆盖 4.4 万小时语音和歌唱数据,重点补零样本韵律。
SANA-Streaming 在单张 RTX 5090 上 24 FPS 端到端实时编辑 1280x704 视频,DiT 核心达 58 FPS,靠混合 DiT 与循环反向正则化保证时序一致。
AnyFlow 蒸馏出一个会随采样步数增加而持续变好的视频扩散模型,修掉了一致性蒸馏模型步数变多反而变差的毛病。在 Wan2.1 上从 1.3B 到 14B 参数、双向与因果架构均做了验证。
Causal Forcing++ 把双向视频扩散蒸馏成 1-2 步逐帧自回归生成器,跑到 14.1 FPS,首帧延迟降一半,少步训练成本砍约 4 倍。
Cosmos 3 把语言、图像、视频、音频、机器人动作塞进一个混合 Transformer 模型,英伟达称它在文生图、图生视频以及 RoboArena 策略榜上都拿到开源第一。
ControlNet 用「零卷积」把一份可训练的副本接到冻结的 Stable Diffusion 上,让边缘图、深度图、姿态、分割图直接控制生成,且不到 5 万张图也能稳定训练。
DDPM 训练一个网络逐步还原高斯加噪过程,在 CIFAR-10 上把 FID 打到 3.17——也为后来的 Stable Diffusion、DALL-E 2 打下了地基。
MIGA 无需训练、显存恒定,把短片扩散模型变成千帧级生成器,VBench 上 VideoCrafter2 拿 97.82 总分,比 FIFO-Diffusion 高约 2.8 分。
文生图 · University of Science and Technology of China
Flow-OPD 给每个奖励单独训一个专家教师,再在线蒸馏进同一个 SD3.5 学生,把 GenEval 从 0.63 拉到 0.92、OCR 从 0.59 拉到 0.94,且不损画质。
英伟达的多人交互视频世界模型,蒸馏后以 24 FPS 实时推理,从两人到四人无需重新训练,FVD 较 Solaris 几乎砍半。
Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID,并发现扩展冻结的 T5-XXL 文本编码器,比扩展扩散模型本身更能提升画质与文图对齐。
Mirage 把视频世界模型的 3D 记忆直接存进扩散潜空间,而非 RGB 点云,WorldScore 平均分 70.36 拿下 SOTA,端到端快 10.57 倍、显存省 55 倍。
微软 Lens 是 38 亿参数的文生图扩散模型,靠给每张图配上百词长描述,仅用 Z-Image 约 19.3% 的训练算力就追平 60 亿+ 参数对手。
LongLive-2.0 让 5B 长视频模型全程跑在 NVFP4 4 比特上,720p 达 45.7 FPS,训练快 2.1 倍、推理快 1.84 倍,VBench 仅降半分。
极深 DiT 会塌缩进作者称为 Mean Mode Screaming 的均值主导态。把残差拆成均值与去均值两条路径即可修复,训出稳定的 1000 层 DiT,FID 2.77。
阿里 Qwen-Image-2.0 把文生图与编辑统一进一个多模态扩散 Transformer,支持 1K token 指令排版海报,原生 2K 写实,并用 16 倍压缩 VAE 提速。
RF 让统一多模态模型不再依赖冻结 VAE,RF-Pixel 先预测表征 token 再生成像素,GenEval 0.84,MMMU 比 VAE 版本高 4.3 分。
DAR 用随时间步自适应的子层输出聚合替换扩散 Transformer 的残差相加:SiT-XL/2 的 ImageNet FID 从 9.67 降到 7.56,迭代量仅基线 1/8.75。
扩散模型 · University of Science and Technology of China
Stream-R1 用视频奖励分数和逐区域困惑度给 DMD 损失重新加权,1.3B 流式模型在 VBench 拿到 84.40,反超 14B 教师的 84.26,且仍是 23.1 FPS。
Stable Diffusion 3 用整流流取代标准扩散、用 MM-DiT 取代 U-Net,图像内文字与提示词遵循显著变好,且从 8 亿到 80 亿参数可预测地扩展。
扩散模型 · University of Science and Technology of China
Stream-T1 不重训,只在推理时搜索,就把 5 秒片段的 VideoAlign 运动质量从 0.350 提到 0.629,并压住毁掉 30 秒长片的漂移。
SwanVoice 一次性生成整段 1-4 人对话,跨轮保持音色、情绪、韵律一致,补上逐轮合成的拼接感,代价是内容准确率仍是最弱环节。
DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。
把去噪过程放进预训练自编码器的压缩潜空间,而非直接在像素上做,既大幅降低训练与推理成本,又用交叉注意力支持文本和布局条件。