主题

扩散模型

通过迭代去噪合成数据的生成模型。

扩散模型通过把生成问题变成迭代去噪，改变了图像生成。模型不是一步生成像素，而是学习如何反转加噪过程，因此更容易兼顾真实感、多样性、条件控制和后续编辑。

这个主题的关键区别是：扩散不只是文生图技巧。Latent Diffusion 把去噪移到压缩潜空间，让高分辨率生成变得实用。Imagen 说明文本理解会显著影响提示词对齐。DALL-E 2 则把语言-图像表征和生成连接起来。它们共同解释了现代创意 AI 为什么同时依赖去噪模型和强条件控制。

从这里开始

文生图 · Google Research

Imagen：冻结文本编码器为何胜过更大的图像模型

Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID，并发现扩展冻结的 T5-XXL 文本编码器，比扩展扩散模型本身更能提升画质与文图对齐。

文生图 · OpenAI

DALL·E 2(unCLIP):用 CLIP 图像潜变量生成图像

DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。

扩散模型 · CompVis

Latent Diffusion:Stable Diffusion 背后的架构

把去噪过程放进预训练自编码器的压缩潜空间,而非直接在像素上做,既大幅降低训练与推理成本,又用交叉注意力支持文本和布局条件。

奠基论文

扩散模型 · UC Berkeley

DDPM:让扩散模型真正跑通的那篇论文

DDPM 训练一个网络逐步还原高斯加噪过程,在 CIFAR-10 上把 FID 打到 3.17——也为后来的 Stable Diffusion、DALL-E 2 打下了地基。

扩散模型 · CompVis

Latent Diffusion:Stable Diffusion 背后的架构

把去噪过程放进预训练自编码器的压缩潜空间,而非直接在像素上做,既大幅降低训练与推理成本,又用交叉注意力支持文本和布局条件。

文生图 · OpenAI

DALL·E 2(unCLIP):用 CLIP 图像潜变量生成图像

DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。

文生图 · Google Research

Imagen：冻结文本编码器为何胜过更大的图像模型

Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID，并发现扩展冻结的 T5-XXL 文本编码器，比扩展扩散模型本身更能提升画质与文图对齐。

近期解读

脑解码 · Independent Researcher

Brain-Diffuser:fMRI 自然场景重建

Brain-Diffuser:fMRI 自然场景重建把从 fMRI 信号重建自然场景落到具体方法和可检查结果上,适合判断该方向的真实进展。

文生图 · Independent Researcher

DIRECT:三维感知的对象插入

DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

脑解码 · Independent Researcher

DreamDiffusion:从 EEG 生成图像

DreamDiffusion:从 EEG 生成图像把从 EEG 信号生成图像落到具体方法和可检查结果上,适合判断该方向的真实进展。

生物分子建模 · Independent Researcher

Feynman-Kac 引导可控蛋白设计

Feynman-Kac 引导可控蛋白设计把用引导扩散做可控蛋白设计落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散模型 · The Hong Kong Polytechnic University

GGT-100K:图像修复的生成式真值

GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

脑解码 · Independent Researcher

MinD-Vis:用扩散模型解码大脑视觉

MinD-Vis:用扩散模型解码大脑视觉把基于 fMRI 的图像重建落到具体方法和可检查结果上,适合判断该方向的真实进展。

脑解码 · Independent Researcher

Brain-Diffuser:fMRI 自然场景重建

Brain-Diffuser:fMRI 自然场景重建把从 fMRI 信号重建自然场景落到具体方法和可检查结果上,适合判断该方向的真实进展。

文生图 · Independent Researcher

DIRECT:三维感知的对象插入

DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

脑解码 · Independent Researcher

DreamDiffusion:从 EEG 生成图像

DreamDiffusion:从 EEG 生成图像把从 EEG 信号生成图像落到具体方法和可检查结果上,适合判断该方向的真实进展。

生物分子建模 · Independent Researcher

Feynman-Kac 引导可控蛋白设计

Feynman-Kac 引导可控蛋白设计把用引导扩散做可控蛋白设计落到具体方法和可检查结果上,适合判断该方向的真实进展。

扩散模型 · The Hong Kong Polytechnic University

GGT-100K:图像修复的生成式真值

GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

脑解码 · Independent Researcher

MinD-Vis:用扩散模型解码大脑视觉

MinD-Vis:用扩散模型解码大脑视觉把基于 fMRI 的图像重建落到具体方法和可检查结果上,适合判断该方向的真实进展。

语音合成 · Independent Researcher

MMAE:大规模音频编辑基准论文详细解读

MMAE:大规模音频编辑基准把音频编辑评测变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

语音合成 · Zhejiang University

SwanSphere：从视频和文本流式生成空间音频

SwanSphere 流式生成与视频/文本同步的一阶环绕声，首块仅 0.21 秒出声，Frechet 距离压到 120.28（OmniAudio 为 157.67），质量与实时兼得。

AI 科学 · Microsoft Research

MatterGen 解读:用扩散模型做材料逆向设计

MatterGen 是按目标性质生成无机晶体的扩散模型——它唯一真正合成出来的 TaCr2O6,实测刚度与 200 GPa 目标相差约 20%。

脑解码 · Princeton University

MindEye:用 fMRI 重建所见图像

MindEye 把 fMRI 脑活动映射到 CLIP 等多模态空间,同时做图像检索和扩散重建,在 NSD 上刷新重建与检索表现。

语音合成 · Microsoft Research

NaturalSpeech 2:用扩散模型做零样本语音合成

NaturalSpeech 2 用神经音频 codec 隐向量上的扩散模型做 TTS,训练覆盖 4.4 万小时语音和歌唱数据,重点补零样本韵律。

视频生成 · NVIDIA

SANA-Streaming：单张 RTX 5090 上 24 FPS 实时视频编辑

SANA-Streaming 在单张 RTX 5090 上 24 FPS 端到端实时编辑 1280x704 视频，DiT 核心达 58 FPS，靠混合 DiT 与循环反向正则化保证时序一致。

扩散模型 · NVIDIA

AnyFlow:用流映射蒸馏的任意步数视频扩散模型

AnyFlow 蒸馏出一个会随采样步数增加而持续变好的视频扩散模型,修掉了一致性蒸馏模型步数变多反而变差的毛病。在 Wan2.1 上从 1.3B 到 14B 参数、双向与因果架构均做了验证。

扩散模型 · Tsinghua University

Causal Forcing++:少步自回归扩散蒸馏做实时交互视频

Causal Forcing++ 把双向视频扩散蒸馏成 1-2 步逐帧自回归生成器,跑到 14.1 FPS,首帧延迟降一半,少步训练成本砍约 4 倍。

多模态模型 · NVIDIA

Cosmos 3 解读:英伟达面向具身智能的全模态世界模型

Cosmos 3 把语言、图像、视频、音频、机器人动作塞进一个混合 Transformer 模型,英伟达称它在文生图、图生视频以及 RoboArena 策略榜上都拿到开源第一。

扩散模型 · Stanford University

ControlNet:给扩散模型加上空间控制

ControlNet 用「零卷积」把一份可训练的副本接到冻结的 Stable Diffusion 上,让边缘图、深度图、姿态、分割图直接控制生成,且不到 5 万张图也能稳定训练。

扩散模型 · UC Berkeley

DDPM:让扩散模型真正跑通的那篇论文

DDPM 训练一个网络逐步还原高斯加噪过程,在 CIFAR-10 上把 FID 打到 3.17——也为后来的 Stable Diffusion、DALL-E 2 打下了地基。

扩散模型 · Alibaba Qwen Team

MIGA:免训练无限帧生成,做出一致的长视频

MIGA 无需训练、显存恒定,把短片扩散模型变成千帧级生成器,VBench 上 VideoCrafter2 拿 97.82 总分,比 FIFO-Diffusion 高约 2.8 分。

文生图 · University of Science and Technology of China

Flow-OPD:用在线蒸馏化解文生图 RL 的奖励冲突

Flow-OPD 给每个奖励单独训一个专家教师,再在线蒸馏进同一个 SD3.5 学生,把 GenEval 从 0.63 拉到 0.92、OCR 从 0.59 拉到 0.94,且不损画质。

世界模型 · NVIDIA

Gamma-World：突破两人上限的多智能体世界模型

英伟达的多人交互视频世界模型，蒸馏后以 24 FPS 实时推理，从两人到四人无需重新训练，FVD 较 Solaris 几乎砍半。

文生图 · Google Research

Imagen：冻结文本编码器为何胜过更大的图像模型

Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID，并发现扩展冻结的 T5-XXL 文本编码器，比扩展扩散模型本身更能提升画质与文图对齐。

世界模型 · Microsoft Research

Mirage:潜空间记忆让视频世界模型快 10 倍

Mirage 把视频世界模型的 3D 记忆直接存进扩散潜空间,而非 RGB 点云,WorldScore 平均分 70.36 拿下 SOTA,端到端快 10.57 倍、显存省 55 倍。

文生图 · Microsoft Research

Lens:用约 19% 算力训出的 38 亿参数文生图模型

微软 Lens 是 38 亿参数的文生图扩散模型,靠给每张图配上百词长描述,仅用 Z-Image 约 19.3% 的训练算力就追平 60 亿+ 参数对手。

扩散模型 · NVIDIA

LongLive-2.0:用 NVFP4 4 比特训练与推理长视频

LongLive-2.0 让 5B 长视频模型全程跑在 NVFP4 4 比特上,720p 达 45.7 FPS,训练快 2.1 倍、推理快 1.84 倍,VBench 仅降半分。

扩散模型 · Independent Researcher

Mean Mode Screaming:稳住千层扩散 Transformer

极深 DiT 会塌缩进作者称为 Mean Mode Screaming 的均值主导态。把残差拆成均值与去均值两条路径即可修复,训出稳定的 1000 层 DiT,FID 2.77。

文生图 · Alibaba Qwen Team

Qwen-Image-2.0:生成与编辑统一的图像大模型

阿里 Qwen-Image-2.0 把文生图与编辑统一进一个多模态扩散 Transformer,支持 1K token 指令排版海报,原生 2K 写实,并用 16 倍压缩 VAE 提速。

多模态模型 · ByteDance

Representation Forcing:扔掉 VAE 的统一多模态模型

RF 让统一多模态模型不再依赖冻结 VAE,RF-Pixel 先预测表征 token 再生成像素,GenEval 0.84,MMMU 比 VAE 版本高 4.3 分。

扩散模型 · Alibaba Qwen Team

重新审视扩散 Transformer 的跨层信息路由

DAR 用随时间步自适应的子层输出聚合替换扩散 Transformer 的残差相加:SiT-XL/2 的 ImageNet FID 从 9.67 降到 7.56,迭代量仅基线 1/8.75。

扩散模型 · University of Science and Technology of China

Stream-R1:可靠性与困惑度感知的视频蒸馏

Stream-R1 用视频奖励分数和逐区域困惑度给 DMD 损失重新加权,1.3B 流式模型在 VBench 拿到 84.40,反超 14B 教师的 84.26,且仍是 23.1 FPS。

文生图 · Stability AI

Stable Diffusion 3:整流流与 MM-DiT 架构解读

Stable Diffusion 3 用整流流取代标准扩散、用 MM-DiT 取代 U-Net,图像内文字与提示词遵循显著变好,且从 8 亿到 80 亿参数可预测地扩展。

扩散模型 · University of Science and Technology of China

Stream-T1:用测试时扩展提升流式视频生成

Stream-T1 不重训,只在推理时搜索,就把 5 秒片段的 VideoAlign 运动质量从 0.350 提到 0.629,并压住毁掉 30 秒长片的漂移。

语音合成 · ByteDance

SwanVoice:面向长篇独白与对话的零样本语音合成

SwanVoice 一次性生成整段 1-4 人对话,跨轮保持音色、情绪、韵律一致,补上逐轮合成的拼接感,代价是内容准确率仍是最弱环节。

文生图 · OpenAI

DALL·E 2(unCLIP):用 CLIP 图像潜变量生成图像

DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。

扩散模型 · CompVis

Latent Diffusion:Stable Diffusion 背后的架构

把去噪过程放进预训练自编码器的压缩潜空间,而非直接在像素上做,既大幅降低训练与推理成本,又用交叉注意力支持文本和布局条件。

从这里开始

奠基论文

近期解读

相关主题