Stable Diffusion 3:整流流与 MM-DiT 架构解读

快速答案

Stable Diffusion 3 是 Stability AI 把过去 Stable Diffusion 的两根支柱都换掉的那篇论文:标准扩散的加噪调度,和 U-Net 主干。取而代之的是整流流——训练模型沿一条直线在数据与噪声之间移动,而不是走扩散那条弯路;以及一个全新的多模态扩散 Transformer(MM-DiT),它为图像 token 和文本 token 保留各自独立的权重。最直接的实用收益是:图像里拼写出来的文字明显更准、提示词遵循更紧。作者还证明这套配方能从 8 亿干净地扩展到 80 亿参数,最大的模型在人工偏好上击败了 DALL·E 3、Midjourney 等当时的最强系统。

整流流与标准扩散的区别

经典扩散模型学的是逆转一条弯曲轨迹:噪声分许多小步加进去,模型再沿那条弯路一步步走回来。整流流换了个更简单的问法——为什么不直接用一条直线连接数据点和它的噪声,让模型沿直线走?路径越直,积分越便宜,于是采样步数可以更少。

问题在于,整流流理论虽更干净,却一直没有在高分辨率上确凿地打赢普通扩散。SD3 在这里真正的贡献不是公式本身,而是加噪时间步的采样调度。均匀地采样直线上的训练点会把力气浪费在两端这种简单位置;SD3 用 logit-normal 加权,把采样偏向中间那段在感知上最难的时间步。正是这一处改动,让整流流终于压过了作者对比的各种成熟扩散目标。客观地说,这场胜利来自训练分布的这个调整,不亚于来自整流流这个概念本身。

MM-DiT 架构

第二根支柱是架构。早期文生图模型把文本通过交叉注意力塞进卷积 U-Net。SD3 丢掉 U-Net 换成 Transformer,而且关键在于:它不强迫图像和文本 token 共用同一套权重。在 MM-DiT 里,每种模态都有自己的一套权重——各自的注意力和 MLP 投影——但两条流在一次联合注意力中相遇,信息双向流动:文本能注意图像 token,反之亦然。

这之所以重要,是因为文字和像素本就是不同的分布,共享权重的 Transformer 会两头将就。论文把排版和提示词理解的跃升,归功于这种独立权重加双向注意力的设计。SD3 还同时用三个文本编码器(两个 CLIP 变体加 T5-XXL),推理时可以丢掉笨重的 T5,用一点提示词保真度换更低显存。

关键结果

最大的 80 亿参数 MM-DiT 在人工评分的画质、提示词遵循、排版上,超过 DALL·E 3、Midjourney v6、Ideogram 等当时最强的开源与闭源系统。
可预测扩展: 参数和算力从 8 亿涨到 80 亿,验证损失平滑下降,且验证损失越低、人工与自动画质指标越好——曲线尚未走平,意味着还有上升空间。
图内文字渲染——长期是扩散模型的老大难——大幅改善;相比 SDXL,模型能远更可靠地在图里拼出多词短语。
偏置后的整流流采样,在作者大规模对比的 60 多种「公式 + 调度」组合中胜出,这是全文的实证骨架。

为什么现在重要

SD3 是文生图研究向「Transformer + 流」这套配方收拢的节点,如今这套配方主导了整个领域。MM-DiT 的设计直接影响了后续系统,「整流流 + logit-normal 时间步加权」从一个冷门选项变成默认起点。对从业者而言,论文展示的扩展规律是最有用的东西:它说明对这套架构,多花算力能稳定换来更高画质,从而把训练前沿图像模型时的大量靠猜去掉了。

局限与存疑

这是一项工程与扩展的成果,不是理论突破——整流流在这里能赢靠的是采样重加权,所以那个干净的「直线」故事有一半是包装。80 亿模型训练和推理都贵,而最佳画质又依赖很多部署想丢掉的 T5-XXL 编码器。对 DALL·E 3、Midjourney 的对比建立在人工偏好实验上,这类实验对提示词选取和标注人群很敏感,外部难以复现。另外,摘要承诺开放权重、代码与数据,但实际放出的检查点和许可条款比措辞要严格得多,所以「公开可用」得打个问号。最后,论文没有回答任何强力图像生成器都绕不开的安全与来源溯源问题。

常见问题

Stable Diffusion 3 相比 SDXL 新在哪?

Stable Diffusion 3 用 MM-DiT Transformer 取代了 SDXL 的 U-Net,并把标准扩散训练换成带偏置时间步采样的整流流。看得见的回报是图内文字更可靠、提示词遵循更好。

Stable Diffusion 3 的 MM-DiT 架构怎么工作?

MM-DiT 用各自独立的权重处理图像和文本 token,再通过一次联合双向注意力让二者交换信息。论文把排版和理解力的提升,归功于让两种模态的参数保持分开。

Stable Diffusion 3 为什么用整流流而不是扩散?

整流流用一条直线连接数据和噪声,采样更便宜。Stable Diffusion 3 的关键技巧是把训练时间步偏向感知上最难的中段尺度,正是这一点让整流流终于在高分辨率上打赢标准扩散。

Stable Diffusion 3 能可预测地扩展吗?

能。论文显示验证损失从 8 亿到 80 亿参数平滑下降,并与人工评分画质同步,因此更大的模型稳定地更好看,扩展曲线当时还没饱和。

一句话:把路径拉直、把权重拆开、把时间步重新加权——文生图的画质能像语言模型一样扩展。阅读 arXiv 原文。