文生图 · 高效 AI

Qwen-Image-Flash:蒸馏不只看目标函数

Qwen-Image-Flash 把 Qwen-Image-2.0 蒸馏到 4 步,同时做文生图和图像编辑。阿里 Qwen 发现:训练配方——数据、教师、任务比例——和蒸馏目标函数同样关键。

Qwen-Image-Flash:蒸馏不只看目标函数

快速答案

Qwen-Image-Flash 是阿里 Qwen 团队基于 Qwen-Image-2.0 蒸馏出的 4 步(4-NFE)模型,在一个模型里同时做文生图和指令式图像编辑。论文的核心论点是:多数少步蒸馏工作只盯着蒸馏的目标函数,但训练配方——在什么数据上蒸馏、用哪些教师、怎么混合任务——对学生模型质量的影响同样大。团队在 flow matching 骨干上用分布匹配蒸馏(DMD),给出三个反直觉的发现,并把它们整合成一套配方:在 4 步采样下,内部基准上追平甚至超过其多步教师。

问题:不只是目标函数

少步蒸馏把原本需要几十步采样的扩散或流模型,压缩成几步就能出可比图像的模型。以往工作大多在损失上做文章——更好的一致性目标、更好的匹配目标。这篇论文把目标函数固定(flow matching 上的 DMD),转而问:还有什么能撬动质量?作者的结论是:直觉式、惯例式的配方往往达不到预期,所以目标函数只是故事的一部分。他们在 Qwen-Image-2.0 上研究了三个杠杆——数据配比、教师引导、任务混合。

发现一:数据多样性可能有害

T2I 蒸馏对在什么数据上蒸馏极其敏感,而且数据越多样并不越好。在他们的 T2I-Bench(1800 个用例,覆盖风景、人像、文字三类,用 Gemini 3.1 Pro 和 GPT 5.5 做偏好评判)上,只用 2 万张人像图蒸馏的学生总排名第一(GPT 5.5 均分 4.15);而 6 万张的混合类别数据集仅排第四(3.62),即便在文字类提示上,混合集也比单一类别集更差。结论是:连贯的单类别数据反而能支撑广泛迁移,而盲目堆多样性——这种预训练惯性——会拖累蒸馏学生。

发现二:教师要分步混合,不能直接替换

加入一个下游更强的第二教师听起来像白送的质量提升。论文却显示:直接用任务专精教师引导蒸馏会破坏训练稳定性,尽管这个教师单独看更强。他们的解法是分步多教师引导:把预训练基础教师作为稳定的分布锚点,在采样轨迹中有选择地引入专精教师的引导。这样既保住训练稳定,又迁移了专精教师的互补能力。作者也指出一个权衡:第一步偏向稳定教师的监督会把学生约束到更可靠的结构,但可能轻微限制专精教师提供的分布引导。

发现三:生成与编辑要平衡

把 T2I 和编辑联合蒸馏进一个学生时,任务比例起决定作用。团队在固定训练预算下改变 T2I 与编辑的比例。纯 T2I 学生会丢掉编辑能力,且无法免费找回。在他们的 Editing-Bench 上,平衡的 5:5 混合排名第一(Gemini 3.1 Pro 均分 2.97,GPT 5.5 均分 3.41),优于 7:3(2.87 / 3.36)。反方向的惊喜是:加入编辑监督提升了文生图,而不只是维持——相比纯 T2I 学生,T2I 均分在 Gemini 3.1 Pro 下从 2.77 升到 2.97、在 GPT 5.5 下从 3.28 升到 3.41。

关键结果

  • 最终的 Qwen-Image-Flash 学生只需 4 步(4-NFE),一个模型同时做 T2I 和指令编辑。
  • 纯人像(2 万)蒸馏在 T2I-Bench 排名第一(GPT 5.5 均分 4.15);混合类别(6 万)仅排第四(3.62)——数据更多、更杂并没赢。
  • 平衡的 5:5 任务混合在 Editing-Bench 排名第一(Gemini 2.97 / GPT 3.41),优于 7:3(2.87 / 3.36)。
  • 加入编辑数据把 T2I 均分从 2.77 提到 2.97(Gemini)、从 3.28 提到 3.41(GPT),在 Gemini 指标上超过教师、在 GPT 上保持竞争力。
  • 方法栈:flow matching 骨干上的分布匹配蒸馏(DMD)+ 分步多教师引导。

局限与存疑

少步学生在精细文字渲染上仍吃力——小字、密集排版与精确版式的复杂海报式构图依然困难。把编辑数据并入联合蒸馏后,作者观察到部分 T2I 输出有轻微残留噪点,说明在极少步数下去噪轨迹未必走完,在干净背景上最明显。所有分数来自偏好式 VLM 评判(Gemini 3.1 Pro、GPT 5.5)在作者自建的 T2I-Bench 与 Editing-Bench 上的评测,而非第三方榜单,跨论文比较受限。单类别数据的结论能否推广到 Qwen-Image-2.0 之外,本文未做验证。

常见问题

Qwen-Image-Flash 是什么?

Qwen-Image-Flash 是阿里 Qwen 团队的少步蒸馏模型,由 Qwen-Image-2.0 蒸馏而来,用 4 步采样完成文生图和指令式图像编辑。

Qwen-Image-Flash 用多少步?

Qwen-Image-Flash 用 4 个 NFE(函数评估次数,即采样步数),而其教师 Qwen-Image-2.0 通常需要多得多的采样步数。

Qwen-Image-Flash 论文的核心观点是什么?

论文认为少步蒸馏的质量不仅由蒸馏目标函数决定,还由训练配方——数据配比、教师引导、任务混合——塑造,并用三个反直觉发现加以佐证。

Qwen-Image-Flash 能做图像编辑吗?

能。Qwen-Image-Flash 对文生图和指令式编辑做了联合蒸馏,论文发现平衡的 5:5 任务比例效果最佳。

Qwen-Image-Flash 有哪些做不好的地方?

Qwen-Image-Flash 在小而密集的文字渲染、复杂海报版式上仍吃力,且因极少步数下去噪轨迹未走完,在干净背景上可能出现轻微残留噪点。