InterleaveThinker:用智能体做分步图像生成

快速答案

InterleaveThinker 是一个面向文本-图像交错生成的多智能体外壳。Planner 先规划整段图文序列,Critic 再逐步检查生成图片是否符合当前指令,失败时写 refinement prompt。它不替换底层图像生成器,而是包在 FLUX.2-klein、Qwen-Image-Edit 等模型外面。论文报告,搭配 FLUX.2-klein-9B 时 UEval 平均 66.3,并把 WISE 从 0.47 提到 0.73;搭配 Qwen-Image-Edit 时 UEval 达到 67.2,RISE 达到 30.0。

交错生成为什么难

单图生成器擅长一张图或一次编辑。交错生成要求输出一个序列:教程、视觉故事、步骤图、漫画或具身操作计划,每一步图和文字都要和前文一致。错误会累积。第二步物体错了,第五步就可能完全跑偏。

InterleaveThinker 把这个问题改成 agent loop。Planner 在看到生成图之前先预测全局图文计划,减少模型被中间图片带偏;Critic 在每一步后做局部纠错,判断当前输出是否成功,并给出下一轮修正提示。

Planner 和 Critic 怎么训练

Planner 和 Critic 都从 Qwen3-VL-8B-Instruct 初始化。作者构建 Planner-SFT-80k、Critic-SFT-112k 和 Critic-RL-13k。RL 阶段用 GRPO,奖励分两类:accuracy reward 让 Critic 学会判断成功与否,step-wise reward 让它学会写出能改善下一轮图片的修正。

成本不能忽略。论文报告训练大约需要 8 张 H800 跑 50 小时;推理时每一步最多可以做 5 次 refinement iteration。这是追求一致性的高质量管线,不是一次调用的低延迟生成器。

一个容易忽略的设计是:Planner 会在看到生成图片之前先规划全局指令序列。这是在主动避免早期图片错误把后续计划带偏。Critic 则只在每一步局部工作,检查当前图是否成功,失败时重写 prompt。全局规划和局部纠错分开,是这篇论文比普通反思式生图更清楚的地方。

关键结果

UEval: InterleaveThinker + FLUX.2-klein-9B 平均 66.3,+ Qwen-Image-Edit 平均 67.2。
专有模型对比: Nano Banana 为 66.0,Nano Banana Pro 为 76.1,所以它接近前者,但明显低于 Pro。
CoMM: 搭配 FLUX.2-klein 时,style consistency 为 9.3/9.6,entity consistency 为 9.2/9.6。
WISE: FLUX.2-klein 从 0.47 提升到 0.73。
RISE: FLUX.2-klein 从 13.3 提升到 28.9,其中 temporal 从 7.1 跳到 36.5。

Planner-Critic 拆分为什么重要

消融表给了最清楚的机制证据。原始 FLUX.2-klein 在 UEval 平均只有 18.2;Qwen3-VL-8B baseline wrapper 达到 48.1;Planner-SFT 提到 60.5;Full-SFT 到 64.5;Full-RL 到 66.3。One-Agent 版本只有 54.5。

这支持论文的核心判断:规划序列和批评生成结果是两种不同工作。把二者合成一个 agent,在冻结图像生成器场景下会损失质量。

对开发者来说,更准确的启发是把交错生成当作 workflow control。更强的底层生成器当然有帮助,但序列一致性还需要状态、逐步评估和恢复路径。InterleaveThinker 正是在不重训图像生成器的情况下补上这些环节。

局限与存疑

方法依赖 judge 质量。Critic 的数据处理和 reward 构造使用 Gemini 2.5 Pro 打分。这是合理工程选择,但也意味着系统部分继承了 judge 的偏好。

第二个问题是延迟。一条 trajectory 可能调用很多次图像生成器,论文也需要限制 refinement 次数。InterleaveThinker 更适合高价值视觉序列,例如教程、叙事和严肃设计稿,不适合追求瞬时响应的普通生图。

第三个问题是 benchmark 覆盖。UEval、CoMM、WISE 和 RISE 能测一部分序列质量,但真实用户还会看版式审美、叙事节奏和品牌约束。这些要求很难被单一分数完整覆盖。

常见问题

InterleaveThinker 是什么？

InterleaveThinker 是一个 planner-critic 智能体管线,包在现有图像生成器外,用于生成图文交错序列,例如教程、故事、步骤图和操作计划。

InterleaveThinker 如何提升 FLUX.2-klein？

在 UEval 消融中,FLUX.2-klein 原始平均为 18.2,完整 InterleaveThinker RL 管线达到 66.3。在 WISE 上,FLUX.2-klein 从 0.47 提到 0.73。

InterleaveThinker 比 Nano Banana Pro 强吗？

在 UEval 上不是。InterleaveThinker + Qwen-Image-Edit 为 67.2,Nano Banana Pro 为 76.1。它更接近 Nano Banana 的 66.0,并明显强于表中开源基线。

InterleaveThinker 最大成本是什么？

推理成本。系统每一步可能多次调用图像生成器,还要运行 Planner 和 Critic。它优化的是序列一致性,不是最低延迟。

一句话:InterleaveThinker 最有价值的证据是,冻结图像生成器外的规划和批评循环,确实能显著提升复杂图文序列质量。阅读 arXiv 原文。