文生图 · The Chinese University of Hong Kong
InterleaveThinker:用智能体做分步图像生成
InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。
主题
从自然语言提示生成或编辑图像的模型。
文生图 · The Chinese University of Hong Kong
InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。
DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
DreamDiffusion:从 EEG 生成图像把从 EEG 信号生成图像落到具体方法和可检查结果上,适合判断该方向的真实进展。
MinD-Vis:用扩散模型解码大脑视觉把基于 fMRI 的图像重建落到具体方法和可检查结果上,适合判断该方向的真实进展。
Qwen-Image-Flash 把 Qwen-Image-2.0 蒸馏到 4 步,同时做文生图和图像编辑。阿里 Qwen 发现:训练配方——数据、教师、任务比例——和蒸馏目标函数同样关键。
BrainCause 用文生图模型加 fMRI 编码器对脑区做因果检验,在 260 个视觉概念上把定位假阳性从 73.4% 压到 23%。
ControlNet 用「零卷积」把一份可训练的副本接到冻结的 Stable Diffusion 上,让边缘图、深度图、姿态、分割图直接控制生成,且不到 5 万张图也能稳定训练。
多模态模型 · University of Illinois Urbana-Champaign
Crafter 给图像模型套上五个协作智能体,PaperBanana-Bench 拿到 50.34 分,而同款底座单跑只有 11.13;CraftEditor 再把位图转成可编辑 SVG。
文生图 · University of Science and Technology of China
Flow-OPD 给每个奖励单独训一个专家教师,再在线蒸馏进同一个 SD3.5 学生,把 GenEval 从 0.63 拉到 0.92、OCR 从 0.59 拉到 0.94,且不损画质。
Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID,并发现扩展冻结的 T5-XXL 文本编码器,比扩展扩散模型本身更能提升画质与文图对齐。
微软 Lens 是 38 亿参数的文生图扩散模型,靠给每张图配上百词长描述,仅用 Z-Image 约 19.3% 的训练算力就追平 60 亿+ 参数对手。
极深 DiT 会塌缩进作者称为 Mean Mode Screaming 的均值主导态。把残差拆成均值与去均值两条路径即可修复,训出稳定的 1000 层 DiT,FID 2.77。
阿里 Qwen-Image-2.0 把文生图与编辑统一进一个多模态扩散 Transformer,支持 1K token 指令排版海报,原生 2K 写实,并用 16 倍压缩 VAE 提速。
RF 让统一多模态模型不再依赖冻结 VAE,RF-Pixel 先预测表征 token 再生成像素,GenEval 0.84,MMMU 比 VAE 版本高 4.3 分。
DAR 用随时间步自适应的子层输出聚合替换扩散 Transformer 的残差相加:SiT-XL/2 的 ImageNet FID 从 9.67 降到 7.56,迭代量仅基线 1/8.75。
SenseNova-U1 用一套共享注意力的网络同时做图像理解和图像生成,A3B 版在 MMMU 拿 80.55、GenEval 拿 0.91——一个会读也会画的模型。
Stable Diffusion 3 用整流流取代标准扩散、用 MM-DiT 取代 U-Net,图像内文字与提示词遵循显著变好,且从 8 亿到 80 亿参数可预测地扩展。
DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。
把去噪过程放进预训练自编码器的压缩潜空间,而非直接在像素上做,既大幅降低训练与推理成本,又用交叉注意力支持文本和布局条件。