主题

文生图

从自然语言提示生成或编辑图像的模型。

文生图 · The Chinese University of Hong Kong

InterleaveThinker:用智能体做分步图像生成

InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。

文生图 · Independent Researcher

DIRECT:三维感知的对象插入

DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

脑解码 · Independent Researcher

DreamDiffusion:从 EEG 生成图像

DreamDiffusion:从 EEG 生成图像把从 EEG 信号生成图像落到具体方法和可检查结果上,适合判断该方向的真实进展。

脑解码 · Independent Researcher

MinD-Vis:用扩散模型解码大脑视觉

MinD-Vis:用扩散模型解码大脑视觉把基于 fMRI 的图像重建落到具体方法和可检查结果上,适合判断该方向的真实进展。

文生图 · Alibaba Qwen Team

Qwen-Image-Flash:蒸馏不只看目标函数

Qwen-Image-Flash 把 Qwen-Image-2.0 蒸馏到 4 步,同时做文生图和图像编辑。阿里 Qwen 发现:训练配方——数据、教师、任务比例——和蒸馏目标函数同样关键。

脑解码 · MIT

BrainCause:在大脑中找出因果性的视觉表征

BrainCause 用文生图模型加 fMRI 编码器对脑区做因果检验,在 260 个视觉概念上把定位假阳性从 73.4% 压到 23%。

扩散模型 · Stanford University

ControlNet:给扩散模型加上空间控制

ControlNet 用「零卷积」把一份可训练的副本接到冻结的 Stable Diffusion 上,让边缘图、深度图、姿态、分割图直接控制生成,且不到 5 万张图也能稳定训练。

多模态模型 · University of Illinois Urbana-Champaign

Crafter:多智能体协作生成可编辑科研图表

Crafter 给图像模型套上五个协作智能体,PaperBanana-Bench 拿到 50.34 分,而同款底座单跑只有 11.13;CraftEditor 再把位图转成可编辑 SVG。

文生图 · University of Science and Technology of China

Flow-OPD:用在线蒸馏化解文生图 RL 的奖励冲突

Flow-OPD 给每个奖励单独训一个专家教师,再在线蒸馏进同一个 SD3.5 学生,把 GenEval 从 0.63 拉到 0.92、OCR 从 0.59 拉到 0.94,且不损画质。

文生图 · Google Research

Imagen：冻结文本编码器为何胜过更大的图像模型

Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID，并发现扩展冻结的 T5-XXL 文本编码器，比扩展扩散模型本身更能提升画质与文图对齐。

文生图 · Microsoft Research

Lens:用约 19% 算力训出的 38 亿参数文生图模型

微软 Lens 是 38 亿参数的文生图扩散模型,靠给每张图配上百词长描述,仅用 Z-Image 约 19.3% 的训练算力就追平 60 亿+ 参数对手。

扩散模型 · Independent Researcher

Mean Mode Screaming:稳住千层扩散 Transformer

极深 DiT 会塌缩进作者称为 Mean Mode Screaming 的均值主导态。把残差拆成均值与去均值两条路径即可修复,训出稳定的 1000 层 DiT,FID 2.77。

文生图 · Alibaba Qwen Team

Qwen-Image-2.0:生成与编辑统一的图像大模型

阿里 Qwen-Image-2.0 把文生图与编辑统一进一个多模态扩散 Transformer,支持 1K token 指令排版海报,原生 2K 写实,并用 16 倍压缩 VAE 提速。

多模态模型 · ByteDance

Representation Forcing:扔掉 VAE 的统一多模态模型

RF 让统一多模态模型不再依赖冻结 VAE,RF-Pixel 先预测表征 token 再生成像素,GenEval 0.84,MMMU 比 VAE 版本高 4.3 分。

扩散模型 · Alibaba Qwen Team

重新审视扩散 Transformer 的跨层信息路由

DAR 用随时间步自适应的子层输出聚合替换扩散 Transformer 的残差相加:SiT-XL/2 的 ImageNet FID 从 9.67 降到 7.56,迭代量仅基线 1/8.75。

多模态模型 · SenseTime

SenseNova-U1:一个模型同时做多模态理解与生成

SenseNova-U1 用一套共享注意力的网络同时做图像理解和图像生成,A3B 版在 MMMU 拿 80.55、GenEval 拿 0.91——一个会读也会画的模型。

文生图 · Stability AI

Stable Diffusion 3:整流流与 MM-DiT 架构解读

Stable Diffusion 3 用整流流取代标准扩散、用 MM-DiT 取代 U-Net,图像内文字与提示词遵循显著变好,且从 8 亿到 80 亿参数可预测地扩展。

文生图 · OpenAI

DALL·E 2(unCLIP):用 CLIP 图像潜变量生成图像

DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。

扩散模型 · CompVis

Latent Diffusion:Stable Diffusion 背后的架构

把去噪过程放进预训练自编码器的压缩潜空间,而非直接在像素上做,既大幅降低训练与推理成本,又用交叉注意力支持文本和布局条件。