多模态模型 · 文生图 · 专家混合

SenseNova-U1:一个模型同时做多模态理解与生成

SenseNova-U1 用一套共享注意力的网络同时做图像理解和图像生成,A3B 版在 MMMU 拿 80.55、GenEval 拿 0.91——一个会读也会画的模型。

SenseNova-U1:一个模型同时做多模态理解与生成

快速答案

SenseNova-U1 是一个既能理解图像、又能生成图像的单一 Transformer,而不是在视觉语言模型上外挂一个扩散模型。更大的 A3B 版(30B 的混合专家模型)在理解侧拿到 MMMU 80.55、MMBench-EN 91.59,两个版本在文生图基准 GenEval 上都达到 0.91。8B 稠密版则是 MMMU 74.78、OCRBench 82.10。重点不在于某一项纪录,而在于:一个模型在大多数系统都要用两套独立栈才能覆盖的两端,都做到了有竞争力。

为什么「统一」才是难点

大多数号称「既懂又能画」的多模态系统,其实是披着一件大衣的两个模型:一个视觉语言模型负责读图,一个独立的扩散解码器负责画图,中间用一层薄接口拼起来。SenseNova-U1 押的注是:理解和生成是同一过程的两个视角,应该共用一个主干。这比听起来难得多——两个任务会把权重往不同方向拉,粗暴合并通常两边都变差。SenseNova-U1 不靠外部扩散模型就在两边都拿到有竞争力的数字,这才是值得核对的结果。

NEO-unify 怎么工作

主干是原生的 Mixture-of-Transformers(MoT),用统一的自注意力流,RoPE 同时编码时间和空间轴。有两个设计很关键。第一,生成在像素空间里用流匹配(flow matching)和速度损失加 MLP 解码器完成,跳过了常规的 VAE 加扩散头那套流程。第二,架构在理解路径和生成路径之间解耦参数,同时仍共享注意力,让两个目标的相互干扰更小。训练用联合损失:文本 token 用交叉熵,图像像素用流匹配速度损失,文本和图像的无分类器引导独立加权。视觉前端用两层卷积编码、16x2 步幅,对应 32x32 像素块。

两个版本分别是什么

发布了两个版本。SenseNova-U1-8B-MoT 是稠密版:理解 8.2B 参数、生成 8.2B 参数、42 层、单专家。SenseNova-U1-A3B-MoT 是混合专家版:理解侧 30.0B 参数、128 个专家(激活 32 个),生成侧仍是 8.2B、48 层。A3B 这个命名值得拆解——它指 MoE 理解路径下每个 token 大约激活 3B 参数,这就是 30B 模型仍能跑得便宜的原因。总训练量约 3.75T token,分六个阶段,从预热、生成预训练、统一中训练、SFT 到后训练。

关键结果

  • MMMU(理解): A3B-MoT 拿 80.55,8B 版拿 74.78。
  • MMBench-EN: 91.59(A3B)与 90.25(8B)。
  • OCRBench: 91.90(A3B)与 82.10(8B),读图中文字能力强。
  • VSI-Bench(空间): 8B 版拿 62.66,反超 A3B 的 56.90——少见的小模型胜大模型。
  • GenEval(文生图): 两个版本总分都是 0.91,单物体 1.00、双物体 0.96。
  • DPG-Bench: 88.14(A3B)与 87.78(8B)。
  • 富文本生成: CVTG-2K 上 8B 版平均 0.940;LongText-Bench 上英文 0.979、中文 0.962。
  • 文本理解: MMLU-Pro 84.04(A3B)与 81.44(8B);IFEval A3B 拿 92.39。

局限与存疑

论文把短板写得很诚实。像素空间解码器会产生网格伪影,作者归因于最后的 FFN 和 MLP 头各自独立建模 32x32 的像素块——这是跳过 VAE 的直接代价。在 GenEval 的属性绑定一项上,模型略低于 0.80,落后于 OneCAT、Mogao 这类专用生成模型。空间推理仍逊于更大的推理专用模型,作者称这是为高保真生成主动做的取舍。而最有意思的存疑是 VSI-Bench 的反转:8B 在空间智能上反而打赢了 30B 的 A3B,说明 MoE 扩容并非处处有用,理解和生成可能仍在抢容量,比「协同」这个说法暗示的更激烈。

常见问题

SenseNova-U1 是什么?

SenseNova-U1 是 SenseNova 团队推出的统一多模态模型,用 NEO-unify 架构在一个 Transformer 里同时完成图像理解和图像生成,而不是把视觉语言模型和单独的扩散模型拼在一起。

SenseNova-U1 不用扩散模型怎么生成图像?

SenseNova-U1 在像素空间里用流匹配加速度损失和 MLP 解码器生成,跳过了常规的 VAE 加扩散头流程。代价是会出现可见的网格伪影,源于各 32x32 块被独立建模。

SenseNova-U1 的 8B 和 A3B 有什么区别?

8B-MoT 是稠密模型,理解侧 8.2B 参数;A3B-MoT 是 30B 混合专家,理解侧 128 个专家激活 32 个。A3B 在多数理解基准上更强,但 8B 在 VSI-Bench 空间推理上反超(62.66 对 56.90)。

SenseNova-U1 文生图强吗?

强——两个版本 GenEval 总分都是 0.91,DPG-Bench 约 88,与专用生成模型有得一拼。它最擅长富文本图像:CVTG-2K 平均 0.940,LongText-Bench 英文 0.979。最弱的是属性绑定,低于 0.80。

一句话:一个主干既能读又能画,用一点生成保真度换掉「需要两个模型」。阅读 arXiv 原文