MIGA:免训练无限帧生成,做出一致的长视频

快速答案

MIGA 让一个只在短片上训练过的视频扩散模型生成 1000+ 帧的长视频,既不微调、显存还恒定。以 VideoCrafter2 为底座,MIGA 在 VBench 上总分 97.82、主体一致性 97.66、背景一致性 96.99,比免训练基线 FIFO-Diffusion 总分高约 2.8 分(主体一致性 +4.7%、背景一致性 +2.0%)。核心思路就一句话:保留你现成的短视频模型,把 MIGA 挂到采样器上即可。

长视频崩坏的根源:训练-推理失配

FIFO-Diffusion 这类滑动窗口采样器,靠对一队不同噪声水平的帧做错位去噪,把视频无限流式输出。MIGA 盯住的痛点是训练-推理失配:底座模型训练时去噪的帧噪声水平是统一的,而滑动窗口一次喂进来的帧噪声水平各不相同。模型从没见过这种输入分布,于是画质下滑、视频逐渐漂移。已有方案要么重新训练(代价高,也违背了免训练的初衷),要么只是掩盖症状。

MIGA 怎么做

MIGA 在采样器上叠了两套免训练机制。

两阶段训练-推理对齐(TTA)。 第一阶段在一个窄窗口内做之字形迭代去噪(最优之字宽度为 4 帧),温和地把各帧拉向统一噪声水平;第二阶段再施加统一噪声水平去噪,让底座模型看到的输入与它训练时一致。这是正面填平分布鸿沟,而不是遮掩。

双一致性增强(DCE)。 两个部件对抗长程漂移:自反思步骤让模型在采样过程中重新审视并修正自己的预测;长程帧引导(最优用 6 个引导帧)把新帧锚定到更早的内容上,使主体与背景在数百帧间保持稳定,而不是慢慢变形。

两个部件都不动权重——MIGA 是采样侧的干预,这也是它能跨底座迁移的原因。

关键结果

VBench 总分(VideoCrafter2,128 帧):97.82,FIFO-Diffusion 为 95.02、FreeLong 为 96.95,是免训练里的最优结果。
一致性提升: 主体一致性 97.66、背景一致性 96.99,相对 FIFO-Diffusion 报告为主体 +4.7%、背景 +2.0%。
规模: 1000+ 帧且显存恒定——显存不随视频长度增长,这正是”无限帧”能落地的关键。
NarrLV(Wan2.1-1.3B 底座,TNA=2): 场景属性 79.32、目标属性 67.87、目标动作 67.94,说明它在叙事性、多事件提示上也站得住,而不只是循环场景。
消融: 单用 TTA 总分 +2.03%,单用 DCE +1.73%,两半都有分量,而非一边独大。

为什么值得关注

诚实地说,卖点是效率,不是绝对画质。MIGA 不训练更强的视频模型,而是让你手上现有的模型流式输出长得多的视频还不崩,并且在两个不同底座上都成立(VideoCrafter2 用 16 个 latent,Wan2.1-1.3B 用 21 个)。对负担不起从头训练长视频模型的人来说,一个免训练、加 2~3 个 VBench 分、还拆掉显存天花板的采样器升级是实打实的实惠。论文被 ICML 2026 接收,说明其对齐论证经得起评审,是个合理信号。

局限与存疑

提升真实但绝对值有限——VBench 一致性本就在 90 多分高位,97.82 对 96.95 只是窄边距,而 VBench 更奖励平滑一致、对”一致但无聊”的视频惩罚不足。NarrLV 的目标属性和目标动作分还停在 60 多分,远未解决,说明长叙事视频即便看着稳,语义保真仍在掉。MIGA 继承底座的一切短板:底座生不出的内容它也生不出,弱的短片模型仍会产出弱的长视频。该方法还在采样侧逐帧增加算力(之字去噪、自反思、引导帧),所以”显存恒定”不等于”免费”——逐帧时延不是宣传重点,部署前值得仔细掂量。

常见问题

MIGA 在视频生成里是什么?

MIGA 是一种免训练方法,让标准视频扩散模型在显存恒定的前提下生成 1000+ 帧视频。它在采样侧加了两套机制——两阶段训练-推理对齐与双一致性增强——不改动任何模型权重。

MIGA 和 FIFO-Diffusion 有什么区别?

两者都是免训练的滑动窗口采样器,但 MIGA 明确修复了 FIFO-Diffusion 那种训练-推理的噪声水平失配。在 VBench 上以 VideoCrafter2 为底座,MIGA 总分 97.82,FIFO-Diffusion 为 95.02,主体 +4.7%、背景 +2.0%。

MIGA 需要微调或重新训练吗?

不需要。MIGA 完全是采样时的干预,不碰权重,因此能在 VideoCrafter2、Wan2.1-1.3B 等底座间迁移,而无需对每个模型单独训练。

MIGA 在哪些基准上做了评测?

MIGA 用 VBench 衡量通用质量(VideoCrafter2 上总分 97.82),用 NarrLV 衡量叙事性多事件长视频(Wan2.1-1.3B 上场景 79.32、目标属性 67.87、目标动作 67.94)。

MIGA 到底是画质更好还是只是更长?

主要是更长、更稳,而非画质大幅提升。它对 FreeLong 的 VBench 优势不到一分,叙事属性分还在 60 多分——MIGA 的贡献是在不重新训练的模型上跑到长长度而不崩坏。

一句话:留着你的短视频模型,对齐噪声水平、锚定帧,它就能流式跑到 1000+ 帧而无需重训。阅读 arXiv 原文。