文生图 · The Chinese University of Hong Kong
InterleaveThinker:用智能体做分步图像生成
InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。
主题
把语言与图像、音频、视频或其他信号结合的基础模型。
文生图 · The Chinese University of Hong Kong
InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。
Kwai Keye-VL-2.0 是 30B-A3B 开放 MoE 多模态模型,支持 256K 上下文,在长视频、时间定位和代码智能体任务上表现突出。
SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。
CoVEBench:视频编辑能否听懂复杂指令把视频编辑复杂指令遵循变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
Function2Scene:按功能生成室内三维布局把功能驱动三维场景布局变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
综述把长视频 MLLM 重构为「看-记-想」三种能力,对比 11 篇已有综述,梳理 100+ 方法与 5 个应用领域。
长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
MMAE:大规模音频编辑基准把音频编辑评测变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
多模态模型 · Shanghai AI Laboratory
OVO-S-Bench:流式空间智能评测把流式空间智能变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
AI 智能体 · Independent Researcher
SpatialWorld:交互式空间推理智能体把交互式空间推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
SwanSphere 流式生成与视频/文本同步的一阶环绕声,首块仅 0.21 秒出声,Frechet 距离压到 120.28(OmniAudio 为 157.67),质量与实时兼得。
TaskMem 用强化学习训练多模态智能体自己写记忆,在流式视频问答上把 VideoMME 准确率提到 67.9%,比 Qwen3-VL-30B 基线高出 6.3 个点。
多模态模型 · Independent Researcher
VideoKR:知识密集型视频理解把视频理解中的知识与推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
不让视频模型自己硬推,而是让 VLM 给中间帧打分、逐样本微调一个 LoRA。RULER-Bench 从 46.4 拉到 68.2。
PF-OPSD 训练 Qwen3.5-9B 学会判断何时调用视频世界模型、如何核验生成画面,并在两个新基准上把准确率分别提升 10.6 和 10.9 个百分点。
多模态模型 · The Chinese University of Hong Kong
X-Stream 是首个多路并发视频流理解基准。最强的 Gemini 3 Pro 仅 49.6%,人类却有 91.84%,主动反应能力更跌破 21%。
VLM3 证明一个标准 4B 视觉语言模型无需 3D 专用架构就能比肩专家模型:深度精度 0.904、相机位姿 AUC 94.0%、物体级 3D 精度 91.35%。
Audio Interaction Model 用「感知-决策-响应」循环,让音频大模型边听边判断要不要回、何时回并即时作答;基于 StreamAudio-2M 训练,8 个基准有竞争力。
多模态模型 · Shanghai AI Laboratory
CiteVQA 要求文档问答模型在给答案时同时框出证据位置,答案与引用一起打分。最强的 Gemini-3.1-Pro-Preview 严格归因准确率仅 76.0,最佳开源模型只有 22.5。
Cosmos 3 把语言、图像、视频、音频、机器人动作塞进一个混合 Transformer 模型,英伟达称它在文生图、图生视频以及 RoboArena 策略榜上都拿到开源第一。
多模态模型 · University of Illinois Urbana-Champaign
Crafter 给图像模型套上五个协作智能体,PaperBanana-Bench 拿到 50.34 分,而同款底座单跑只有 11.13;CraftEditor 再把位图转成可编辑 SVG。
Flamingo 冻结视觉编码器和语言模型,只训练中间的跨注意力桥接层,靠提示里的几个示例就能上手新的图像和视频任务,无需微调。
Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID,并发现扩展冻结的 T5-XXL 文本编码器,比扩展扩散模型本身更能提升画质与文图对齐。
多模态模型 · University of Washington
想象式感知标记(IPT)训练视觉语言模型渲染出它在另一视角下会看到的画面,再据此推理,而非用文字思考。多视角计数提升 3.4%,路径追踪比肩闭源模型,而文本思维链有时反而拖后腿。
LLaVA 用一层线性投影把 CLIP 编码器接到 Vicuna,再用纯文本 GPT-4 生成的图像指令数据微调,相对 GPT-4 达 85.1%,ScienceQA 达 92.53%。
LocateAnything 把整个检测框一步解出,而非逐位输出坐标,混合模式达每秒 12.7 个框,约为 Rex-Omni-3B 的 2.5 倍,3B 规模下领跑 COCO 与 LVIS。
AI 智能体 · Shanghai Jiao Tong University
MMSkills 把流程、状态卡、关键帧打包成可复用技能,在 OSWorld 上把 8B 小模型从 10.78% 翻倍到 25.40%,235B 模型从 21.34% 升到 39.17%。
MulTaBench 是含 40 个数据集的多模态表格基准,每个任务都须同时用上表格与图像/文本。核心结论:针对目标微调的嵌入,在所有学习器上都胜过冻结嵌入。
OpenSearch-VL 开源了数据、代码与权重,训练会调用真实搜索、OCR 和图像工具的视觉语言搜索智能体,30B-A3B 在七个基准上平均比 Qwen3-VL 基座提升 13.8 分。
多模态模型 · The University of Tokyo
MM-OCEAN 检验多模态大模型是否真用视频证据支撑性格评分。27 个模型里,51.3% 的「答对」评分依据的却是错误线索,最强模型也只有 33.5% 的判断真正落地到证据。
视觉-语言-动作 · Shanghai AI Laboratory
PhysBrain 1.0 把人类第一视角视频编译成物理问答预训练 VLM,再适配成机器人策略:真实 Franka 抓取 50 次试验从 47.1% 提到 63.3%(对比 pi0.5)。
阿里 Qwen-Image-2.0 把文生图与编辑统一进一个多模态扩散 Transformer,支持 1K token 指令排版海报,原生 2K 写实,并用 16 倍压缩 VAE 提速。
Qwen-VLA 给 Qwen 视觉-语言栈加上 DiT 动作解码器和「具身感知」提示,用单一模型同时做操作、导航与轨迹预测:LIBERO 97.9%、R2R OSR 69.0%。
RF 让统一多模态模型不再依赖冻结 VAE,RF-Pixel 先预测表征 token 再生成像素,GenEval 0.84,MMMU 比 VAE 版本高 4.3 分。
RLWRLD 与 KAIST 的 VLA,在 Qwen3-VL 上加运动、记忆与触觉三条流。抓飞行物体成功率 87.5%,基线 pi0.5 仅 29.2%。
SenseNova-U1 用一套共享注意力的网络同时做图像理解和图像生成,A3B 版在 MMMU 拿 80.55、GenEval 拿 0.91——一个会读也会画的模型。
Video2GUI 把 5 亿条无标注教程视频自动转成 WildGUI 数据集——1200 万条 GUI 交互轨迹,在其上预训练让多项 GUI 基准提升 5-20%。
多模态模型 · University of California, Davis
头部视频模型看似在听声音,实则靠画面猜。本文用 THUD 探针拆穿这一捷径,1 万样本的两阶段修复把音频理解平均拉高 28 个百分点。
WBench 用 289 个案例、1058 轮交互,从画质、设定、交互、一致性、物理五个维度评测交互式视频世界模型,结论是没有一个模型五项全赢。
OpenAI 的 Whisper 用 68 万小时网络音频训练单个序列到序列模型,零样本即可匹敌全监督系统,无需微调,并兼做翻译与语言识别。
CLIP 在 4 亿互联网图文对上训练图像与文本编码器,零样本就追平原始 ResNet-50 的 ImageNet 准确率,却完全没用它那 128 万张标注样本。
DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。
Gemini 1.5 Pro 与 Flash 在至少 1000 万 token 的文本、视频、音频里保持 99% 以上召回,且 Pro 用更少算力追平 Gemini 1.0 Ultra。
GPT-4 技术报告是一份成绩单,而非复现手册:多模态图文输入,模拟律师考试约前 10%,却不公开架构、数据与算力。