主题

多模态模型

把语言与图像、音频、视频或其他信号结合的基础模型。

文生图 · The Chinese University of Hong Kong

InterleaveThinker:用智能体做分步图像生成

InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。

多模态模型 · Kuaishou Technology

Kwai Keye-VL-2.0:开放长视频多模态模型

Kwai Keye-VL-2.0 是 30B-A3B 开放 MoE 多模态模型,支持 256K 上下文,在长视频、时间定位和代码智能体任务上表现突出。

AI 智能体 · NVIDIA

SpatialClaw:空间智能体为何需要Python工作区

SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。

视频生成 · Nanjing University

CoVEBench:视频编辑能否听懂复杂指令

CoVEBench:视频编辑能否听懂复杂指令把视频编辑复杂指令遵循变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

世界模型 · Independent Researcher

Function2Scene:按功能生成室内三维布局

Function2Scene:按功能生成室内三维布局把功能驱动三维场景布局变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

多模态模型 · Peking University

看、记、想:视频多模态大模型的人类视角综述

综述把长视频 MLLM 重构为「看-记-想」三种能力,对比 11 篇已有综述,梳理 100+ 方法与 5 个应用领域。

语音合成 · Independent Researcher

长语音生成的综合基准论文详细解读

长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

语音合成 · Independent Researcher

MMAE:大规模音频编辑基准论文详细解读

MMAE:大规模音频编辑基准把音频编辑评测变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

多模态模型 · Shanghai AI Laboratory

OVO-S-Bench:流式空间智能评测

OVO-S-Bench:流式空间智能评测把流式空间智能变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

SpatialWorld:交互式空间推理智能体

SpatialWorld:交互式空间推理智能体把交互式空间推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

语音合成 · Zhejiang University

SwanSphere：从视频和文本流式生成空间音频

SwanSphere 流式生成与视频/文本同步的一阶环绕声，首块仅 0.21 秒出声，Frechet 距离压到 120.28（OmniAudio 为 157.67），质量与实时兼得。

智能体记忆 · ByteDance

TaskMem：教视频智能体学会该记住什么

TaskMem 用强化学习训练多模态智能体自己写记忆，在流式视频问答上把 VideoMME 准确率提到 67.9%，比 Qwen3-VL-30B 基线高出 6.3 个点。

多模态模型 · Independent Researcher

VideoKR:知识密集型视频理解

VideoKR:知识密集型视频理解把视频理解中的知识与推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

视频生成 · Kuaishou Technology

让 VLM 当老师：测试时优化撬动视频推理

不让视频模型自己硬推，而是让 VLM 给中间帧打分、逐样本微调一个 LoRA。RULER-Bench 从 46.4 拉到 68.2。

世界模型 · University of Macau

PF-OPSD：多模态大模型该何时信任世界模型的视频

PF-OPSD 训练 Qwen3.5-9B 学会判断何时调用视频世界模型、如何核验生成画面，并在两个新基准上把准确率分别提升 10.6 和 10.9 个百分点。

多模态模型 · The Chinese University of Hong Kong

X-Stream：多路视频流为何让 MLLM 只拿 50 分

X-Stream 是首个多路并发视频流理解基准。最强的 Gemini 3 Pro 仅 49.6%，人类却有 91.84%，主动反应能力更跌破 21%。

多模态模型 · Meta AI

VLM3：视觉语言模型天生就是 3D 学习者

VLM3 证明一个标准 4B 视觉语言模型无需 3D 专用架构就能比肩专家模型：深度精度 0.904、相机位姿 AUC 94.0%、物体级 3D 精度 91.35%。

多模态模型 · Skywork AI

Audio Interaction Model:会自己决定何时开口的流式音频大模型

Audio Interaction Model 用「感知-决策-响应」循环,让音频大模型边听边判断要不要回、何时回并即时作答;基于 StreamAudio-2M 训练,8 个基准有竞争力。

多模态模型 · Shanghai AI Laboratory

CiteVQA:专抓文档 AI「答对却引错证据」的基准

CiteVQA 要求文档问答模型在给答案时同时框出证据位置,答案与引用一起打分。最强的 Gemini-3.1-Pro-Preview 严格归因准确率仅 76.0,最佳开源模型只有 22.5。

多模态模型 · NVIDIA

Cosmos 3 解读:英伟达面向具身智能的全模态世界模型

Cosmos 3 把语言、图像、视频、音频、机器人动作塞进一个混合 Transformer 模型,英伟达称它在文生图、图生视频以及 RoboArena 策略榜上都拿到开源第一。

多模态模型 · University of Illinois Urbana-Champaign

Crafter:多智能体协作生成可编辑科研图表

Crafter 给图像模型套上五个协作智能体,PaperBanana-Bench 拿到 50.34 分,而同款底座单跑只有 11.13;CraftEditor 再把位图转成可编辑 SVG。

多模态模型 · Google DeepMind

Flamingo：面向少样本学习的视觉语言模型

Flamingo 冻结视觉编码器和语言模型，只训练中间的跨注意力桥接层，靠提示里的几个示例就能上手新的图像和视频任务，无需微调。

文生图 · Google Research

Imagen：冻结文本编码器为何胜过更大的图像模型

Google 的 Imagen 在未训练 COCO 的情况下取得 7.27 的 COCO FID，并发现扩展冻结的 T5-XXL 文本编码器，比扩展扩散模型本身更能提升画质与文图对齐。

多模态模型 · University of Washington

想象式感知标记:让多模态模型「画出」空间而非「描述」空间

想象式感知标记(IPT)训练视觉语言模型渲染出它在另一视角下会看到的画面,再据此推理,而非用文字思考。多视角计数提升 3.4%,路径追踪比肩闭源模型,而文本思维链有时反而拖后腿。

多模态模型 · Microsoft Research

LLaVA 解读:视觉指令微调如何造出会看图的对话模型

LLaVA 用一层线性投影把 CLIP 编码器接到 Vicuna,再用纯文本 GPT-4 生成的图像指令数据微调,相对 GPT-4 达 85.1%,ScienceQA 达 92.53%。

多模态模型 · NVIDIA

LocateAnything:并行框解码让视觉定位更快

LocateAnything 把整个检测框一步解出,而非逐位输出坐标,混合模式达每秒 12.7 个框,约为 Rex-Omni-3B 的 2.5 倍,3B 规模下领跑 COCO 与 LVIS。

AI 智能体 · Shanghai Jiao Tong University

MMSkills:给通用视觉智能体的多模态技能包

MMSkills 把流程、状态卡、关键帧打包成可复用技能,在 OSWorld 上把 8B 小模型从 10.78% 翻倍到 25.40%,235B 模型从 21.34% 升到 39.17%。

多模态模型 · NVIDIA

MulTaBench:40 个数据集的多模态表格学习基准

MulTaBench 是含 40 个数据集的多模态表格基准,每个任务都须同时用上表格与图像/文本。核心结论:针对目标微调的嵌入,在所有学习器上都胜过冻结嵌入。

多模态模型 · Sea AI Lab

OpenSearch-VL:多模态搜索智能体的开源配方

OpenSearch-VL 开源了数据、代码与权重,训练会调用真实搜索、OCR 和图像工具的视觉语言搜索智能体,30B-A3B 在七个基准上平均比 Qwen3-VL 基座提升 13.8 分。

多模态模型 · The University of Tokyo

感知还是偏见:多模态大模型能看穿性格的第一印象吗?

MM-OCEAN 检验多模态大模型是否真用视频证据支撑性格评分。27 个模型里,51.3% 的「答对」评分依据的却是错误线索,最强模型也只有 33.5% 的判断真正落地到证据。

视觉-语言-动作 · Shanghai AI Laboratory

PhysBrain 1.0:把人类视频编译成机器人的物理先验

PhysBrain 1.0 把人类第一视角视频编译成物理问答预训练 VLM,再适配成机器人策略:真实 Franka 抓取 50 次试验从 47.1% 提到 63.3%(对比 pi0.5)。

文生图 · Alibaba Qwen Team

Qwen-Image-2.0:生成与编辑统一的图像大模型

阿里 Qwen-Image-2.0 把文生图与编辑统一进一个多模态扩散 Transformer,支持 1K token 指令排版海报,原生 2K 写实,并用 16 倍压缩 VAE 提速。

视觉-语言-动作 · Alibaba Qwen Team

Qwen-VLA:用一个模型统一操作、导航与轨迹预测

Qwen-VLA 给 Qwen 视觉-语言栈加上 DiT 动作解码器和「具身感知」提示,用单一模型同时做操作、导航与轨迹预测:LIBERO 97.9%、R2R OSR 69.0%。

多模态模型 · ByteDance

Representation Forcing:扔掉 VAE 的统一多模态模型

RF 让统一多模态模型不再依赖冻结 VAE,RF-Pixel 先预测表征 token 再生成像素,GenEval 0.84,MMMU 比 VAE 版本高 4.3 分。

视觉-语言-动作 · RLWRLD

RLDX-1:多流视觉-语言-动作模型,专攻灵巧机器人

RLWRLD 与 KAIST 的 VLA,在 Qwen3-VL 上加运动、记忆与触觉三条流。抓飞行物体成功率 87.5%,基线 pi0.5 仅 29.2%。

多模态模型 · SenseTime

SenseNova-U1:一个模型同时做多模态理解与生成

SenseNova-U1 用一套共享注意力的网络同时做图像理解和图像生成,A3B 版在 MMMU 拿 80.55、GenEval 拿 0.91——一个会读也会画的模型。

AI 智能体 · Peking University

Video2GUI：从互联网视频里挖出 1200 万条 GUI 智能体轨迹

Video2GUI 把 5 亿条无标注教程视频自动转成 WildGUI 数据集——1200 万条 GUI 交互轨迹，在其上预训练让多项 GUI 基准提升 5-20%。

多模态模型 · University of California, Davis

当视觉替声音作答:音视频模型的「聪明汉斯」效应

头部视频模型看似在听声音,实则靠画面猜。本文用 THUD 探针拆穿这一捷径,1 万样本的两阶段修复把音频理解平均拉高 28 个百分点。

世界模型 · Fudan University

WBench:交互式视频世界模型的多轮评测基准

WBench 用 289 个案例、1058 轮交互,从画质、设定、交互、一致性、物理五个维度评测交互式视频世界模型,结论是没有一个模型五项全赢。

语音识别 · OpenAI

Whisper：68 万小时弱监督训练稳健语音识别

OpenAI 的 Whisper 用 68 万小时网络音频训练单个序列到序列模型，零样本即可匹敌全监督系统，无需微调，并兼做翻译与语言识别。

多模态模型 · OpenAI

CLIP:用自然语言监督学习视觉模型

CLIP 在 4 亿互联网图文对上训练图像与文本编码器,零样本就追平原始 ResNet-50 的 ImageNet 准确率,却完全没用它那 128 万张标注样本。

文生图 · OpenAI

DALL·E 2(unCLIP):用 CLIP 图像潜变量生成图像

DALL·E 2 在论文里叫 unCLIP:先用 prior 把文本变成 CLIP 图像嵌入,再用扩散解码器渲染成图——几乎不损失真实感和文本匹配度,就换来了更高的多样性。

长上下文 · Google DeepMind

Gemini 1.5:千万 token 上下文里仍能近乎完美召回

Gemini 1.5 Pro 与 Flash 在至少 1000 万 token 的文本、视频、音频里保持 99% 以上召回,且 Pro 用更少算力追平 Gemini 1.0 Ultra。

多模态模型 · OpenAI

GPT-4 技术报告解读:只给分数,不给配方

GPT-4 技术报告是一份成绩单,而非复现手册:多模态图文输入,模拟律师考试约前 10%,却不公开架构、数据与算力。