X-Stream：多路视频流为何让 MLLM 只拿 50 分

快速答案

X-Stream 提出了一个此前没人系统评测过的问题：多模态大模型（MLLM）能不能同时看好几路实时视频流，并在它们之间做跨流推理？答案很干脆：不能。在覆盖 932 段视频、4220 道精选 QA 的测试上，最强的 Gemini 3 Pro 总分只有 49.60%，而人类标注者拿到 91.84%。所有开源模型都落在 6%–34% 区间。

需要说一句实话：摘要里”约 50 分”的说法偏乐观，那 50 分只属于一个闭源旗舰，其余模型差得远。这篇论文真正的价值有两点。一是一个难以作弊的基准。二是一个干净的概念视角：把 MLLM 当作多路复用器（multiplexer），也就是信号处理里把多条信道塞进一根管道的那个部件。这个比喻把”模型不擅长一心多用”的模糊抱怨，变成了三种可量化、可对比的具体策略。

多路流为什么是另一类难题

单路视频理解已经成熟：给一段视频问一个问题，现代 MLLM 表现不错。但作者关心的真实场景都要求模型在线融合多路并发流：多机位直播体育、前后视角的自动驾驶、多屏协作、分屏游戏直播。现有基准从不测这一点。一个在单路视频上拿满分的模型，仍可能说不出”两路摄像头里，是哪一路的事件导致了另一路的结果”。

X-Stream 把场景分成三类：多窗口（分屏游戏、主播反应镜头）、多视角（前后行车记录、第一/第三人称视角）、多设备（街景加地图、仪表盘加路面摄像头）。任务难度分三级：5 个基础任务（视觉/音频/时序定位、计数、显著性）、5 个逻辑认知任务（3D 空间、反事实、因果、常识推理、异常检测），以及 1 个主动决策任务（行为规划与决策），共 11 个子任务。

复用视角是怎么工作的

借鉴信号复用理论，作者测试了把 N 路视频塞进单个 MLLM 上下文的三种方式：

空分复用（Spatial Division）：在像素层拼接画面（类似画中画）。它最能保留时序建模，跨流指代也最强。
时分复用（Time Division）：用共享时序嵌入按顺序喂入各路流。它在双流场景下最优。
语分复用（Semantic Division）：用 DPP（行列式点过程）核只保留 k 个最显著的 token。在 token 预算紧张、且流数达到 3 路以上时，它胜出。

一个诚实的结论：没有任何一种策略是放之四海皆准的最优解。哪种胜出，取决于 token 带宽和并发流的数量。这个结果比单纯宣称”我们的方法最好”更有用。它告诉工程师，这种取舍是结构性的，不是调参能抹平的。

基准内部：为什么难作弊

让 X-Stream 站得住脚的关键，是它的双重验证流水线。朴素的多流 QA 很容易被钻空子：一个写着”综合两路画面”的问题，往往单看一路就能答上来。作者用两道检查来过滤捷径题：充分性（答案必须能从目标流推出）和必要性（答案绝不能仅凭单路推出）。正是这种构造细节，把真正的基准和那些悄悄奖励”单流先验”的排行榜区分开来。

关键结果

Gemini 3 Pro 总分 49.60%，全场最高，但仍比人类（91.84%）低 42 个百分点。
GPT-5 27.78%，GPT-4o 22.46%：代际提升存在，但相对人类差距而言相当有限。
最强开源是 Qwen3-Omni-30B-A3B，34.28%，Qwen3-VL-30B 紧随其后（34.19%）。
专用流式模型反而最差：Dispider 15.44%、VideoLLM-online-8B 8.48%、MMDuet2 仅 6.79%。为在线视频量身打造的模型，并没准备好应对并发。
主动反应能力是真正的短板：多数模型在”主动（forward）“项上低于 21%，说明它们几乎不会在正确时机不被催促就开口。
最难的子任务是决策与因果推理，被称为”最棘手的瓶颈”：即便 Gemini 3 Pro，因果推理也只有 41.79%、决策 44.18%，而较简单的视觉定位有 66.72%。

局限与存疑

作者对天花板很坦诚。公开视频缺乏专业多机位设备那样的精度，所以部分场景是近似而非真值。音频复用仍很初级：策略主要为视觉流调优，声音只用简单手段处理。复用策略还难以在视频理解与时序推理之间取得平衡，看得最细的方法，未必是最会跟踪时间的方法。

一句怀疑者的提醒：X-Stream 是一份诊断书，不是解药。三种复用策略是评测脚手架，不是一个能补上差距的训练好的模型。而且 LLM-as-judge 打分与人类的 Spearman 相关只有 0.62（p < 0.05），属中等而非铁板钉钉，所以中游模型之间的小差距要松着看。如果你只做单路流应用，这个基准暂时还改变不了你的路线图。

常见问题

X-Stream 到底测的是什么？

X-Stream 是首个面向多路并发视频流理解的基准，测试 MLLM 能否在线观看并跨多路视频流做推理。它包含 4220 道 QA、932 段视频、11 个子任务和三类场景（多窗口、多视角、多设备）。

GPT-5 和 Gemini 3 Pro 在 X-Stream 上表现如何？

Gemini 3 Pro 以 49.60% 领先，GPT-5 为 27.78%，都远低于 91.84% 的人类基线。主动反应能力更差：多数模型低于 21%，说明它们很难在跨流的正确时机做出反应。

“把 MLLM 当多路复用器”是什么意思？

就是把模型看作信号复用器，必须把多路流打包进一个上下文。论文测试了空分、时分、语分三种复用策略，发现没有一种处处最优。胜出者取决于 token 预算和流数。