主题

长上下文

面向超长文本、音频、视频或代码上下文的模型与评测。

MemDreamer 把长视频问答变成在三层图记忆上的智能体检索,LVBench 从 78.2 升到 90.7(+12.5),推理只读约 6K token,不是 24 万到 78 万。

LCLM 把 0.6B 编码器和 4B 解码器联合训练,把长上下文压成软 token,支持 1:4、1:8、1:16,显著降低预填充显存和首 token 延迟,精度接近未压缩基线。

EvoArena 把静态智能体任务改造成演化链,当前智能体平均准确率只有 39.6%;EvoMem 用 patch memory 将链级准确率提高 3.7 点。

Kwai Keye-VL-2.0 是 30B-A3B 开放 MoE 多模态模型,支持 256K 上下文,在长视频、时间定位和代码智能体任务上表现突出。

MSA 让每个查询组只看 2048 个被选中的 KV token,在 1M 上下文报告 28.4 倍注意力 FLOPs 降低、14.2 倍 prefill 加速。

清华 LongTraceRL 从搜索智能体轨迹挖更难的干扰文档，再加实体级 rubric 奖励，让 Qwen3-4B 五个长上下文基准平均分从 53.3 涨到 59.0。

搜索智能体何时该屏蔽旧观察把搜索智能体上下文管理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

OVO-S-Bench:流式空间智能评测把流式空间智能变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

用神经索引器预测下一步要用哪些 KV 块、只留在显存里,FlashMemory-DeepSeek-V4 把物理 KV 缓存压到全量基线的 13.5%,准确率几乎不降。

RTPurbo 用两阶段各约 600 步,把训练好的全注意力大模型转成稀疏注意力,LongBench 54.24 反超 53.80,1M 上下文预填充提速 9.36 倍。

Ctx2Skill 用多智能体自博弈,无需人工标注或外部奖励,从长上下文中挖出自然语言技能,把 GPT-4.1 从 11.1% 提到 16.5%。

KVarN 用 Hadamard 旋转加双轴方差归一化,把 KV 缓存压到 2-bit 且无需标定数据,专治长推理解码中量化误差逐步放大的问题。

δ-mem 给冻结的大模型挂上一块仅 8×8 的 delta 规则在线记忆,长记忆平均分较原模型提升 1.10×、较其他记忆方法提升 1.15×,无需微调、不扩上下文。

Gemini 1.5 Pro 与 Flash 在至少 1000 万 token 的文本、视频、音频里保持 99% 以上召回,且 Pro 用更少算力追平 Gemini 1.0 Ultra。

Mamba 让状态空间模型参数随输入变化,按 token 选择记住或遗忘。它随长度线性扩展,推理吞吐是 Transformer 的 5 倍,3B 模型匹敌两倍参数 Transformer。