最新论文解读

Research Papers 最新 AI 研究论文解读,覆盖具身智能、大模型与会成为热点的科学前沿。

智能体记忆 · National University of Singapore

EvoArena:智能体记忆必须追踪环境变化

EvoArena 把静态智能体任务改造成演化链,当前智能体平均准确率只有 39.6%;EvoMem 用 patch memory 将链级准确率提高 3.7 点。

文生图 · The Chinese University of Hong Kong

InterleaveThinker:用智能体做分步图像生成

InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。

视觉-语言-动作 · Zhejiang University

LabVLA:面向科学实验室的VLA模型

LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。

定理证明 · MiniMax AI

MaxProof:MiniMax-M3如何做数学证明搜索

MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。

长上下文 · MiniMax AI

MiniMax Sparse Attention:百万上下文稀疏注意力

MSA 让每个查询组只看 2048 个被选中的 KV token,在 1M 上下文报告 28.4 倍注意力 FLOPs 降低、14.2 倍 prefill 加速。

AI 智能体 · NVIDIA

SpatialClaw:空间智能体为何需要Python工作区

SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。

AI 智能体 · Google DeepMind

From AGI to ASI:DeepMind的超智能路径图

Google DeepMind 报告梳理 AGI 到 ASI 的四条非互斥路径,并把数据墙、资源约束、监管等瓶颈视为开放研究问题。

AI 智能体 · Renmin University of China

Arbor:用假设树管理自主科研

Arbor 用持久假设树管理科研尝试,6 个 AO 任务 held-out 结果全胜,MLE-Bench Lite Any Medal 达 86.36%。

AI 智能体 · TokenRhythm Technologies

Claw-SWE-Bench:编码智能体不能只看模型

Claw-SWE-Bench 用 350 个 issue 测 coding-agent harness,完整 adapter 让 OpenClaw Pass@1 升至 73.4%。

专家混合 · Renmin University of China

Manifold Power Iteration:让 MoE 路由器更懂专家

MPI 让 MoE 路由行对齐专家权重的主奇异方向。11B MoE 平均 benchmark 准确率从 40.92 升到 42.76,训练只慢 0.2%。

多模态模型 · Kuaishou Technology

Kwai Keye-VL-2.0:开放长视频多模态模型

Kwai Keye-VL-2.0 是 30B-A3B 开放 MoE 多模态模型,支持 256K 上下文,在长视频、时间定位和代码智能体任务上表现突出。

世界模型 · Alibaba Qwen Team

ABot-Earth 0.5:从卫星图生成3D城市

ABot-Earth 0.5 用卫星图生成 3D Gaussian Splatting 城市场景,报告每平方公里 10 分钟内生成,FID 为 16.1。

世界模型 · JD.com (Joy Future Academy)

Echo-Memory：哪种记忆能让世界模型记住一个房间

镜头转回旧场景时，块状状态空间循环拿到 69.0 的开放域一致性分，无记忆基线只有 12.25；激进压缩与空间摘要几乎全军覆没。

AI 智能体 · Independent Researcher

SpatialWorld:交互式空间推理智能体

SpatialWorld:交互式空间推理智能体把交互式空间推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

长上下文 · Tencent

FlashMemory-DeepSeek-V4:KV 缓存压到 13.5%

用神经索引器预测下一步要用哪些 KV 块、只留在显存里,FlashMemory-DeepSeek-V4 把物理 KV 缓存压到全量基线的 13.5%,准确率几乎不降。

世界模型 · Microsoft Research

Mirage:潜空间记忆让视频世界模型快 10 倍

Mirage 把视频世界模型的 3D 记忆直接存进扩散潜空间,而非 RGB 点云,WorldScore 平均分 70.36 拿下 SOTA,端到端快 10.57 倍、显存省 55 倍。

视频生成 · Nanjing University

CoVEBench:视频编辑能否听懂复杂指令

CoVEBench:视频编辑能否听懂复杂指令把视频编辑复杂指令遵循变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

世界模型 · Independent Researcher

AnchorWorld:具身视角世界模拟

AnchorWorld:具身视角世界模拟把自我视角世界模拟变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

多模态模型 · Peking University

看、记、想:视频多模态大模型的人类视角综述

综述把长视频 MLLM 重构为「看-记-想」三种能力,对比 11 篇已有综述,梳理 100+ 方法与 5 个应用领域。

语音合成 · Independent Researcher

MMAE:大规模音频编辑基准论文详细解读

MMAE:大规模音频编辑基准把音频编辑评测变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Shanghai Jiao Tong University

SWE-Explore：编程智能体真能找对代码吗

SWE-Explore 单独考核代码探索：848 个 issue 上智能体远超 BM25（HitFile 0.65 对 0.08），但行级召回卡在 0.15-0.20，这才是真瓶颈。

微调与适配 · HKUST

在线策略蒸馏的几何:一种独立的参数更新模式

在线策略蒸馏并非介于 SFT 与 RLVR 之间,而是自成一套几何:它改动更少权重、避开主方向,并在训练早期就锁进一个狭窄低维子空间。

文本嵌入 · Renmin University of China

EmbFilter:把大模型的解嵌入矩阵当成特征透镜

EmbFilter 把解嵌入矩阵当透镜,剥掉文本嵌入里被高频废词占据的子空间,在不微调的前提下提升零样本检索并降维。

AI 智能体 · Independent Researcher

AdaPlanBench:测试智能体自适应规划

AdaPlanBench:测试智能体自适应规划把约束下的自适应规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

ArcANE:角色扮演智能体何时出戏

ArcANE:角色扮演智能体何时出戏把角色扮演语言智能体可靠性变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

文生图 · Independent Researcher

DIRECT:三维感知的对象插入

DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Shanghai Jiao Tong University

LatentSkill：把智能体技能烧进 LoRA 权重，而非塞进提示词

超网络一次前向就把文本技能编译成 LoRA。ALFWorld 成功率涨 21.4 分，prefill token 省 64.1%。

AI 智能体 · Lehigh University

OpenSkill:无监督下的自进化 LLM 智能体

OpenSkill 让智能体从开放网络自建技能与验证器,SkillsBench 上达 43.6%(+8.9),全程不碰目标任务答案。

AI 智能体 · Independent Researcher

SoCRATES:主动式 LLM 调解评测

SoCRATES:主动式 LLM 调解评测把主动调解智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

ToolMaze:工具失败后的智能体重规划

ToolMaze:工具失败后的智能体重规划把工具失败后的动态重规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

代码生成 · University of Waterloo

Code2LoRA:用超网络为代码模型生成仓库专属 LoRA

Code2LoRA 用超网络为代码模型生成仓库专属 LoRA 适配器,推理时零额外 token,精确匹配达仓库内 66.2%、跨仓库 63.8%,Evo 版还随 diff 增量更新。

视觉-语言-动作 · ETH Zurich

机器人不止需要 VLA 和世界模型:四个缺失的接口

来自 ETH、斯坦福、TU Darmstadt 与 IIT 的立场论文主张:堆大 VLA 和世界模型不够,机器人真正缺的是把无标注人类与视频行为转成可训练监督信号的四个数据接口。

AI 智能体 · UC Berkeley

Agents' Last Exam:AI智能体终极考试

ALE 用 1490 个专家构建的专业任务测试智能体,覆盖 55 个数字行业,最难档平均完整通过率只有 2.6%。

强化学习 · Tsinghua University

CHERRL:把 Rubric RL 的奖励黑客变成可复现实验

CHERRL 主动给裁判注入四类已知偏见,让奖励黑客稳定复现;只读训练日志的检测 agent 把六次实验的起点定位区间误差合计压到 11 步,零漏检。

AI 智能体 · HKUST

StreamMA：多智能体推理里，边写边传比等完再传更聪明

StreamMA 让智能体生成一步推理就立刻流式传给下游，而不是等整条链写完。8 个基准平均涨 7.3 个百分点（HMMT 2026 最高 +22.4），并行场景最快提速 26.9 倍。

AI 智能体 · Independent Researcher

TIDE:模板引导的主动发现问题

TIDE:模板引导的主动发现问题把主动式问题发现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

多模态模型 · Independent Researcher

VideoKR:知识密集型视频理解

VideoKR:知识密集型视频理解把视频理解中的知识与推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

视频生成 · HKUST

Echo-Infinity:可学习演化记忆,实时无限视频生成

Echo-Infinity 用可学习演化记忆以恒定成本压缩任意长度历史,单张 H100 上 18.5 FPS 实现 24 小时(超 130 万帧)实时生成。

多模态模型 · Skywork AI

Audio Interaction Model:会自己决定何时开口的流式音频大模型

Audio Interaction Model 用「感知-决策-响应」循环,让音频大模型边听边判断要不要回、何时回并即时作答;基于 StreamAudio-2M 训练,8 个基准有竞争力。

生物分子建模 · AIRI

GENEB:为什么基因组基础模型这么难比较

GENEB 用统一探针协议,在 13 类共 100 个任务上评测 40 个基因组基础模型的冻结表征,发现排名跨类别剧烈翻转,堆参数只换来微弱且不稳定的提升。

多模态模型 · Shanghai AI Laboratory

OVO-S-Bench:流式空间智能评测

OVO-S-Bench:流式空间智能评测把流式空间智能变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

大模型推理 · Shanghai AI Laboratory

ThoughtFold:推理链砍掉 56% token 而不掉点

ThoughtFold 用掩码偏好学习,把 DeepSeek-R1-Distill-Qwen-7B 的冗余推理平均压掉约 56% 的 token,准确率基本不变。

世界模型 · University of Macau

PF-OPSD：多模态大模型该何时信任世界模型的视频

PF-OPSD 训练 Qwen3.5-9B 学会判断何时调用视频世界模型、如何核验生成画面，并在两个新基准上把准确率分别提升 10.6 和 10.9 个百分点。

机器人 · Tsinghua University

Humanoid-GPT:GPT 式 Transformer 做人形动作跟踪

在 20 亿帧动作语料(比此前大 200 倍)上,从约 384 个 PPO 专家蒸馏出因果 Transformer。仿真成功率 92.58 percent,单步推理低于 1.5ms。

语言模型 · Google Research

大模型也需要睡眠:离线巩固加做梦改写权重

谷歌研究院提出离线睡眠阶段,把短期上下文写回权重。加上睡眠后 Qwen3-8B 在 AIME-24 拿 79.2%,ARC 小样本达 80%。

文生图 · Alibaba Qwen Team

Qwen-Image-Flash:蒸馏不只看目标函数

Qwen-Image-Flash 把 Qwen-Image-2.0 蒸馏到 4 步,同时做文生图和图像编辑。阿里 Qwen 发现:训练配方——数据、教师、任务比例——和蒸馏目标函数同样关键。

多模态模型 · University of Washington

想象式感知标记:让多模态模型「画出」空间而非「描述」空间

想象式感知标记(IPT)训练视觉语言模型渲染出它在另一视角下会看到的画面,再据此推理,而非用文字思考。多视角计数提升 3.4%,路径追踪比肩闭源模型,而文本思维链有时反而拖后腿。

高效 AI · Huawei

KVarN:免标定的 2-bit KV 缓存量化

KVarN 用 Hadamard 旋转加双轴方差归一化,把 KV 缓存压到 2-bit 且无需标定数据,专治长推理解码中量化误差逐步放大的问题。

AI 智能体 · Nanjing University

DRIFT:精准定位深度研究 Agent 错在哪一步

TELBench 让模型在十余步的研究轨迹里找出坏掉的那一段。DRIFT 用主张对证据的审计法,把 span 级宏 F1 推到 54.91%,比直接喂原始轨迹最高高出 30 个百分点。

AI 智能体 · University of Illinois Urbana-Champaign

Harness-1：把搜索智能体的记账活儿搬出策略

Harness-1 是个 20B 的 RL 搜索智能体，把工作记忆交给环境维护，平均策展召回 0.730，比最强开源子智能体高 11.4 分。

AI 智能体 · Independent Researcher

K-BrowseComp:韩语网页智能体基准

K-BrowseComp:韩语网页智能体基准把韩语语境网页浏览智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

强化学习 · Tianjin University

多域 RL 为何会遗忘，一次数学复习就能治好

按数学→代码→问答→写作顺序做 RL 后训练，数学从峰值 66.49 跌到 57.66，可梯度看上去却是正交的。末尾补一段短数学复习，数学回到 66.04，其余三域几乎不动。

视频生成 · Kuaishou Technology

让 VLM 当老师：测试时优化撬动视频推理

不让视频模型自己硬推，而是让 VLM 给中间帧打分、逐样本微调一个 LoRA。RULER-Bench 从 46.4 拉到 68.2。

多模态模型 · The Chinese University of Hong Kong

X-Stream：多路视频流为何让 MLLM 只拿 50 分

X-Stream 是首个多路并发视频流理解基准。最强的 Gemini 3 Pro 仅 49.6%，人类却有 91.84%，主动反应能力更跌破 21%。

多模态模型 · NVIDIA

Cosmos 3 解读:英伟达面向具身智能的全模态世界模型

Cosmos 3 把语言、图像、视频、音频、机器人动作塞进一个混合 Transformer 模型,英伟达称它在文生图、图生视频以及 RoboArena 策略榜上都拿到开源第一。

微调与适配 · Mind Lab

PEFT 的规模化:在一个底座上跑百万个人模型

立场论文,把 LoRA 式适配器重新定义为持久的个人状态,而非全量微调的廉价替身,给出做大、做小、做宽三条轴线,配套名为 MinT 的服务系统。

AI 智能体 · Ant Group

SkillAdaptor:让 LLM 智能体自己改写技能库

SkillAdaptor 不动模型权重,只从失败轨迹里改写技能库,WebShop 分数 +2.3、PinchBench +1.5,提升真实但有限。

机器人 · Independent Researcher

TVRBench:模型能否移动到目标视角

TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

大模型推理 · Samsung Research

TrOPD:面向小模型的信任域在线策略蒸馏

TrOPD 只在教师真正可信的 token 上做在线策略蒸馏,在数学、代码、STEM 上比标准 OPD 平均高出 3.06 到 3.52 分。

检索增强生成 · AIRI

OCC-RAG:只为忠实读上下文而生的小模型

OCC-RAG 是 0.6B 与 1.7B 的两个推理小模型,只依据给定上下文作答、答不出就拒答,在多跳问答上追平甚至超过体量 2-6 倍的通用模型。

世界模型 · Independent Researcher

Function2Scene:按功能生成室内三维布局

Function2Scene:按功能生成室内三维布局把功能驱动三维场景布局变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

扩散模型 · The Hong Kong Polytechnic University

GGT-100K:图像修复的生成式真值

GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

长上下文 · Tsinghua University

LongTraceRL：用搜索智能体轨迹做长上下文推理强化学习

清华 LongTraceRL 从搜索智能体轨迹挖更难的干扰文档，再加实体级 rubric 奖励，让 Qwen3-4B 五个长上下文基准平均分从 53.3 涨到 59.0。

AI 智能体 · Independent Researcher

搜索智能体何时该屏蔽旧观察论文详细解读

搜索智能体何时该屏蔽旧观察把搜索智能体上下文管理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

强化学习 · University of Edinburgh

SCOPE：让大模型在开放任务上自博弈进化

SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化，靠一份冻结的自评委打分，八个开放基准最高提升 +10.4 分，且不用任何人工标注的提示。

语音合成 · Zhejiang University

SwanSphere：从视频和文本流式生成空间音频

SwanSphere 流式生成与视频/文本同步的一阶环绕声，首块仅 0.21 秒出声，Frechet 距离压到 120.28（OmniAudio 为 157.67），质量与实时兼得。

智能体记忆 · ByteDance

TaskMem：教视频智能体学会该记住什么

TaskMem 用强化学习训练多模态智能体自己写记忆，在流式视频问答上把 VideoMME 准确率提到 67.9%，比 Qwen3-VL-30B 基线高出 6.3 个点。

专家混合 · National University of Singapore

dMoE：扩散语言模型的块级专家路由

dMoE 让 MoE 路由对齐扩散 LLM 的块级并行解码：在 LLaDA2.0-mini 上把每块唯一专家从 69.5 降到 14.6，保留 99.11% 精度，专家显存省 76-80%。

AI 智能体 · Shanghai AI Laboratory

COLLEAGUE.SKILL:把一个人的专长蒸馏成可移植 AI 技能

COLLEAGUE.SKILL 把一个人零散的工作痕迹蒸馏成带版本、可审查的技能包,分能力与受限行为两条轨道,任何 agent 都能安装、纠正、回滚。开源系统报告约 1.85 万 star。

代码生成 · JetBrains

Mellum 2:跑在 2.5B 算力上的 12B 代码 MoE 模型

JetBrains 开源代码模型 Mellum 2:总参 12B、每 token 仅激活 2.5B 的混合专家,在软件任务上对标 4B-14B 稠密模型,算力却只够 2.5B。

多模态模型 · ByteDance

Representation Forcing:扔掉 VAE 的统一多模态模型

RF 让统一多模态模型不再依赖冻结 VAE,RF-Pixel 先预测表征 token 再生成像素,GenEval 0.84,MMMU 比 VAE 版本高 4.3 分。

语音合成 · ByteDance

SwanVoice:面向长篇独白与对话的零样本语音合成

SwanVoice 一次性生成整段 1-4 人对话,跨轮保持音色、情绪、韵律一致,补上逐轮合成的拼接感,代价是内容准确率仍是最弱环节。

微调与适配 · T-Tech

信赖域行为混合 TRB:给在线策略蒸馏的热身修补

在线策略蒸馏会把教师监督浪费在学生早期的烂 rollout 上。TRB 在热身阶段于 KL 信赖域内混入接近教师的行为策略,再把预算退火到零——两个数学推理设置上拿到最强平均成绩。

语言模型 · Independent Researcher

WASH:平均 3 个大模型就能洗掉文本水印

把 3 个独立大模型的输出分布做平均,水印检测 z 分数从 5-304 直接掉到 2 以下,WASH 还给出了 O(1/根号N) 的误差证明。

AI 智能体 · Shanghai AI Laboratory

ResearchClawBench:自主科研智能体基准

ResearchClawBench:自主科研智能体基准把端到端自主科研智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Xiamen University

SAAS:教搜索智能体何时该停手

SAAS 用自我感知强化学习,把 Qwen2.5-7B 搜索智能体的平均检索次数从 2.19 降到 0.97,准确率仍贴近最优基线(48.7% vs 49.8%)。

高效 AI · Shanghai AI Laboratory

Draft-OPD：在线策略蒸馏把投机解码推过 5 倍

Draft-OPD 让草稿模型在自身起草的状态上训练。Qwen3 思考模型加速 4.86 到 4.89 倍，比 EAGLE-3 高 23%、DFlash 高 13%，且无损。

视频生成 · NVIDIA

SANA-Streaming：单张 RTX 5090 上 24 FPS 实时视频编辑

SANA-Streaming 在单张 RTX 5090 上 24 FPS 端到端实时编辑 1280x704 视频，DiT 核心达 58 FPS，靠混合 DiT 与循环反向正则化保证时序一致。

视频生成 · Virginia Tech

VideoMLA:低秩潜在 KV 缓存做分钟级视频扩散

VideoMLA 把多头潜在注意力搬进因果视频扩散,单 token KV 显存砍 92.7%(224 对 3,072 标量),VBench 60s 夺冠,B200 吞吐提升 1.23 倍。

多模态模型 · Meta AI

VLM3：视觉语言模型天生就是 3D 学习者

VLM3 证明一个标准 4B 视觉语言模型无需 3D 专用架构就能比肩专家模型：深度精度 0.904、相机位姿 AUC 94.0%、物体级 3D 精度 91.35%。

AI 智能体 · Shanghai AI Laboratory

AgentDoG 1.5:轻量可扩展的 AI 智能体安全护栏

AgentDoG 1.5 仅用约 1k 样本训练 0.8B-8B 智能体安全护栏,4B 版在 R-Judge 上拿到 92.2% 准确率,逼近 GPT-5.4,部署开销砍掉两个数量级。

多模态模型 · University of Illinois Urbana-Champaign

Crafter:多智能体协作生成可编辑科研图表

Crafter 给图像模型套上五个协作智能体,PaperBanana-Bench 拿到 50.34 分,而同款底座单跑只有 11.13;CraftEditor 再把位图转成可编辑 SVG。

高效 AI · Shanghai Jiao Tong University

Domino:把投机解码的草稿与因果修正拆开

Domino 让并行草稿器一次性提出整块 token,再用一个轻量头补回 token 之间的因果依赖,Transformers 下加速最高 5.49 倍,SGLang 吞吐最高 5.8 倍。

检索增强生成 · University of Massachusetts Amherst

GrepSeek:让搜索智能体直接 grep 语料库,而非查向量索引

GrepSeek 训练大模型用 grep 等 shell 命令直接搜原始语料、不建嵌入索引,在七个开放域问答基准上拿到最佳 F1 与精确匹配,检索最高提速 7.6 倍。

视觉-语言-动作 · Alibaba Qwen Team

Qwen-VLA:用一个模型统一操作、导航与轨迹预测

Qwen-VLA 给 Qwen 视觉-语言栈加上 DiT 动作解码器和「具身感知」提示,用单一模型同时做操作、导航与轨迹预测:LIBERO 97.9%、R2R OSR 69.0%。

语音合成 · Independent Researcher

长语音生成的综合基准论文详细解读

长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AI 智能体 · Independent Researcher

TASTE:从工具序列生成智能体难题

TASTE:从工具序列生成智能体难题把工具调用基准生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

世界模型 · NVIDIA

Gamma-World：突破两人上限的多智能体世界模型

英伟达的多人交互视频世界模型，蒸馏后以 24 FPS 实时推理，从两人到四人无需重新训练，FVD 较 Solaris 几乎砍半。

微调与适配 · The Hong Kong Polytechnic University

Token 可教性：只监督 5% token 蒸馏大模型

TA-OPD 只监督教师修正落在学生 top-K 支撑集内的约 5% token，效果常追平甚至超过全 token 在线蒸馏（Qwen3-4B 蒸 1.7B：44.89 对 42.37）。

多模态模型 · NVIDIA

LocateAnything:并行框解码让视觉定位更快

LocateAnything 把整个检测框一步解出,而非逐位输出坐标,混合模式达每秒 12.7 个框,约为 Rex-Omni-3B 的 2.5 倍,3B 规模下领跑 COCO 与 LVIS。

大模型推理 · Alibaba Qwen Team

DVAO:按方差自适应加权的多奖励强化学习

DVAO 按各奖励在组内的方差自适应加权,而非固定系数,在 Qwen3-4B-Base 上把平均准确率从 38.99% 提到 42.19%,长度合规率从 96.39% 拉到 99.91%。

世界模型 · Fudan University

WBench:交互式视频世界模型的多轮评测基准

WBench 用 289 个案例、1058 轮交互,从画质、设定、交互、一致性、物理五个维度评测交互式视频世界模型,结论是没有一个模型五项全赢。

语言模型 · Xiaohongshu

NITP:预测下一个 token 的语义,而非只是它的 ID

NITP 在标准 NTP 之外加了一个稠密的表征监督:让模型预测下一个 token 的浅层表征。9B MoE 上 MMLU-Pro 提升 5.71 分,只多约 2% 训练算力,推理零开销。

脑解码 · MIT

BrainCause:在大脑中找出因果性的视觉表征

BrainCause 用文生图模型加 fMRI 编码器对脑区做因果检验,在 260 个视觉概念上把定位假阳性从 73.4% 压到 23%。

AI 智能体 · Microsoft Research

SkillOpt:把冻结智能体的技能文本当模型来训

SkillOpt 不动模型权重,只训练一份自然语言技能文档:靠有界增删改、文本学习率和留出验证门,把 GPT-5.5 在直聊场景六个基准上平均拉高 +23.5 分。

定理证明 · Google DeepMind

AI 形式化证明搜索能解开放数学题吗

这项工作把 AI 形式化证明搜索放到开放数学题上评测:最强 agent 解出 353 个 Erdos 问题中的 9 个,证明 492 个 OEIS 猜想中的 44 个。

多模态模型 · The University of Tokyo

感知还是偏见:多模态大模型能看穿性格的第一印象吗?

MM-OCEAN 检验多模态大模型是否真用视频证据支撑性格评分。27 个模型里,51.3% 的「答对」评分依据的却是错误线索,最强模型也只有 33.5% 的判断真正落地到证据。

语言模型 · Alibaba Qwen Team

TransitLM:无地图公交路线生成的大规模数据集与基准

TransitLM 收录四座中国城市 1300 万条规划记录,让语言模型脱离地图引擎直接规划公交路线,4B 模型在最优路线上达 97.0% 连通性、71.0% 完全匹配。

大模型推理 · Renmin University of China

DelTA:面向可验证奖励强化学习的判别式 Token 信用分配

DelTA 把 RLVR 更新重加权,让信用落在真正能区分对错的 token 上,使 Qwen3-8B-Base 平均提升 3.26 分、Qwen3-14B-Base 提升 2.62 分。

高效 AI · Sapient Intelligence

HRM-Text：1500 美元从零训练 10 亿参数模型

HRM-Text 用约 1500 美元、仅 400 亿 token 从零训出 10 亿参数模型，MMLU 60.7%、GSM8K 84.5%、MATH 56.2%，靠层级循环架构而非堆算力。