智能体记忆 · National University of Singapore
EvoArena:智能体记忆必须追踪环境变化
EvoArena 把静态智能体任务改造成演化链,当前智能体平均准确率只有 39.6%;EvoMem 用 patch memory 将链级准确率提高 3.7 点。
最新
Research Papers 最新 AI 研究论文解读,覆盖具身智能、大模型与会成为热点的科学前沿。
智能体记忆 · National University of Singapore
EvoArena 把静态智能体任务改造成演化链,当前智能体平均准确率只有 39.6%;EvoMem 用 patch memory 将链级准确率提高 3.7 点。
文生图 · The Chinese University of Hong Kong
InterleaveThinker 给冻结图像生成器加 Planner 和 Critic,UEval 达到 66.3/67.2,WISE 从 0.47 提到 0.73。
视觉-语言-动作 · Zhejiang University
LabVLA 用实验室工作流数据训练 Qwen3-VL-4B 加 DiT 动作专家,在 LabUtopia 上达到 71.1% ID 和 70.0% OOD 成功率。
MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。
MSA 让每个查询组只看 2048 个被选中的 KV token,在 1M 上下文报告 28.4 倍注意力 FLOPs 降低、14.2 倍 prefill 加速。
SpatialClaw 用持久 Python kernel 替代僵硬工具调用,在 20 个空间推理基准上达到 59.9% 平均准确率,比近期 spatial agent 高 11.2 点。
Google DeepMind 报告梳理 AGI 到 ASI 的四条非互斥路径,并把数据墙、资源约束、监管等瓶颈视为开放研究问题。
AI 智能体 · Renmin University of China
Arbor 用持久假设树管理科研尝试,6 个 AO 任务 held-out 结果全胜,MLE-Bench Lite Any Medal 达 86.36%。
AI 智能体 · TokenRhythm Technologies
Claw-SWE-Bench 用 350 个 issue 测 coding-agent harness,完整 adapter 让 OpenClaw Pass@1 升至 73.4%。
专家混合 · Renmin University of China
MPI 让 MoE 路由行对齐专家权重的主奇异方向。11B MoE 平均 benchmark 准确率从 40.92 升到 42.76,训练只慢 0.2%。
Kwai Keye-VL-2.0 是 30B-A3B 开放 MoE 多模态模型,支持 256K 上下文,在长视频、时间定位和代码智能体任务上表现突出。
ABot-Earth 0.5 用卫星图生成 3D Gaussian Splatting 城市场景,报告每平方公里 10 分钟内生成,FID 为 16.1。
世界模型 · JD.com (Joy Future Academy)
镜头转回旧场景时,块状状态空间循环拿到 69.0 的开放域一致性分,无记忆基线只有 12.25;激进压缩与空间摘要几乎全军覆没。
AI 智能体 · Independent Researcher
SpatialWorld:交互式空间推理智能体把交互式空间推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
用神经索引器预测下一步要用哪些 KV 块、只留在显存里,FlashMemory-DeepSeek-V4 把物理 KV 缓存压到全量基线的 13.5%,准确率几乎不降。
Mirage 把视频世界模型的 3D 记忆直接存进扩散潜空间,而非 RGB 点云,WorldScore 平均分 70.36 拿下 SOTA,端到端快 10.57 倍、显存省 55 倍。
CoVEBench:视频编辑能否听懂复杂指令把视频编辑复杂指令遵循变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
AnchorWorld:具身视角世界模拟把自我视角世界模拟变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
综述把长视频 MLLM 重构为「看-记-想」三种能力,对比 11 篇已有综述,梳理 100+ 方法与 5 个应用领域。
MMAE:大规模音频编辑基准把音频编辑评测变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
AI 智能体 · Shanghai Jiao Tong University
SWE-Explore 单独考核代码探索:848 个 issue 上智能体远超 BM25(HitFile 0.65 对 0.08),但行级召回卡在 0.15-0.20,这才是真瓶颈。
在线策略蒸馏并非介于 SFT 与 RLVR 之间,而是自成一套几何:它改动更少权重、避开主方向,并在训练早期就锁进一个狭窄低维子空间。
文本嵌入 · Renmin University of China
EmbFilter 把解嵌入矩阵当透镜,剥掉文本嵌入里被高频废词占据的子空间,在不微调的前提下提升零样本检索并降维。
AI 智能体 · Independent Researcher
AdaPlanBench:测试智能体自适应规划把约束下的自适应规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
AI 智能体 · Independent Researcher
ArcANE:角色扮演智能体何时出戏把角色扮演语言智能体可靠性变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
DIRECT:三维感知的对象插入把三维感知对象插入变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
AI 智能体 · Shanghai Jiao Tong University
超网络一次前向就把文本技能编译成 LoRA。ALFWorld 成功率涨 21.4 分,prefill token 省 64.1%。
OpenSkill 让智能体从开放网络自建技能与验证器,SkillsBench 上达 43.6%(+8.9),全程不碰目标任务答案。
AI 智能体 · Independent Researcher
SoCRATES:主动式 LLM 调解评测把主动调解智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
AI 智能体 · Independent Researcher
ToolMaze:工具失败后的智能体重规划把工具失败后的动态重规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
Code2LoRA 用超网络为代码模型生成仓库专属 LoRA 适配器,推理时零额外 token,精确匹配达仓库内 66.2%、跨仓库 63.8%,Evo 版还随 diff 增量更新。
来自 ETH、斯坦福、TU Darmstadt 与 IIT 的立场论文主张:堆大 VLA 和世界模型不够,机器人真正缺的是把无标注人类与视频行为转成可训练监督信号的四个数据接口。
ALE 用 1490 个专家构建的专业任务测试智能体,覆盖 55 个数字行业,最难档平均完整通过率只有 2.6%。
CHERRL 主动给裁判注入四类已知偏见,让奖励黑客稳定复现;只读训练日志的检测 agent 把六次实验的起点定位区间误差合计压到 11 步,零漏检。
StreamMA 让智能体生成一步推理就立刻流式传给下游,而不是等整条链写完。8 个基准平均涨 7.3 个百分点(HMMT 2026 最高 +22.4),并行场景最快提速 26.9 倍。
AI 智能体 · Independent Researcher
TIDE:模板引导的主动发现问题把主动式问题发现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
多模态模型 · Independent Researcher
VideoKR:知识密集型视频理解把视频理解中的知识与推理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
Echo-Infinity 用可学习演化记忆以恒定成本压缩任意长度历史,单张 H100 上 18.5 FPS 实现 24 小时(超 130 万帧)实时生成。
Audio Interaction Model 用「感知-决策-响应」循环,让音频大模型边听边判断要不要回、何时回并即时作答;基于 StreamAudio-2M 训练,8 个基准有竞争力。
GENEB 用统一探针协议,在 13 类共 100 个任务上评测 40 个基因组基础模型的冻结表征,发现排名跨类别剧烈翻转,堆参数只换来微弱且不稳定的提升。
多模态模型 · Shanghai AI Laboratory
OVO-S-Bench:流式空间智能评测把流式空间智能变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
大模型推理 · Shanghai AI Laboratory
ThoughtFold 用掩码偏好学习,把 DeepSeek-R1-Distill-Qwen-7B 的冗余推理平均压掉约 56% 的 token,准确率基本不变。
PF-OPSD 训练 Qwen3.5-9B 学会判断何时调用视频世界模型、如何核验生成画面,并在两个新基准上把准确率分别提升 10.6 和 10.9 个百分点。
在 20 亿帧动作语料(比此前大 200 倍)上,从约 384 个 PPO 专家蒸馏出因果 Transformer。仿真成功率 92.58 percent,单步推理低于 1.5ms。
谷歌研究院提出离线睡眠阶段,把短期上下文写回权重。加上睡眠后 Qwen3-8B 在 AIME-24 拿 79.2%,ARC 小样本达 80%。
Qwen-Image-Flash 把 Qwen-Image-2.0 蒸馏到 4 步,同时做文生图和图像编辑。阿里 Qwen 发现:训练配方——数据、教师、任务比例——和蒸馏目标函数同样关键。
多模态模型 · University of Washington
想象式感知标记(IPT)训练视觉语言模型渲染出它在另一视角下会看到的画面,再据此推理,而非用文字思考。多视角计数提升 3.4%,路径追踪比肩闭源模型,而文本思维链有时反而拖后腿。
KVarN 用 Hadamard 旋转加双轴方差归一化,把 KV 缓存压到 2-bit 且无需标定数据,专治长推理解码中量化误差逐步放大的问题。
TELBench 让模型在十余步的研究轨迹里找出坏掉的那一段。DRIFT 用主张对证据的审计法,把 span 级宏 F1 推到 54.91%,比直接喂原始轨迹最高高出 30 个百分点。
AI 智能体 · University of Illinois Urbana-Champaign
Harness-1 是个 20B 的 RL 搜索智能体,把工作记忆交给环境维护,平均策展召回 0.730,比最强开源子智能体高 11.4 分。
AI 智能体 · Independent Researcher
K-BrowseComp:韩语网页智能体基准把韩语语境网页浏览智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
按数学→代码→问答→写作顺序做 RL 后训练,数学从峰值 66.49 跌到 57.66,可梯度看上去却是正交的。末尾补一段短数学复习,数学回到 66.04,其余三域几乎不动。
不让视频模型自己硬推,而是让 VLM 给中间帧打分、逐样本微调一个 LoRA。RULER-Bench 从 46.4 拉到 68.2。
多模态模型 · The Chinese University of Hong Kong
X-Stream 是首个多路并发视频流理解基准。最强的 Gemini 3 Pro 仅 49.6%,人类却有 91.84%,主动反应能力更跌破 21%。
Cosmos 3 把语言、图像、视频、音频、机器人动作塞进一个混合 Transformer 模型,英伟达称它在文生图、图生视频以及 RoboArena 策略榜上都拿到开源第一。
立场论文,把 LoRA 式适配器重新定义为持久的个人状态,而非全量微调的廉价替身,给出做大、做小、做宽三条轴线,配套名为 MinT 的服务系统。
SkillAdaptor 不动模型权重,只从失败轨迹里改写技能库,WebShop 分数 +2.3、PinchBench +1.5,提升真实但有限。
TVRBench:模型能否移动到目标视角把主动三维视角复现变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
TrOPD 只在教师真正可信的 token 上做在线策略蒸馏,在数学、代码、STEM 上比标准 OPD 平均高出 3.06 到 3.52 分。
OCC-RAG 是 0.6B 与 1.7B 的两个推理小模型,只依据给定上下文作答、答不出就拒答,在多跳问答上追平甚至超过体量 2-6 倍的通用模型。
Function2Scene:按功能生成室内三维布局把功能驱动三维场景布局变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
扩散模型 · The Hong Kong Polytechnic University
GGT-100K:图像修复的生成式真值把真实图像修复数据变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
清华 LongTraceRL 从搜索智能体轨迹挖更难的干扰文档,再加实体级 rubric 奖励,让 Qwen3-4B 五个长上下文基准平均分从 53.3 涨到 59.0。
AI 智能体 · Independent Researcher
搜索智能体何时该屏蔽旧观察把搜索智能体上下文管理变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
强化学习 · University of Edinburgh
SCOPE 让出题的 Challenger 与检索作答的 Solver 互相进化,靠一份冻结的自评委打分,八个开放基准最高提升 +10.4 分,且不用任何人工标注的提示。
SwanSphere 流式生成与视频/文本同步的一阶环绕声,首块仅 0.21 秒出声,Frechet 距离压到 120.28(OmniAudio 为 157.67),质量与实时兼得。
TaskMem 用强化学习训练多模态智能体自己写记忆,在流式视频问答上把 VideoMME 准确率提到 67.9%,比 Qwen3-VL-30B 基线高出 6.3 个点。
专家混合 · National University of Singapore
dMoE 让 MoE 路由对齐扩散 LLM 的块级并行解码:在 LLaDA2.0-mini 上把每块唯一专家从 69.5 降到 14.6,保留 99.11% 精度,专家显存省 76-80%。
AI 智能体 · Shanghai AI Laboratory
COLLEAGUE.SKILL 把一个人零散的工作痕迹蒸馏成带版本、可审查的技能包,分能力与受限行为两条轨道,任何 agent 都能安装、纠正、回滚。开源系统报告约 1.85 万 star。
JetBrains 开源代码模型 Mellum 2:总参 12B、每 token 仅激活 2.5B 的混合专家,在软件任务上对标 4B-14B 稠密模型,算力却只够 2.5B。
RF 让统一多模态模型不再依赖冻结 VAE,RF-Pixel 先预测表征 token 再生成像素,GenEval 0.84,MMMU 比 VAE 版本高 4.3 分。
SwanVoice 一次性生成整段 1-4 人对话,跨轮保持音色、情绪、韵律一致,补上逐轮合成的拼接感,代价是内容准确率仍是最弱环节。
在线策略蒸馏会把教师监督浪费在学生早期的烂 rollout 上。TRB 在热身阶段于 KL 信赖域内混入接近教师的行为策略,再把预算退火到零——两个数学推理设置上拿到最强平均成绩。
把 3 个独立大模型的输出分布做平均,水印检测 z 分数从 5-304 直接掉到 2 以下,WASH 还给出了 O(1/根号N) 的误差证明。
AI 智能体 · Shanghai AI Laboratory
ResearchClawBench:自主科研智能体基准把端到端自主科研智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
SAAS 用自我感知强化学习,把 Qwen2.5-7B 搜索智能体的平均检索次数从 2.19 降到 0.97,准确率仍贴近最优基线(48.7% vs 49.8%)。
高效 AI · Shanghai AI Laboratory
Draft-OPD 让草稿模型在自身起草的状态上训练。Qwen3 思考模型加速 4.86 到 4.89 倍,比 EAGLE-3 高 23%、DFlash 高 13%,且无损。
SANA-Streaming 在单张 RTX 5090 上 24 FPS 端到端实时编辑 1280x704 视频,DiT 核心达 58 FPS,靠混合 DiT 与循环反向正则化保证时序一致。
VideoMLA 把多头潜在注意力搬进因果视频扩散,单 token KV 显存砍 92.7%(224 对 3,072 标量),VBench 60s 夺冠,B200 吞吐提升 1.23 倍。
VLM3 证明一个标准 4B 视觉语言模型无需 3D 专用架构就能比肩专家模型:深度精度 0.904、相机位姿 AUC 94.0%、物体级 3D 精度 91.35%。
AI 智能体 · Shanghai AI Laboratory
AgentDoG 1.5 仅用约 1k 样本训练 0.8B-8B 智能体安全护栏,4B 版在 R-Judge 上拿到 92.2% 准确率,逼近 GPT-5.4,部署开销砍掉两个数量级。
多模态模型 · University of Illinois Urbana-Champaign
Crafter 给图像模型套上五个协作智能体,PaperBanana-Bench 拿到 50.34 分,而同款底座单跑只有 11.13;CraftEditor 再把位图转成可编辑 SVG。
高效 AI · Shanghai Jiao Tong University
Domino 让并行草稿器一次性提出整块 token,再用一个轻量头补回 token 之间的因果依赖,Transformers 下加速最高 5.49 倍,SGLang 吞吐最高 5.8 倍。
检索增强生成 · University of Massachusetts Amherst
GrepSeek 训练大模型用 grep 等 shell 命令直接搜原始语料、不建嵌入索引,在七个开放域问答基准上拿到最佳 F1 与精确匹配,检索最高提速 7.6 倍。
Qwen-VLA 给 Qwen 视觉-语言栈加上 DiT 动作解码器和「具身感知」提示,用单一模型同时做操作、导航与轨迹预测:LIBERO 97.9%、R2R OSR 69.0%。
长语音生成的综合基准把长语音生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
AI 智能体 · Independent Researcher
TASTE:从工具序列生成智能体难题把工具调用基准生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。
英伟达的多人交互视频世界模型,蒸馏后以 24 FPS 实时推理,从两人到四人无需重新训练,FVD 较 Solaris 几乎砍半。
微调与适配 · The Hong Kong Polytechnic University
TA-OPD 只监督教师修正落在学生 top-K 支撑集内的约 5% token,效果常追平甚至超过全 token 在线蒸馏(Qwen3-4B 蒸 1.7B:44.89 对 42.37)。
LocateAnything 把整个检测框一步解出,而非逐位输出坐标,混合模式达每秒 12.7 个框,约为 Rex-Omni-3B 的 2.5 倍,3B 规模下领跑 COCO 与 LVIS。
DVAO 按各奖励在组内的方差自适应加权,而非固定系数,在 Qwen3-4B-Base 上把平均准确率从 38.99% 提到 42.19%,长度合规率从 96.39% 拉到 99.91%。
WBench 用 289 个案例、1058 轮交互,从画质、设定、交互、一致性、物理五个维度评测交互式视频世界模型,结论是没有一个模型五项全赢。
NITP 在标准 NTP 之外加了一个稠密的表征监督:让模型预测下一个 token 的浅层表征。9B MoE 上 MMLU-Pro 提升 5.71 分,只多约 2% 训练算力,推理零开销。
BrainCause 用文生图模型加 fMRI 编码器对脑区做因果检验,在 260 个视觉概念上把定位假阳性从 73.4% 压到 23%。
SkillOpt 不动模型权重,只训练一份自然语言技能文档:靠有界增删改、文本学习率和留出验证门,把 GPT-5.5 在直聊场景六个基准上平均拉高 +23.5 分。
这项工作把 AI 形式化证明搜索放到开放数学题上评测:最强 agent 解出 353 个 Erdos 问题中的 9 个,证明 492 个 OEIS 猜想中的 44 个。
多模态模型 · The University of Tokyo
MM-OCEAN 检验多模态大模型是否真用视频证据支撑性格评分。27 个模型里,51.3% 的「答对」评分依据的却是错误线索,最强模型也只有 33.5% 的判断真正落地到证据。
TransitLM 收录四座中国城市 1300 万条规划记录,让语言模型脱离地图引擎直接规划公交路线,4B 模型在最优路线上达 97.0% 连通性、71.0% 完全匹配。
大模型推理 · Renmin University of China
DelTA 把 RLVR 更新重加权,让信用落在真正能区分对错的 token 上,使 Qwen3-8B-Base 平均提升 3.26 分、Qwen3-14B-Base 提升 2.62 分。
HRM-Text 用约 1500 美元、仅 400 亿 token 从零训出 10 亿参数模型,MMLU 60.7%、GSM8K 84.5%、MATH 56.2%,靠层级循环架构而非堆算力。