主题

可解释性

逆向解析神经网络内部的计算——特征、电路,以及驱动模型行为的内在机制。

AI 智能体 · Nanjing University

DRIFT:精准定位深度研究 Agent 错在哪一步

TELBench 让模型在十余步的研究轨迹里找出坏掉的那一段。DRIFT 用主张对证据的审计法,把 span 级宏 F1 推到 54.91%,比直接喂原始轨迹最高高出 30 个百分点。

强化学习 · Tianjin University

多域 RL 为何会遗忘，一次数学复习就能治好

按数学→代码→问答→写作顺序做 RL 后训练，数学从峰值 66.49 跌到 57.66，可梯度看上去却是正交的。末尾补一段短数学复习，数学回到 66.04，其余三域几乎不动。

可解释性 · Google DeepMind

Gemma Scope:DeepMind 为 Gemma 2 开放的稀疏自编码器套件

DeepMind 开放的 JumpReLU 稀疏自编码器套件,覆盖 Gemma 2 2B 与 9B 每一层,共 400+ 个 SAE、3000 万+ 特征,免费供可解释性研究。

可解释性 · Northeastern University

Position-aware ACD:位置感知自动电路发现

这项工作修正自动电路发现的盲点:同一组件在不同 token 位置作用不同,位置不变假设会漏掉真实机制。

可解释性 · EleutherAI

稀疏自编码器:从大模型激活里找出可解释特征

在大模型激活上训练一个稀疏自编码器,能把『叠加』拆成单一含义的特征,可解释性强过神经元;还能编辑某个概念(比如撇号规则)看模型行为随之改变。