主题

对齐

让模型行为更符合偏好、更安全或更有用的训练方法。

Google DeepMind 报告梳理 AGI 到 ASI 的四条非互斥路径,并把数据墙、资源约束、监管等瓶颈视为开放研究问题。

AdaPlanBench:测试智能体自适应规划把约束下的自适应规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

ArcANE:角色扮演智能体何时出戏把角色扮演语言智能体可靠性变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

把 3 个独立大模型的输出分布做平均,水印检测 z 分数从 5-304 直接掉到 2 以下,WASH 还给出了 O(1/根号N) 的误差证明。

CHERRL 主动给裁判注入四类已知偏见,让奖励黑客稳定复现;只读训练日志的检测 agent 把六次实验的起点定位区间误差合计压到 11 步,零漏检。

SoCRATES:主动式 LLM 调解评测把主动调解智能体变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

TASTE:从工具序列生成智能体难题把工具调用基准生成变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

ToolMaze:工具失败后的智能体重规划把工具失败后的动态重规划变成可检查任务,帮助读者判断系统在哪里失效、结果应如何解读。

AgentDoG 1.5 仅用约 1k 样本训练 0.8B-8B 智能体安全护栏,4B 版在 R-Judge 上拿到 92.2% 准确率,逼近 GPT-5.4,部署开销砍掉两个数量级。

几乎不用人工标注有害内容,模型对照一份写好的原则清单自我批评并改写答案,再从 AI 生成的偏好里做强化学习(RLAIF)。

OpenAI 用人类反馈对齐 GPT-3,评估者更偏好 1.3B 的 InstructGPT 而非 175B 的 GPT-3——参数少 100 倍却更有用。

近端策略优化(PPO)用一个裁剪过的代理目标稳住策略梯度——几乎和 TRPO 一样稳,却简单得多——后来成了 ChatGPT、InstructGPT 背后 RLHF 的默认强化学习引擎。

给大模型做大五人格或价值观问卷,几乎预测不了它在真实提问中的表现:跨方法一致性仅 Spearman 0.31 与 0.26,而同类问卷内部高达 0.74-0.77。

头部视频模型看似在听声音,实则靠画面猜。本文用 THUD 探针拆穿这一捷径,1 万样本的两阶段修复把音频理解平均拉高 28 个百分点。

DPO 用一个分类式损失直接在偏好对上求解 RLHF 问题:不训练单独的奖励模型,不跑强化学习循环,训练时也不采样。