SkillOpt:把冻结智能体的技能文本当模型来训

快速答案

SkillOpt 把大模型智能体的「技能文档」当成唯一要训练的对象,模型权重全程冻结。它对一份简短的自然语言技能做有界的增/删/改编辑,每个候选都先在留出集上验证,并限制每步文本能改动的幅度。结果是:GPT-5.5 在直聊场景的六个基准上平均提升 +23.5 分,用 Codex 框架时 +24.8 分,用 Claude Code 框架时 +19.1 分,并在全部 52 个(模型,基准,框架)组合上做到最优或并列最优。

为什么训技能文本,而不是训权重

多数「自我进化智能体」工作要么微调权重,要么放任模型无约束地改写自己的提示词,结果就是漂移和遗忘。SkillOpt 真正有用的是它的视角:技能是冻结智能体的外部状态,而这个状态应该像训模型一样有纪律地训——成批的证据、一个学习率、一道验证门。这一重构把「凭手感调提示词」变成了带明确步长的优化,而不是让大模型对着最近一次失败反复重写文档、最终过拟合。

SkillOpt 怎么工作

整个循环刻意做得保守。一个优化器模型读取 rollout 轨迹——成功的和失败的都看——再对技能文档提出结构化编辑。三个控制项保证稳定:

文本学习率: 每步设一个编辑预算上限(论文发现 Lt=4 效果好),限制新版本相对旧版本的移动幅度。适度预算胜过无界重写(SearchQA 上 85.5 对 84.6)。
留出验证门: 候选技能先在选择集上验证再决定是否接受,扮演验证集的角色,使技能无法悄悄过拟合当前这批 rollout。
拒绝编辑缓冲区: 把被否决的提案留作负反馈,避免优化器反复提出同一个坏编辑。

此外按 epoch 做的慢/元更新会保留更长时段的规律,而不是追着最近一批跑。最终产物是一份可移植的单一技能,既不是庞大的技能库,也不是权重差分。

关键结果

直聊(GPT-5.5):相对无技能基线平均 +23.5 分,覆盖六个基准——SearchQA 77.7 升到 87.3,SpreadsheetBench 41.8 升到 80.7,OfficeQA 33.1 升到 72.1,DocVQA 78.8 升到 91.2,LiveMathematicianBench 37.6 升到 66.9,ALFWorld 83.6 升到 95.5。
Codex 框架 +24.8 分;Claude Code 框架 +19.1 分,均相对无技能基线。
在全部 52 个(模型,基准,框架)组合上最优或并列最优,比一个「逐组合挑最强对手」的预言机还高 +5.4 分;对手包括人工、一次性 LLM 生成、Trace2Skill、TextGrad、GEPA、EvoSkill。
编辑经济性: 最终技能仅 379 到 1,995 个 token,且每个基准只接受了 1 到 4 次编辑,却换来如此大的提升。
消融: 去掉拒绝编辑缓冲区掉 1.6 到 4.6 分;去掉慢/元更新最惨,SpreadsheetBench 上从 77.5 跌到 55.0,掉了 22.5 分。

为什么现在重要

提升是实打实的,而产物却极小——一份不到 2000 token 的文本文件就能把基准抬高几十分,这比微调便宜得多。同样关键的是,论文报告这些技能是程序性规则(例如 SearchQA 上:先从线索措辞推断期望的答案类型,再返回最短的规范实体),而非死记的答案,这正是它能跨框架移植的原因。对那些把冻结的前沿模型挂在 API 后面运行的团队来说,这是真能落地的改进。

局限与存疑

SkillOpt 需要带分数的轨迹和留出集,所以它适合有自动校验器、精确匹配指标或可执行检查的任务;在「对错无法打分」的场景里几乎无能为力——这和结果奖励 RL 撞的是同一堵墙。训练要额外花 rollout 算力和优化器调用(每提升一个绝对测试分要 0.6 到 46.4M 训练 token),技能被复用时能摊薄,但对一次性任务不划算。而且它本就只优化一份可移植技能而非技能库,作者自己也指出:面对高度异质的领域,单一技能可能太单薄。评测也主要依赖 GPT-5.5,提升能在多大程度上迁移到更弱的基座,并不是这篇的重点。

常见问题

SkillOpt 到底训练什么?

SkillOpt 只训练一份自然语言技能文档,智能体的模型权重始终冻结。优化器模型对这份文本提出有界的增/删/改编辑,只有通过留出验证门的编辑才会被接受。

SkillOpt 能把 GPT-5.5 提升多少?

SkillOpt 让 GPT-5.5 在直聊场景六个基准上平均提升 +23.5 分,Codex 框架下 +24.8 分,Claude Code 框架下 +19.1 分,均相对无技能基线测得。

SkillOpt 和 TextGrad、GEPA 有什么不同?

TextGrad、GEPA 同样在演化提示词,但 SkillOpt 多了文本学习率(每步有界的编辑预算)、拒绝编辑缓冲区和按 epoch 的慢/元更新。靠这些控制项,它在全部 52 个组合上最优或并列最优,比逐组合挑最强对手的预言机还高 +5.4 分。

什么时候不该用 SkillOpt?

当任务缺乏可靠的自动反馈——没有校验器、精确匹配指标或可执行检查时,别用它,因为它依赖带分数的轨迹和留出门。对那些训练成本无法靠复用摊薄的一次性任务,它也不划算。

一句话:像训模型一样训技能文本——有界编辑、留出验证门、权重冻结。阅读 arXiv 原文。