N-GRPO:用语义邻居混合改进 RL rollout

快速答案

N-GRPO 是面向推理 RL 的 rollout 探索方法。它不只靠 token 采样,也不直接往 embedding 里加高斯噪声,而是把 anchor token 的 embedding 与语义邻近 token 的 embedding 混合。目标是在增加解题路径多样性的同时,不把表示推离语言流形。在 DeepSeek-R1-Distill-Qwen-1.5B 上,N-GRPO 平均 Pass@32 为 79.17,GRPO 为 77.41,STHT 为 78.05;AIME25 Pass@32 为 50.28,GRPO 为 47.31。

不让探索变成语义漂移

论文指出,常见 rollout 多样性有两个问题。token-level sampling 往往只是改写措辞,没有改变真正的解题路径。直接加 embedding 噪声能制造差异,但可能把 token 推到无关词附近,导致推理轨迹崩掉。

Semantic Neighbor Mixing 是折中方案。方法在部分位置寻找 embedding 空间里的语义邻居,再把邻居 embedding 与 anchor embedding 混合。默认 mixing rate 是 0.1,k 是 3。训练仍走 GRPO,但 rollout 输入扰动更有结构。

提升不是夸张的大跨越,但在多个模型和指标上稳定。论文还把同样机制迁移到 GSPO,N-GSPO 把平均 Pass@32 从 77.34 提到 79.04,AIME25 提升 7.66 个点。

方法也不是对每个 token 都强行扰动。它用一个二值 mask 决定当前位置是否启用 Semantic Neighbor Mixing,普通 temperature sampling 仍在生成循环里。这个细节很重要,因为推理轨迹里既有脆弱的数学符号,也有较灵活的自然语言。若每个位置都扰动,变量名、公式结构和题目里的关键常数都可能被破坏。

关键结果

DeepSeek-R1-Distill-Qwen-1.5B 平均 Pass@32 为 79.17,GRPO 为 77.41,STHT 为 78.05。
同一 1.5B 模型在 AIME25 上,N-GRPO Pass@32 为 50.28,GRPO 为 47.31,STHT 为 46.73。
7B distilled backbone 上,N-GRPO 平均 Pass@32 为 84.20,GRPO 为 81.94,STHT 为 82.53。
GPQA-Diamond 上,1.5B N-GRPO Pass@32 为 92.87,高于 base 90.79 和 GRPO 91.95。
Qwen3-1.7B-Base 上,N-GRPO 相对 GRPO 在 AIME25 Pass@32 提升 5.00 点,并取得最高总体平均 Pass@32。

对研究者和构建者的判断

实际价值不在于照搬标题数字。N-GRPO 适合在你的任务分布和论文设置相近时参考,尤其要看清楚比较对象、评测协议和收益来源。如果你的系统瓶颈不是论文测到的那个环节,同一个方法可能只会增加复杂度。更稳妥的做法是先复现一个小规模本地评测,确认收益来自方法本身,而不是数据、工具链或裁判口径。

对做 RL 的团队来说,这篇最有用的是探索诊断。如果同组 rollout 只是措辞不同,奖励虽然看到了多个样本,却没有看到真正不同的推理路径。如果 embedding 噪声导致无效文本或跳到无关 token,多样性就是用语义破坏换来的。N-GRPO 给了一个中间旋钮:在 embedding 空间做局部语义移动,由 mixing rate 和邻居数控制。它适合在扩大模型或奖励管线前先小规模试验。

局限与存疑

N-GRPO 是训练期探索方法,不是推理加速技巧。它引入最近邻检索和新超参,最大收益出现在 AIME25 这类基线仍有空间的难题上。论文还没有证明同样扰动对开放式代码智能体、事实问答或指令遵循同样有效。稳妥结论是:如果 GRPO rollout 太重复,局部语义扰动可能比原始 embedding 噪声更可靠。

还需要看的证据包括更大模型、更长训练、多语言数学题和非数学可验证任务。当前结果说明语义邻居混合能改善一组推理 RL 设置,但不能说明它是所有 RLVR 训练的默认最佳选择。特别是在代码和工具调用任务里,token 邻近关系未必等价于行为邻近关系。

真正会改变判断的证据,是更独立的外部复现、更完整的发布产物,以及由非作者团队设计的压力测试。在那之前,这篇更适合作为有清晰证据面的方向性结果,而不是无条件通用结论。

常见问题

N-GRPO 是什么?

它在 GRPO rollout 中加入 Semantic Neighbor Mixing,把 token embedding 朝语义邻居混合,而不是加无约束随机噪声。

N-GRPO 在 AIME25 上提升多少?

DeepSeek-R1-Distill-Qwen-1.5B 上,AIME25 Pass@32 从 GRPO 的 47.31 提到 N-GRPO 的 50.28。

N-GRPO 能迁移到 GRPO 之外吗?

论文报告了 N-GSPO 实验,平均 Pass@32 从 77.34 到 79.04,说明混合机制不完全依赖 GRPO。

一句话:N-GRPO 有意思的地方在于把 rollout 多样性做成局部语义移动,而不是随机扰动 embedding。阅读 arXiv 原文。