定理证明 · 强化学习 · 大模型推理

DeepSeek-Prover-V1.5:用 RL 和搜索做 Lean 证明

DeepSeek-Prover-V1.5 把 Lean 反馈、强化学习和 RMaxTS 搜索结合起来,miniF2F 达 63.5%,ProofNet 达 25.3%。

DeepSeek-Prover-V1.5:用 RL 和搜索做 Lean 证明

快速答案

DeepSeek-Prover-V1.5 是面向 Lean 4 的形式化定理证明模型,把证明助手反馈用于强化学习和搜索。关键数字是:miniF2F 测试集 63.5%,ProofNet 25.3%。这很重要,因为 Lean 不是偏好模型,而是能给出硬正确性信号的验证器。

为什么现在值得补这篇

这篇被补进来,不是为了凑数量,而是因为它对应的 topic 低于 3 篇,同时又有明确搜索意图:读者会查论文名、方法名、核心数字,也会想知道它到底是不是被夸大。好的解读不能只复述摘要,必须把贡献、结果和边界拆开。

方法到底怎么工作

模型从 DeepSeekMath-Base 出发,先专门化到形式化数学语言,再用增强后的定理证明数据做监督微调。关键增量是 proof assistant feedback:Lean 执行给出是否通过和诊断信号,用于强化学习。推理时它也不只采样一条完整证明,而是用 RMaxTS 这种蒙特卡洛树搜索变体,靠内在奖励探索多条证明路径。

关键结果

  • 在高中级形式化证明基准 miniF2F 测试集上达到 63.5%
  • 在本科级 ProofNet 上达到 25.3%
  • 相较 DeepSeek-Prover-V1,训练和推理两端都做了优化。
  • Lean 反馈提供硬正确性奖励,不是软性的人工偏好标签。

我的判断

这是数学里比较靠谱的 RL 场景:环境真的知道证明有没有通过。搜索部分也符合定理证明实际:优雅证明很少一次生成,大量局部尝试会失败,探索很重要。问题在于成本和脆弱性;基准上强,不等于遇到依赖库、命名和 tactic 细节时也顺滑。

局限与存疑

miniF2F 和 ProofNet 有价值,但覆盖仍窄。Lean 证明失败可能是库名、缺少引理或 tactic 语法问题,不一定是数学能力不够。搜索提升成功率,同时增加算力、延迟和调参复杂度。模型处理的是已形式化命题;把非形式化研究数学改写成正确 Lean 陈述仍是另一道瓶颈。 另一个需要保留的疑问是可复现性:不少系统依赖数据规模、工程细节和评测协议,外部团队未必能完整复刻。读者应把论文数字理解为该设定下的证据,而不是对所有下游产品的无条件保证。

后续该比较什么

后续不应只比较更新或更大的模型,而要比较评测目标、数据条件和失败代价。同一个方法在整理干净的基准上有效,遇到更长输入、更噪信号或需要不确定性校准的真实场景时,可能完全暴露另一组问题。读这篇之后,最值得找的是从另一个角度压同一瓶颈的工作:扩展、验证、可解释性、延迟或真实部署。这样才能把结果放回坐标系里,避免把单篇论文读成广告。

常见问题

DeepSeek-Prover-V1.5 是什么?

DeepSeek-Prover-V1.5 是这篇论文提出或代表的方法/系统。简单说,它改变了建模方式,让相关问题可以借助更强的表征学习、搜索或生成机制来处理。

这篇最该记住哪个数字?

最该记住的是「关键结果」里的具体数字。它们比“效果更好”有价值,因为以后读同类论文时可以直接拿来比较。

谁应该读这篇论文?

如果你关注 theorem-proving 方向、需要一个明确基准,或想理解这个方法为什么进入领域词汇,就值得读。若你只想找可直接上线的方案,必须先看局限部分。

一句话:DeepSeek-Prover-V1.5 把 Lean 反馈、强化学习和 RMaxTS 搜索结合起来,miniF2F 达 63.5%,ProofNet 达 25.3%。 阅读原始来源