MaxProof:MiniMax-M3如何做数学证明搜索
MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。
主题
用于数学证明搜索的神经、符号与混合系统。
MaxProof 把 MiniMax-M3 当作生成器、验证器、修复器和排序器使用,在 IMO 2025 得到 35/42,USAMO 2026 得到 36/42。
HOList:高阶逻辑定理证明环境把面向高阶逻辑证明的机器学习落到具体方法和可检查结果上,适合判断该方向的真实进展。
LeanDojo:检索增强定理证明把Lean 中的检索增强定理证明落到具体方法和可检查结果上,适合判断该方向的真实进展。
MiniF2F:形式化奥赛数学基准把形式化奥赛级数学评测落到具体方法和可检查结果上,适合判断该方向的真实进展。
这项工作把 AI 形式化证明搜索放到开放数学题上评测:最强 agent 解出 353 个 Erdos 问题中的 9 个,证明 492 个 OEIS 猜想中的 44 个。
DeepSeek-Prover-V1.5 把 Lean 反馈、强化学习和 RMaxTS 搜索结合起来,miniF2F 达 63.5%,ProofNet 达 25.3%。
AlphaGeometry 用语言模型加符号引擎,在 1 亿条合成定理上从零训练,30 道奥赛几何题解出 25 道,而此前最强方法只有 10 道。