AI 形式化证明搜索能解开放数学题吗

快速答案

这篇问的问题比奥数证明更尖锐:AI 形式化证明搜索能不能解决开放数学问题?核心数字是:最强 agent 解出 353 个开放 Erdos 问题中的 9 个,并证明 492 个 OEIS 猜想中的 44 个。论文还报告最强系统每题成本为数百美元量级。

为什么现在值得补这篇

这篇被补进来,不是为了凑数量,而是因为它对应的 topic 低于 3 篇,同时又有明确搜索意图:读者会查论文名、方法名、核心数字,也会想知道它到底是不是被夸大。好的解读不能只复述摘要,必须把贡献、结果和边界拆开。

方法到底怎么工作

系统让 LLM 生成候选证明或引理,再交给形式化证明助手验证。验证器把证明搜索从有说服力的文本变成可执行闭环:提出、检查、读失败信息、再尝试。作者把更强 agent 与简单的生成-验证循环比较,评测对象也不是教科书或竞赛题,而是经过整理的开放问题。

关键结果

最强 agent 解决 9/353 个开放 Erdos 问题。
证明 44/492 个 OEIS 猜想,提供奥数几何之外的大规模测试。
基础的 LLM 加验证器循环也能复现 Erdos 成功案例,但在难题上成本更高。
系统已被用于组合、优化、图论、代数几何和量子光学等研究方向。

我的判断

最有价值的是评测方式。很多数学 AI 论文停在精致基准,这篇把系统推到开放问题区,而那里错误自信的代价更高。9/353 不是数学自动化,但每个被验证的开放结果,和普通 benchmark 加一分不是同一类东西。

局限与存疑

成功依赖命题可形式化,也依赖搜索预算。每题数百美元对研究筛选可能合理,对日常探索仍不便宜。形式化验证能挡住错误证明,但不会自动解决定义选择、库依赖、以及形式化版本是否真正对应原始数学意图的问题。另一个需要保留的疑问是可复现性:不少系统依赖数据规模、工程细节和评测协议,外部团队未必能完整复刻。读者应把论文数字理解为该设定下的证据,而不是对所有下游产品的无条件保证。

后续该比较什么

后续不应只比较更新或更大的模型,而要比较评测目标、数据条件和失败代价。同一个方法在整理干净的基准上有效,遇到更长输入、更噪信号或需要不确定性校准的真实场景时,可能完全暴露另一组问题。读这篇之后,最值得找的是从另一个角度压同一瓶颈的工作:扩展、验证、可解释性、延迟或真实部署。这样才能把结果放回坐标系里,避免把单篇论文读成广告。

常见问题