AI 形式化证明搜索能解开放数学题吗
这项工作把 AI 形式化证明搜索放到开放数学题上评测:最强 agent 解出 353 个 Erdos 问题中的 9 个,证明 492 个 OEIS 猜想中的 44 个。
快速答案
这篇问的问题比奥数证明更尖锐:AI 形式化证明搜索能不能解决开放数学问题?核心数字是:最强 agent 解出 353 个开放 Erdos 问题中的 9 个,并证明 492 个 OEIS 猜想中的 44 个。论文还报告最强系统每题成本为数百美元量级。
为什么现在值得补这篇
这篇被补进来,不是为了凑数量,而是因为它对应的 topic 低于 3 篇,同时又有明确搜索意图:读者会查论文名、方法名、核心数字,也会想知道它到底是不是被夸大。好的解读不能只复述摘要,必须把贡献、结果和边界拆开。
方法到底怎么工作
系统让 LLM 生成候选证明或引理,再交给形式化证明助手验证。验证器把证明搜索从有说服力的文本变成可执行闭环:提出、检查、读失败信息、再尝试。作者把更强 agent 与简单的生成-验证循环比较,评测对象也不是教科书或竞赛题,而是经过整理的开放问题。
关键结果
- 最强 agent 解决 9/353 个开放 Erdos 问题。
- 证明 44/492 个 OEIS 猜想,提供奥数几何之外的大规模测试。
- 基础的 LLM 加验证器循环也能复现 Erdos 成功案例,但在难题上成本更高。
- 系统已被用于组合、优化、图论、代数几何和量子光学等研究方向。
我的判断
最有价值的是评测方式。很多数学 AI 论文停在精致基准,这篇把系统推到开放问题区,而那里错误自信的代价更高。9/353 不是数学自动化,但每个被验证的开放结果,和普通 benchmark 加一分不是同一类东西。
局限与存疑
成功依赖命题可形式化,也依赖搜索预算。每题数百美元对研究筛选可能合理,对日常探索仍不便宜。形式化验证能挡住错误证明,但不会自动解决定义选择、库依赖、以及形式化版本是否真正对应原始数学意图的问题。 另一个需要保留的疑问是可复现性:不少系统依赖数据规模、工程细节和评测协议,外部团队未必能完整复刻。读者应把论文数字理解为该设定下的证据,而不是对所有下游产品的无条件保证。
后续该比较什么
后续不应只比较更新或更大的模型,而要比较评测目标、数据条件和失败代价。同一个方法在整理干净的基准上有效,遇到更长输入、更噪信号或需要不确定性校准的真实场景时,可能完全暴露另一组问题。读这篇之后,最值得找的是从另一个角度压同一瓶颈的工作:扩展、验证、可解释性、延迟或真实部署。这样才能把结果放回坐标系里,避免把单篇论文读成广告。
常见问题
AI 形式化证明搜索能解开放数学题吗 是什么?
AI 形式化证明搜索能解开放数学题吗 是这篇论文提出或代表的方法/系统。简单说,它改变了建模方式,让相关问题可以借助更强的表征学习、搜索或生成机制来处理。
这篇最该记住哪个数字?
最该记住的是「关键结果」里的具体数字。它们比“效果更好”有价值,因为以后读同类论文时可以直接拿来比较。
谁应该读这篇论文?
如果你关注 theorem-proving 方向、需要一个明确基准,或想理解这个方法为什么进入领域词汇,就值得读。若你只想找可直接上线的方案,必须先看局限部分。
一句话:这项工作把 AI 形式化证明搜索放到开放数学题上评测:最强 agent 解出 353 个 Erdos 问题中的 9 个,证明 492 个 OEIS 猜想中的 44 个。 阅读原始来源。