形式化数学

Search documents
大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
机器之心· 2025-06-22 04:26
另一方面,当前主流的大语言模型是在海量自然语言上训练出来的。它们虽然无法直接生成可被形式系统接受的机器检查证明,却在 "非形式化推理" 方面表现出色 —— 也就是说,它们往往能给出看似合理、直觉对路的答案,并模仿人类在解决问题初期的思维方 式。这种能力虽然不符合传统意义上的形式证明要求,但在探索性的数学过程中具有重要价值。 为此,斯坦福大学、加州大学伯克利分校与麻省理工学院的研究团队提出了一种创新方法:将不等式证明任务拆解为两个 "非形式化但 可验证" 的子任务,即 "界限估计" 和 "关系预测",并基于此构建了第一个奥林匹克级不等式证明基准数据集 ——IneqMath。这一框 架提供了一种介于完全形式化验证与自然语言生成之间的 "中间层",可以逐步审查模型的推理链条,从而判断其是否真正掌握了推理 结构,而不仅仅是在猜测答案。 这正是当前形式化数学所试图解决的问题。近年来,Lean、Coq 等系统为数学提供了严格可验证的推理机制,每一步推导都必须符合 逻辑规则,可被计算机检验。然而,这类系统对语句的表达精度要求极高,建模成本大、自动化程度有限,尤其在面对中学到奥数级别 的不等式问题时,很难做到规模化应用。 使 ...
对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds
海外独角兽· 2025-06-12 13:27
嘉宾:辛华剑 访谈:penny Era of Experience 这篇文章中提到:如果要实现 AGI, 构建能完成复杂任务的通用 agent,必须借助"经验"这一媒介,这里的"经验"就是指强化学 习过程中模型和 agent 积累的、人类数据集中不存在的高质量数据。 强化学习是 AGI 的关键解法。从 OpenAI o1 到 DeepSeek R1,我们不断在看到强化学习的潜力:DeepMind AlphaProof 被认为是"经验时代"初露端 倪的一个例子,作为第一个在 IMO 获奖的 AI,AlphaProof 借助 RL 算法自行"做题",积累经验,AlphaProof 的案例表明,在像数学这样人类高水 平知识接近极限的领域,RL 通过互动试错可以突破瓶颈,取得超人类的成果。 以 AlphaProof 为开端,整个数学证明领域也在最近半年迎来了 AI 突破的密集期:除了 AlphaProof ,OpenAI 的 o1 模型在数学推理上展现出了惊 人表现,DeepSeek-Prover 三部曲也在形式化数学证明上不断创造新纪录。 为了理解数学和 AGI 的关系,海外独角兽访谈了 DeepSeek-Prov ...
当AI遇上数学:大语言模型如何掀起一场形式化数学的革命? | Deep Talk
锦秋集· 2025-05-12 09:13
随着大语言模型在内容创作、代码生成与科学问答等领域掀起巨大变革浪潮,以严谨逻辑与精密结构著称的数学领域也迎来了深刻的转型契机。 当前,数学理论的复杂性不断提升,许多重要定理的证明规模已远超传统人工审阅的能力边界。动辄数百页的证明不仅挑战了同行评审的极限,更暴露出人工验证 过程的缓慢与脆弱性。针对这一困境,形式化数学方法开始成为重要的解决路径。这一方法通过将数学命题严格表达为形式逻辑语言,并借助计算机进行自动化验 证,有效地提升了定理证明的准确性和可靠性。 在形式化数学日益成为趋势的背景下,来自爱丁堡大学的博士研究生辛华剑自2022年起致力于将大语言模型技术与形式化数学方法结合,曾分别在DeepSeek和字节 跳动Seed团队进行相关研究。 2025年5月9日,辛华剑在由剑桥中国AI协会、锦秋基金、清华大学学生通用人工智能协会、 清华大学学生创业协会联合举办的主题分享会上,以《大语言模型时代 的形式化数学革命》为题,详细阐述了形式化数学的历史演进、现状挑战以及未来发展方向。 他认为: 以下内容为此次报告的整理与深化,经由分享人本人审阅补充。 引言 当大语言模型(LLM)以空前规模席卷内容创作与科学研究等领域之际 ...
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
量子位· 2025-05-07 09:33
FormalMATH团队 投稿 量子位 | 公众号 QbitAI 最强AI模型面对5560道数学难题,成功率仅16.46%?背后真相大揭秘。 香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等机构联合推出 FormalMATH形式化数学推理基准测试 ,含 5560道经过严格验证的数学题,覆盖从奥数到大学水平的代数、微积分、数论等领域。 形式化数学推理是人工智能领域公认的核心难题之一。 尽管大语言模型(LLM)在自然语言处理和代码生成等领域取得显著进展,但面对需要严格逻辑推导的数学定理证明任务时,其能力仍面临严 峻挑战。 FormalMATH:「超大规模」的形式化数学推理基准 规模突破:22.8倍于现有基准 FormalMATH包含5560个经过Lean4编译器验证的数学命题,涵盖代数、数论、微积分、离散数学等12个子领域,问题难度从国际数学奥林 匹克(IMO)竞赛级延伸至本科课程,规模是经典基准MiniF2F的22.8倍。 构建创新:人类在循环中的自动化流程用于自动形式化和语义一致性检测 为解决传统形式化数据依赖专家手动标注的瓶颈,研究团队提出了一套 「三阶段过滤」 框架: 现有LLM证 ...
AI的下一个风口?听前DeepSeek成员辛华剑解读数学推理 | Deep Talk
锦秋集· 2025-05-03 08:51
4 月 30 日,DeepSeek在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模 型。 这是一款专注于形式化数学推理的开源大型语言模型。 数学推理长期以来被视为AI的"终极挑战"之一。形式化数学不仅是AI的"智力试金石",更是打开高价值商业场 景的钥匙。DeepSeek-Prover系列模型通过结合LLM的泛化能力与形式化工具(如Lean),首次实现了从自 然语言描述到机器可验证证明的大规模端到端转化。这一突破不仅可能将数学研究效率提升数倍,更将为AI在 金融建模、芯片验证、密码学等依赖数学严谨性的领域打开新可能性。 5月9日,DeepSeek前成员辛华剑,也将参加剑桥大学中国人工智能协会、锦秋基金、清华大学学生通用人工 智能协会、清华大学学生创业协会合作的"大模型开发者与AI基金合伙人的跨洋对谈活动"。他将进行《大语言 模型时代的形式化数学革命》的主题分享。 辛华剑现在是爱丁堡大学人工智能博士生、字节跳动研究实习生,专注于大语言模型在数学定理证明中的创新 应用。他在DeepSeek实习期间主导开发了专注于数学证明DeepSeek-Prove ...