Workflow
数学推理
icon
Search documents
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 01:18
Polaris团队 投稿 量子位 | 公众号 QbitAI 4B模型的数学推理能力和顶尖商业大模型差在哪里? 香港大学NLP团队联合字节跳动Seed、复旦大学发布名为 Polaris 的强化学习训练配方: 通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2) 超越了一众商业大模型 ,如Seed-1.5- thinking、Claude-4-Opus和o3-mini-high(25/01/31)。 并且,Polaris-4B的轻量化允许在消费级显卡上部署。 详细的blog、训练数据、模型和代码都已 全部开源 ,链接可见文末。 围绕待训练模型进行参数配置 之前的RL训练配方,如DeepScaleR,已经展示了Scaling RL在较弱基模型上强大的效果。 但对于目前最前沿的开源模型(如Qwen3),Scaling RL是否也能复现如此显著的提升呢? Polaris的研究团队给出了明确回答:可以! 具体来说,Polaris通过仅仅700步的RL训练,成功地 让Qwen3-4B在数学推理任务上接近了其235B版本的表现 。 只要方法得当,RL还存在 ...
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 10:30
MINT-CoT团队 投稿 量子位 | 公众号 QbitAI 思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型 (MLLMs)中,CoT 同样展现出了巨大潜力。 3. 过度依赖外部功能 像 MVoT 或 Visual SKETCHPAD 等方法,需要借助外部工具或能力来生成或修改图像,训练和推理过程成本高、不通用。 然而,当视觉信息与数学推理结合时,传统的 CoT 方法就显得力不从心了——视觉输入中的数学细节往往被忽略,导致推理结果不准确。 最近,香港中文大学 MMLab 团队正式发布了全新的视觉推理方案——MINT-CoT,专为解决"多模态数学推理"中的难题而设计。 为什么数学视觉推理这么难? 尽管已有一些研究尝试把视觉信息引入 CoT 推理,例如 Visual-CoT、Visual SKETCHPAD、VPT、ICoT 等方法,但在数学场景下依然存 在 三大瓶颈: 1. 粗粒度图像区域选择 大部分方法依赖边界框(Bounding Box)来截取图像区域。但数学图像里的元素(比如坐标轴、几何图形、标注文字等)高度关 ...
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 05:16
机器之心报道 机器之心编辑部 上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。 在 机器之心的测试 中,七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分紧 随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。 其实,向今年数学卷发起挑战的大模型还有其他家,比如 Xiaomi MiMo-VL,一个只有 7B 参数的小模型 。 该模型同样挑战了 2025 年数学新课标 I 卷,结果显示, 总分 139 分,与 Qwen3-235B 分数相同,并只比 OpenAI o3 低一分 。 并且,相较于同样 7B 参数的多模态大模型 Qwen2.5-VL-7B, MiMo-VL 整整高出了 56 分 。 MiMo-VL-7B 和 Qwen2.5-VL-7B 是通过上传题目截图的形式针对多模态大模型进行评测,其余均是输入文本 lat ...
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 10:41
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 09:41AI Processing
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
量子位· 2025-05-24 04:38
MathIF团队 投稿 量子位 | 公众号 QbitAI 如果面前有两个AI助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么 选? 最近, 上海人工智能实验室 与 香港中文大学的研究团队 发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通过一个全新的评测基准 MathIF 揭示: 大模型越擅长复杂推理,越容易忽略用户的指令要求," 聪明 "和" 听话 "之间存在明显的矛 盾。 这项工作的灵感,源自实际使用推理模型(如o3)过程中的一个意外发现:相比许多经过强 化推理训练的大模型,GPT-4o在执行具体指令时反而更加"听话" 。也正是这种"越聪明、越 不听话"的真实体验,让研究团队开始系统性地研究推理能力与指令跟随之间的关系。 这一研究也引来知名博主的转发: 研究揭示越擅长数学推理的模型反而越难完全遵守指令,同时分析了模型大小与服从性的非 正相关现象,强调了推理能力与指令遵循之间的权衡。 MathIF:衡量推理模型"听话程度"的新基准 Math ...
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
量子位· 2025-05-07 09:33
FormalMATH团队 投稿 量子位 | 公众号 QbitAI 最强AI模型面对5560道数学难题,成功率仅16.46%?背后真相大揭秘。 香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等机构联合推出 FormalMATH形式化数学推理基准测试 ,含 5560道经过严格验证的数学题,覆盖从奥数到大学水平的代数、微积分、数论等领域。 形式化数学推理是人工智能领域公认的核心难题之一。 尽管大语言模型(LLM)在自然语言处理和代码生成等领域取得显著进展,但面对需要严格逻辑推导的数学定理证明任务时,其能力仍面临严 峻挑战。 FormalMATH:「超大规模」的形式化数学推理基准 规模突破:22.8倍于现有基准 FormalMATH包含5560个经过Lean4编译器验证的数学命题,涵盖代数、数论、微积分、离散数学等12个子领域,问题难度从国际数学奥林 匹克(IMO)竞赛级延伸至本科课程,规模是经典基准MiniF2F的22.8倍。 构建创新:人类在循环中的自动化流程用于自动形式化和语义一致性检测 为解决传统形式化数据依赖专家手动标注的瓶颈,研究团队提出了一套 「三阶段过滤」 框架: 现有LLM证 ...
计算机行业重大事项点评:DeepSeek-Prover-V2发布,专注数学推理
Huachuang Securities· 2025-05-04 09:28
证 券 研 究 报 告 计算机行业重大事项点评 DeepSeek-Prover-V2 发布,专注数学推理 事项: 4 月 30 日,DeepSeek 在 Hugging Face 发布了 DeepSeek-Prover-V2-671B 新模 型和 DeepSeek-Prover-V2-7B 增强模型,以及 DeepSeek-ProverBench 数据集, 随后在 GitHub 等平台上公布了论文信息。 评论: 行业研究 计算机 2025 年 05 月 04 日 推荐(维持) 华创证券研究所 证券分析师:吴鸣远 邮箱:wumingyuan@hcyjs.com 执业编号:S0360523040001 证券分析师:祝小茜 邮箱:zhuxiaoqian@hcyjs.com 执业编号:S0360524070011 行业基本数据 | | | 占比% | | --- | --- | --- | | 股票家数(只) | 336 | 0.04 | | 总市值(亿元) | 42,657.40 | 4.41 | | 流通市值(亿元) | 36,398.85 | 4.74 | 相对指数表现 | % | 1M | 6M | 12M ...
AI的下一个风口?听前DeepSeek成员辛华剑解读数学推理 | Deep Talk
锦秋集· 2025-05-03 08:51
4 月 30 日,DeepSeek在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模 型。 这是一款专注于形式化数学推理的开源大型语言模型。 数学推理长期以来被视为AI的"终极挑战"之一。形式化数学不仅是AI的"智力试金石",更是打开高价值商业场 景的钥匙。DeepSeek-Prover系列模型通过结合LLM的泛化能力与形式化工具(如Lean),首次实现了从自 然语言描述到机器可验证证明的大规模端到端转化。这一突破不仅可能将数学研究效率提升数倍,更将为AI在 金融建模、芯片验证、密码学等依赖数学严谨性的领域打开新可能性。 5月9日,DeepSeek前成员辛华剑,也将参加剑桥大学中国人工智能协会、锦秋基金、清华大学学生通用人工 智能协会、清华大学学生创业协会合作的"大模型开发者与AI基金合伙人的跨洋对谈活动"。他将进行《大语言 模型时代的形式化数学革命》的主题分享。 辛华剑现在是爱丁堡大学人工智能博士生、字节跳动研究实习生,专注于大语言模型在数学定理证明中的创新 应用。他在DeepSeek实习期间主导开发了专注于数学证明DeepSeek-Prove ...
刚刚!DeepSeek-Prover-V2-671B 发布,网友:DS 是假期终结者
程序员的那些事· 2025-05-01 02:04
以下文章来源于MaxAIBox ,作者Max MaxAIBox . MaxAIBox.com 汇集优秀 AI 工具,探索 AI 无限可能 DeepSeek 坏得很,假前给大家送劳动节礼物来了,不过这次不是 DeepSeek-R2。 4 月 30 日,DeepSeek 正式推出 DeepSeek-Prover-V2-671B,标志着 AI 数学推理能力迈入新纪元。 DeepSeek-Prover-V2-671B 是什么? 作为 DeepSeek 开源模型系列的新一代自动定理证明专家,该模型基于与 DeepSeek-V3 相同的 6710 亿参数混合专家(MoE)架构,专为 Lean 4 证明辅助框架中 的证明生成与验证而优化。 其 MoE 设计采用动态参数激活机制,单次推理仅调用约 370 亿参数(根据 DeepSeek 官方 MoE 架构报告推测,例如 V3 的技术方案),在保持强大推理能力的同 时显著提升计算效率。 该模型为多个领域带来革新可能: 技术架构解析 根据 DeepSeek-V3 等前代模型技术脉络,当前披露的核心规格如下: | Feature | Detail | Why it Matters ...