MATH

Search documents
Kimi新模型数学反超DeepSeek!北大校友刘征瀛等领衔
量子位· 2025-07-11 07:20
白交 发自 凹非寺 量子位 | 公众号 QbitAI Kimi新模型数学超越DeepSeek了! 在定理证明这块,即便模型参数72B也能超越DeepSeek-Prover-V2的671B版本,实现SOTA。 这一新模型来自Numina组织和Kimi团队联合打造,前者曾在AI-MO竞赛中荣获进步一等奖,陶哲轩亲自为他们颁奖。 有意思的是,这俩AGI团队不是第一次交手。 两个月前DeepSeek刚发布了DeepSeek-Prover V2版本,然后直接在普特南测试上将记录刷新到 49道 。 当时第一名正好是Kimina-Prover,而它只能做出10道题。 | | | | # | Model | num- solved | | | --- | --- | --- | --- | | | | | compute | | 1 | Kimina-Prover-7B-Distilly | 10 | pass@192 | | 2 | Self-play Theorem Prover® | 8 | pass@3200 | | 3 | Goedel-Prover-SFT | 7 | pass@512 | | 4 | ABEL ...
智谱获10亿战略投资 商业化之路仍待开启
Zhong Guo Jing Ying Bao· 2025-07-09 13:23
中经记者 李昆昆 李正豪 北京报道 近日,在智谱开放平台产业生态大会上,浦东创投集团和张江集团宣布对智谱进行总额10亿元的战略投 资,并于近期完成首笔交割。 智谱CEO张鹏透露智谱两则信息:一是开源发布新一代通用视觉语言模型GLM-4.1V-Thinking,以推理 能力为核心突破点,刷新10B级别多模态模型性能上限;二是MaaS全新上线Agent聚合平台"应用空 间",全面激活行业场景中的AI能力,联动Z基金启动Agent开拓者数亿元专项扶持计划。 关于公司经营及发展战略等问题,《中国经营报》记者采访智谱方面,截至发稿,对方尚未回复。 谈及智谱AI的经营情况,爱分析首席分析师李喆告诉记者,受到DeepSeek这些开源大模型影响,智谱 AI业绩情况可能不达预期。我们了解到情况是,2025年年初整个智谱公司经营策略,从"卖模型"向"卖 服务"方向进行调整。一方面是2024年签订的模型项目怎么跟客户解释并完成交付履约工作,另一方面 是2025年新签订项目大部分是模型应用开发类,项目交付压力会比较大。 "瓶颈主要是算力资源利用率低,商业化缺少优势。"李喆说,智谱定位是基础大模型公司,不像其他做 基础大模型的公司(阿 ...
黑龙江:“情绪经济”升温 解锁消费新密码
Sou Hu Cai Jing· 2025-07-03 23:58
Core Insights - The report indicates that 60% of consumers prioritize emotional consumption, with 90% willing to pay a premium for emotional value, projecting the emotional consumption market in China to exceed 2 trillion yuan by 2025 [1] - Heilongjiang is experiencing a surge in "emotional economy," reflecting a trend of consumption upgrade [1] Group 1: Emotional Consumption Trends - The emotional consumption market is characterized by a shift from traditional consumption to a focus on emotional value and psychological satisfaction [20] - The pet café in Harbin, featuring a snow fox named "Doubao," exemplifies how unique experiences can attract consumers seeking emotional comfort [2][5] - The urban landscape of Harbin offers diverse emotional experiences, catering to different age groups and their emotional needs [6] Group 2: Market Growth and Statistics - The urban pet market in China is projected to surpass 300 billion yuan in 2024, with a year-on-year growth of approximately 7.5% [5] - The cultural tourism IP market in China is expected to reach 431.4 billion yuan in 2024, reflecting a year-on-year increase of 15.5% [5] - The number of emotional and mental health-related enterprises in Heilongjiang has seen a significant increase, with a 220% year-on-year growth in registrations since 2024 [20] Group 3: Consumer Behavior and Preferences - Consumers are increasingly seeking emotional outlets, with many visiting emotional support establishments to cope with stress and anxiety [15][17] - The rise of emotional consumption is evident across various demographics, with older consumers also engaging in experiences that provide emotional healing [6][21] - Unique retail environments that emphasize aesthetic design and emotional resonance are driving consumer spending in the emotional consumption sector [14]
首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!
机器之心· 2025-06-30 09:49
论文链接:https://arxiv.org/abs/2506.20512 代码仓库:https://github.com/GAIR-NLP/OctoThinker 近期,一份来自上海创智学院、上海交通大学的前沿研究论文吸引了人工智能领域的广泛关注。该论文深入探讨了不同基础语言模型家族(如 Llama 和 Qwen)在 强化学习(RL)训练中迥异表现的背后原因,并提出创新性的中期训练(mid-training)策略,成功地将 Llama 模型改造成高度适配强化学习的推理基础模型,显 著缩小了其与天生擅长 RL 扩展的 Qwen 模型之间的性能差距,为下一代 reasoning 能力 AI 系统的开发提供了关键的科学基础和技术路径。 论文发布后在社交媒体引发广泛关注,Meta AI 研究科学家、即将赴 UMass Amherst 任助理教授的 Wenting Zhao 率先盛赞:"Truly impressed by how an academic lab just figured out a lot of mysteries in mid-training to close the RL gap betwee ...
网易有道开源首个专注数学教育的模型
news flash· 2025-06-23 09:15
网易有道宣布正式开源"子曰3"系列大模型的数学模型(英文名称Confucius3-Math)。这是国内首个专 注于数学教育,可在单块消费级GPU上高效运行的开源推理模型。 ...
大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
机器之心· 2025-06-22 04:26
另一方面,当前主流的大语言模型是在海量自然语言上训练出来的。它们虽然无法直接生成可被形式系统接受的机器检查证明,却在 "非形式化推理" 方面表现出色 —— 也就是说,它们往往能给出看似合理、直觉对路的答案,并模仿人类在解决问题初期的思维方 式。这种能力虽然不符合传统意义上的形式证明要求,但在探索性的数学过程中具有重要价值。 为此,斯坦福大学、加州大学伯克利分校与麻省理工学院的研究团队提出了一种创新方法:将不等式证明任务拆解为两个 "非形式化但 可验证" 的子任务,即 "界限估计" 和 "关系预测",并基于此构建了第一个奥林匹克级不等式证明基准数据集 ——IneqMath。这一框 架提供了一种介于完全形式化验证与自然语言生成之间的 "中间层",可以逐步审查模型的推理链条,从而判断其是否真正掌握了推理 结构,而不仅仅是在猜测答案。 这正是当前形式化数学所试图解决的问题。近年来,Lean、Coq 等系统为数学提供了严格可验证的推理机制,每一步推导都必须符合 逻辑规则,可被计算机检验。然而,这类系统对语句的表达精度要求极高,建模成本大、自动化程度有限,尤其在面对中学到奥数级别 的不等式问题时,很难做到规模化应用。 使 ...
腾讯研究院AI速递 20250619
腾讯研究院· 2025-06-18 15:22
生成式AI 一、 谷歌Gemini 2.5 正式 版 三箭齐发,首次亮相Flash-Lite 1. 谷歌发布Gemini 2.5全系列模型,其中Flash-Lite版本速度最快、性价比最高,输入仅0.1 美元/百万token; 2. Gemini 2.5在玩宝可梦游戏时展现类人行为,生命值低时会"恐慌"导致推理能力下降; 3. 2.5系列采用稀疏MoE架构,原生支持多模态和百万级token长文本,性能全面超越前代。 https://mp.weixin.qq.com/s/cIfKxjMYxSDnlFLqrA8HlQ 二、 微软分享三大王炸算法:突破大模型推理瓶颈,性能大涨 1. 微软发布三大创新算法rStar-Math、LIPS和CPL,通过蒙特卡洛树搜索和代码增强CoT等 方法突破大模型推理瓶颈; 2. rStar-Math通过自我进化和Python代码验证提升数学推理质量,LIPS结合符号工具和大 模型实现数学证明策略优化; 3. CPL算法通过高层次抽象计划空间搜索和Step-APO学习关键步骤,显著提升模型跨任务 泛化能力。 https://mp.weixin.qq.com/s/egkefqwjc9_3 ...
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
量子位· 2025-06-17 07:41
MathFusion通过三种"融合策略",将不同的数学问题巧妙地结合起来,生成封装了二者关系和结构的新问题。 △ 越靠左上角,模型表现越好且数据效率越高。 核心思想:三种"融合策略" MathFusion团队 投稿 量子位 | 公众号 QbitAI 当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关 联性。 为了打破这种局限,让大模型学会"串联"与"并联"知识,上海AI Lab、人大高瓴等团队联合提出了 MathFusion ,通过指令融合增强大语言 模型解决数学问题的能力。 仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。 顺序融合(Sequential Fusion) 将两个问题串联起来,前一个问题的答案作为后一个问题的某个输入条件。这就像解决一个多步骤问题,模型需要先解出第一步,才能进 行第二步,从而学会处理问题间的依赖关系。 并列融合(Parallel Fusion) 将两个相似的问题融合在一起,对它们的数学概念进行识别和融合,在原来问题的基础上提出一道新 ...
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 10:41
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 09:41AI Processing
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...