Workflow
大型推理模型
icon
Search documents
AI成为数学家得力助手还要多久
Ke Ji Ri Bao· 2025-06-17 01:18
为了打破这一局面,美国国防高级研究计划局今年4月启动了"指数性数学"计划,旨在开发一种能 极大提升数学研究效率的人工智能(AI)"合著者"系统。 几十年来,数学家借助计算机进行辅助计算或验证命题,如今的AI或许能更上层楼,挑战那些人 类长年未解的难题。不过,从能解高中题的AI,到能协助攻克前沿数学难关的AI,中间仍隔着一道鸿 沟。 解决重大难题仍力不从心 大型语言模型(LLM)并不擅长数学。它们常常出现"幻觉",甚至可能被误导相信2+2=5。但新一 代大型推理模型,如OpenAI的o3、Anthropic的Claude 4 Thinking等,展现出的进步令数学家眼前一亮。 今年,这些模型在美国数学邀请赛中的表现接近优秀高中生水平。不同于过去"一锤定音"式的输 出,这些模型开始尝试模拟数学家逐步推理的思考过程。 同时,一些将LLM与某种事实核查系统相结合的新型混合模型也取得了突破。例如,谷歌"深度思 维"的AlphaProof系统将语言模型与棋类AI——AlphaZero结合,成为首个取得与国际数学奥林匹克竞赛 银牌得主成绩相当的系统。今年5月,谷歌的AlphaEvolve模型更进一步,在多个长期未解的数学与 ...
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位· 2025-06-13 05:07
SafeKey团队 投稿 量子位 | 公众号 QbitAI 大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。 尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的"越 狱"攻击时,往往显得捉襟见肘,泛化能力有限。 同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。 来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的 SafeKey 框架,成功在不影响模型核心 能力的前提下,显著增强了其安全稳健性。 如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。 而紧随其后的 第一个句子 ,往往直接决定了整个回答的"安全调性"。 研究团队将其命名为" 关键句 "(Key Sentence):一个安全的"顿悟时刻"(Aha-moment)能否在此时被触发,是模型走向安全回答还是危 险回答的分水岭。 发现:大模型信息"越狱"的两大核心 SafeKey团队在探究模型为何会"越狱"成功时,获得了两大核心发现: 1."关键句"现 ...