Workflow
推理模型
icon
Search documents
速递|Meta两周挖走至少7名OpenAI成员,其中4名华人,否认1亿美元签约金,CTO揭开高管薪酬复合结构
Z Potentials· 2025-06-29 05:20
图片来源: Unsplash 最新从 OpenAI 加入 Meta 的赵博士是 OpenAI 多款模型的核心贡献者,包括 o1-mini 和 o3-mini 模 型。后者作为该公司的小型快速推理模型,其性能表现令开发者印象深刻。去年秋季, o1-mini 在数 学能力上甚至超越了 OpenAI 更大的 o1-preview 模型。 根据领英资料显示,赵博士在 2022 年 6 月加入 OpenAI 前,曾是斯坦福大学计算机科学专业的博士 候选人。 根据余嘉辉的领英个人资料显示,他曾领导 OpenAI 的一个感知技术团队,专注于研究人工智能如何 收集和理解周围环境信息。毕书超在领英资料中显示为 OpenAI 多模态后训练负责人。任宏宇同样是 o1-mini 和 o3-mini 项目的核心贡献者。根据赵的公开研究资料显示,他曾在 2018 年与任合作发表过 一篇关于生成式 AI 模型偏见的论文。 过去一周, Meta 从 OpenAI 苏黎世办公室挖走了三名研究人员。这三人专注于多模态 AI 研究,即能 够识别和生成文本、视频及音频的模型。他们于去年底从 Google DeepMind 加入 OpenAI 。研究 ...
Meta挖角OpenAI核心研究员 强化AI推理模型布局
news flash· 2025-06-26 16:31
Meta挖角OpenAI核心研究员 强化AI推理模型布局 金十数据6月27日讯,据科技媒体TechCrunch报道,知情人士表示,Meta已聘请极具影响力的OpenAI研 究员Trapit Bansal,加入公司新成立的AI超级智能部门,从事AI推理模型相关工作。Bansal的加入可能 为Meta的AI超级智能实验室带来重要助力。该实验室目前已汇聚多位行业领军人物,包括前ScaleAI首 席执行官Alexandr Wang、前GitHub首席执行官Nat Friedman以及Safe Superintelligence联合创始人Daniel Gross。值得注意的是,Meta目前尚未在其开源模型家族Llama系列中,公开推出任何AI推理模型。近几 个月来,扎克伯格正通过高薪密集招募人才,以组建Meta全新的AI团队,据传为顶级研究员提供的薪 酬方案高达1亿美元。不过,Bansal此次加盟的具体薪资待遇尚未对外披露。 订阅人工智能动态 +订阅 ...
斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?
自动驾驶之心· 2025-06-19 10:47
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 今天 大模型之心Tech 为大家分享一篇大模型相关论文。本文 深入 探讨了 多模态推理模型中推理能力与幻觉之间的平衡 问题 。如果您有相 关工作需要分享,请在文末联系我们! 本文只做学术分享,如有侵权,联系删文 论文作者:Chengzhi Liu等 作者单位:加州大学、斯坦福大学 项目主页:https://mlrm-halu.github.io/ 解决方案: 不如设计一个能跟踪推理长度变化的指标吧! 于是, RH-AUC 诞生了——它就像一个"动态平衡仪",能画出"推理长度vs.感知准确率"的曲线,算出曲 线下面积(AUC),数值越高,说明模型在不同推理长度下越能"稳得住视觉基本盘"。 前言 自从以 DeepSeek-R1 为代表的 推理LLM 进入研究者广泛讨论范围后, 多模态推理模型 也在推理LLM的基础上,数月内掀起了狂热浪潮,各种工作层出不穷 (PS:这里可查看我们社区为大家汇总的多模态推理模型相关工作 这里查看「多模态推理模型」热门工作汇总(上)~ ; 盘一盘「多模态推理模型」近期热门工作 (下)~ )。 今天就 ...
MiniMax发布开源混合架构推理模型M1,M1所需的算力仅为DeepSeek R1的约30%
news flash· 2025-06-17 08:32
上海AI独角兽MiniMax正式开源推理模型MiniMax-M1(以下简称"M1")。MiniMax称,这是全球首个 开放权重的大规模混合注意力推理模型。凭借混合门控专家架构(Mixture-of-Experts,MoE)与 Lightning Attention 的结合,M1在性能表现和推理效率方面实现了显著突破。实测数据显示,M1系列在 长上下文理解、代码生成等生产力场景中超越多数闭源模型,仅微弱差距落后于顶尖闭源系统。 ...
AI成为数学家得力助手还要多久
Ke Ji Ri Bao· 2025-06-17 01:18
为了打破这一局面,美国国防高级研究计划局今年4月启动了"指数性数学"计划,旨在开发一种能 极大提升数学研究效率的人工智能(AI)"合著者"系统。 几十年来,数学家借助计算机进行辅助计算或验证命题,如今的AI或许能更上层楼,挑战那些人 类长年未解的难题。不过,从能解高中题的AI,到能协助攻克前沿数学难关的AI,中间仍隔着一道鸿 沟。 解决重大难题仍力不从心 大型语言模型(LLM)并不擅长数学。它们常常出现"幻觉",甚至可能被误导相信2+2=5。但新一 代大型推理模型,如OpenAI的o3、Anthropic的Claude 4 Thinking等,展现出的进步令数学家眼前一亮。 今年,这些模型在美国数学邀请赛中的表现接近优秀高中生水平。不同于过去"一锤定音"式的输 出,这些模型开始尝试模拟数学家逐步推理的思考过程。 同时,一些将LLM与某种事实核查系统相结合的新型混合模型也取得了突破。例如,谷歌"深度思 维"的AlphaProof系统将语言模型与棋类AI——AlphaZero结合,成为首个取得与国际数学奥林匹克竞赛 银牌得主成绩相当的系统。今年5月,谷歌的AlphaEvolve模型更进一步,在多个长期未解的数学与 ...
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位· 2025-06-13 05:07
SafeKey团队 投稿 量子位 | 公众号 QbitAI 大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。 尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的"越 狱"攻击时,往往显得捉襟见肘,泛化能力有限。 同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。 来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的 SafeKey 框架,成功在不影响模型核心 能力的前提下,显著增强了其安全稳健性。 如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。 而紧随其后的 第一个句子 ,往往直接决定了整个回答的"安全调性"。 研究团队将其命名为" 关键句 "(Key Sentence):一个安全的"顿悟时刻"(Aha-moment)能否在此时被触发,是模型走向安全回答还是危 险回答的分水岭。 发现:大模型信息"越狱"的两大核心 SafeKey团队在探究模型为何会"越狱"成功时,获得了两大核心发现: 1."关键句"现 ...
专为实际应用场景设计,旨在追赶美中,欧洲首个AI推理模型来了
Huan Qiu Shi Bao· 2025-06-11 22:33
但据科技行业媒体"TechCrunch"网站10日报道,米斯特拉尔在开发推理模型方面仍相对落后。报道提到,从米斯特拉尔自己的基准测试来看, Magistral似乎不是特别具有竞争力。在评估模型物理、数学和科学能力的测试中,Magistral Medium的表现逊于谷歌的Gemini 2.5 Pro和美国AI初创 企业Anthropic的Claude Opus 4。在流行的编程基准测试上,Magistral Medium也未能超越Gemini 2.5 Pro。报道推测,或许正因如此,米斯特拉尔 在其博客文章中强调了Magistral的其他优势。米斯特拉尔声称,Magistral在Le Chat(类似ChatGPT的聊天机器人平台)上的回答速度是竞争对手 的"10倍",并支持包括意大利语、阿拉伯语、俄语和简体中文在内的多种语言。 据路透社报道,随着单纯依靠增加数据和算力来构建更大规模语言模型的传统方法开始显现局限,推理模型可能成为提升AI能力的重要突破方 向。虽然美国科技企业OpenAI和谷歌等早已发布推理模型,中国深度求索公司(DeepSeek)也强势崛起成为有力竞争者,但米斯特拉尔推出的推 理模型标志着欧洲在 ...
OpenAI发布最强模型o3-pro
第一财经· 2025-06-11 05:29
2025.06. 11 本文字数:1976,阅读时长大约3分钟 根据OpenAI内部测试,o3-pro在数学基准测试AIME 2024中超越谷歌最强的模型Gemini 2.5 Pro,在 博士级科学测试GPQA Diamond中击败Anthropic 最强的Claude 4 Opus,展现出推理模型领域的领 先性能。 不过,在X上的评论区有用户反馈,"o3 - pro什么时候能回复我的问题?已经加载了45分钟了。"显示 出推理模型的回复速度问题。 作者 | 第一财经 刘晓洁 基座模型圈的迭代已成循环,继DeepSeek和谷歌进行了一轮模型更新后, OpenAI接替开始发布新的 模型版本。 北京时间6月11日,OpenAI在X上宣布o3-pro正式上线,向Pro和Team用户开放,企业、教育用户将在 下周获得使用权限。 OpenAI CEO奥尔特曼(Sam Altman)发文称,"o3-pro太聪明了!我第一次看到它相对于 o3 的胜率 时,简直不敢相信。" 2025年,能够进行真正认知工作的代理系统将出现; 2026年,能够提出新颖见解的系统可能会出现; 2027年,能够在现实世界中执行任务的机器人可能会出现 ...
Mistral AI推出首个AI推理模型
news flash· 2025-06-10 23:38
6月10日,法国科技公司Mistral AI表示,该公司推出首个AI推理模型Magistral,将以开放版和企业版两 种形式发布。Mistral AI称,该模型通过逻辑推理生成响应,同时融合跨专业领域的专业知识,提供可 追踪和验证的透明推理过程,旨在与AI发展前沿的竞争对手保持同步。(智通财经) ...
WWDC前夕,苹果论文“炮轰”AI推理模型“假思考”,测试方法遭质疑
Mei Ri Jing Ji Xin Wen· 2025-06-09 11:06
每经记者|宋欣悦 每经编辑|高涵 当地时间6月6日,苹果机器学习研究中心发表论文《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》。论文作者包括谷歌大脑联合创始人 Samy Bengio(图灵奖得主Yoshua Bengio的弟弟)。 该论文认为,现有的推理模型看似会"思考",但其实并没有稳定、可理解的思维过程,所谓的推理思考只是一种"幻象"。 论文发布后引发AI圈热议,被部分观点解读为"苹果否定所有大模型的推理能力"。也有研究人员提出反驳,认为苹果的测试方法存在问题。AI研究者Lisan al Gaib在复现论文中的汉诺塔测试后发现,模型根本不是因为推理能力不佳而失败,而是因为输出token限制。 图片来源:论文《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》 苹果"炮轰"AI推理模型:所谓的思考只是一种"幻象" 论文指出,OpenAI、Anthropic、谷歌和DeepSeek等公司纷纷推出带有"链式思考"(Chain-of-Thought,CoT)能力的模型,并声称它们更接近"类人思维"。 然而,该论文认为,现有的推理模型看似会"思考",但其实并没有稳定、可理解的思维过程,所谓的推 ...