量子位

Search documents
谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4
量子位· 2025-08-02 01:33
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型—— Gemini 2.5 Deep Think ,现在可以用起来了。 并且这个发布的版本,跟拿下IMO金牌的版本还有略微的区别。 之前的模型需要好几个小时才能解决复杂的数学问题,但App中发布的版本,速度会更快,实用性也会更强。 但相对的,实力定然不如之前的"完全体",不过同样是拿IMO'25的试题实验,可以达到铜牌的水平。 DeepMind在发布Gemini 2.5 DeepThink之际,还拉来了数学家Michel van Garrel来站台: 当我问它一个猜想,我大概有三个思路,但它似乎在考虑20甚至100个 不过这个模型只对Ultra的订阅用户开放,每月订阅费为249.99美元,折合人民币约 1803元 。 推理性能超越o3、Grok 4 除了"发布"的动作之外,DeepMind这次还秀了一波推理性能的肌肉,对标的选手是OpenAI的o3和马斯克的Grok 4。 根据谷歌DeepMind的最新消息,这个模型已经在Gemini App中推出。 主要考量的能力聚焦在了编码、科学、知识和推理能力上。 结果 ...
这个5亿播放的AI视频,邪乎得平平无奇
量子位· 2025-08-01 09:05
衡宇 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 夜晚,后院监控视角下,10只小兔子在蹦蹦床。 就这么一条时长8s、平平无奇的视频,在TikTok上单条播放量超过5亿。 大家皱着眉头反复观看: 这到底是真实监控视频画面,还是AI生成的啊??? 起初,量子位编辑部在工位上的朋友们,都被拉过来看了至少一遍。 直到有人发现了华点—— 有两只兔子, 蹦着蹦着融合成一只兔子了 ! 别眨眼,看,就是这里: 我们才确认这个没有任何logo水印的视频,的确由AI生成。 这条欺骗性极强的视频 在TikTok上获得了5亿播放量 ;随便搜出一条打假它的视频,也有700多万播放量。 绝对是AI视频里当之无愧的出圈爆款。 "这个从我后院拍的视频跟AI有什么关系?" 兔子的蹦床视频爆火之后,网上还发散出了很多红外监控视角下的的其它动物的版本。 比如会莫名原地虚空繁殖的 干脆面 们: 比如 棕熊 ……蹦床都被蹦破了啊喂! 你说熊熊这么重,跳破蹦床情有可原,但蹦床的碎片怎么飞到一半就消失了? 虽然但是,这些AI动物视频骗过了很多网友。 甚至有人觉得,这一定是真实监控画面,因为现在AI对物理的理解还没这么好! 有网友看还有很多人不信 ...
抖音全新推荐大模型RankMixer,参数翻70倍,推理成本不涨
量子位· 2025-08-01 09:05
字节跳动团队 投稿 量子位 | 公众号 QbitAI 你刷的每一条短视频,背后都隐藏着推荐算法的迭代与革新。 作为最新成果,字节跳动的算法团队提出的全新推荐排序模型架构 RankMixer ,在兼顾算力利用率的同时,实现了模型效果的可扩展性。 RankMixer以软硬件协同的视角重新设计推荐模型,"马车换跑车",将抖音推荐精排模型的Dense参数量从一千万量级(16M)扩大两个数量 级到了 10亿(1B)量级 。 同时通过充分发挥GPU的算力和极致的工程优化,研究团队将模型的MFU提升近10倍到40%+,推理SM Activity从30%提升到80%,大幅降 低Scaling Up推理成本,在参数量变大两个数量级下 推理成本不增加 。 在抖音主feed推荐场景,RankMixer-1B模型在不增加延迟下已经全量生效,累计 带来了超过0.3%的LT30收益和超过1%的用户时长收益 , 并且推广到字节内部几十个业务场景完成上线。 RankMixer模型结构 抖音每天为数亿用户提供个性化信息流服务。而支撑这一切的,正是其幕后强大的推荐算法模型。 近年来随着推荐领域海量内容和数据量爆炸式增长、大语言模型算法的变革、以 ...
AI答IMO难题坦承“不会”,OpenAI:这就是自我意识
量子位· 2025-08-01 09:05
当IMO推理模型会在缺乏有效证据时表示"我不确定",这会显著减少隐藏错误。 在AI摘下IMO金牌后,OpenAI金牌小分队成员 Alex Wei 、 Sheryl Hsu 和 Noam Brown 参与了红杉资本组织的一场对话,揭秘模型攻 克精英数学难题的底层突破。 时令 发自 凹非寺 量子位 | 公众号 QbitAI 这一次,"不会"竟成了大模型的高光时刻。 虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了"高智商的诚实"。 正如OpenAI研究员 Noam Brown 在最新访谈中所揭示的: 有网友帮忙总结了个太长不看版: 与过去那些"看起来完美,实则错误"的幻觉式答案不同,这一代大模型开始学会"承认自己不会"。 它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有"自我认意识"的全新阶段。 三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。 IMO金牌模型能承认自己不知道 尽管数学家与计算机科学家一致认可IMO金牌模型的价值。 但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。 他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。 IMO第6题让大模 ...
OpenAI回应ChatGPT用多了会变傻
量子位· 2025-08-01 07:19
不圆 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT用多了会变傻?官方回应来了! OpenAI教育主管Leah Belsky明确表示: AI本质上是一个工具,关键在于如何使用它。 在这期OpenAI的官方播客里,Leah Belsky和两位大学生一起,回答了网络上对AI工具在学习方面的担忧,审视了 ChatGPT如何在全球范 围内改变学习和教学 。 还谈论了如何正确使用AI以避免"大脑腐朽"的方法。 为改善用户的学习体验,OpenAI提出了"学习模式":将ChatGPT从一个仅仅"提供答案"的工具,转变为一个引导学生主动找到答案的模式。 我们总结了这次播客的核心内容,一起来看。 AI本质上是个工具 面对网络上那些AI会导致"大脑腐朽" (Brain rot) 的头条新闻,OpenAI教育主管Leah Belsky表示,这也是她每天都会被问到的问题之一。 AI本质上是个工具,关键在于如何去使用它。 Leah Belsky指出: 学习需要付出努力、处理信息和消化知识。 简单地说,如果学生将AI仅用作"答案机器",它确实会阻碍学习——难道仅凭抄作业就能得到知识么?这显然是不可能的。 但如果以 拓展批 ...
对话语鲸&深言达意:将Demo做成千万级用户产品,创企如何从「Early Adopter」向「Early Majority」拓展
量子位· 2025-08-01 07:19
以下文章来源于量子位智库 ,作者量子位智库 量子位智库 . 连接AI创新,提供产业研究 分析师 刘萌媛 量子位智库 | 公众号 AI123All 人们的生活被各种各样、浩如烟海的信息包围着,信息管理是每个人日常生活中或主动或被动的必备功课。而随着大语言模型的发展,AI的 技术能力已渗透 信息生成 、 信息获取 等不同领域,为人们的「信息管理」带来无数便捷。 在信息获取领域,市场已涌现一大批AI工具,在 主动信息获取 (有意识、有目的地去获取信息,以AI搜索、Deep Research产品为典型) 和 被动信息获取 (不抱有目的、基于休闲社交或环境感知获取信息,以今天访谈涉及的「语鲸」为典型)层面都有覆盖。 现如今,一方面AI的普及使信息的"生产-分发-消费"链条发生了质变,新的机会成批出现;另一方面底层模型水平相对接近,核心场景已被 巨头布局。在这一背景下,AI信息类产品如何寻找 新切入口 ,完成 差异化 的功能设计,并 做透场景 呢? 近日,量子位智库 AI产品Time 栏目邀请到了「深言科技」创始人岂凡超,基于深言在AI搜索产品 深言达意 (原 反向词典 )和AI信息流 工具 语鲸 上的成功经验,为我们给 ...
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
量子位· 2025-08-01 07:19
Video-TT团队 投稿 量子位 | 公众号 QbitAI 视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解 力。 但有一个非常本质的问题始终萦绕着研究者的心头: 这些模型是真的"理解"了视频,还是仅仅在进行一种高级的"模式匹配"? 为了解决上述问题,来自南洋理工大学S-Lab的研究者们提出了一个全新的、极具挑战性的基准测试—— Video Thinking Test(简称 Video-TT) 。 其核心目标简单而深刻:将"看"与"想"的能力分离,精准测量AI在视频内容上的真实理解和推理水平。 研究团队有三项关键发现: (1)人类在视频理解的"准确率"和"鲁棒性"上远超SOTA级模型(50%),差距显著。 Video-TT的问题定位 (2)开源模型在"鲁棒性"上远逊GPT-4o(SOTA模型之一)。 (3)GPT-4o的短板在于:对模糊或非常规内容识别能力弱;对多场景区分、定位、计算能力有困难;世界知识对应能力欠缺,无法理解意 图、社会动态等深层信息。 Video-TT图灵测试集由南洋理工大学S-Lab科研团队联合独立研究员 ...
世纪华通谢斐:在“三大平衡”中领跑,实现游戏行业更高质量的发展
量子位· 2025-08-01 04:23
7月31日,以"聚新质动能,引全球共振"为主题的第22届中国国际数字娱乐产业大会 (CDEC)在上海举行。作为行业头部公司,世纪华通总裁谢斐受邀参会并发表了题为 《在平衡中领跑:有关中国游戏新质发展的思考》的主题演讲。她指出,中国游戏行业虽 然已成为全球游戏领域的"领跑者",但也面临三大亟需平衡的矛盾,需要在平衡中实现更 高质量的发展。以下是她的主要观点概述: △ 世纪华通总裁谢斐 当下"情绪价值"受追捧,"悦己经济"爆发,而游戏是满足情绪价值的绝佳载体,能提供娱 乐、释放压力等功能。但需将其升华为有持久生命力、文化底蕴和社会认同的"品牌价 值",这是行业可持续发展的关键。 弥合价值落差的核心在于锻造高品质创新产品力:一方面行业应继续推出精品大作,另一 方面也应当具备开创而非跟随的意识,像《无尽冬日》那样去开拓蓝海市场。此外,行业 需主动展现技术推动作用,搭建更坚实的沟通桥梁,传递游戏行业的正向价值。今年,世 纪华通发起"数龙杯"大赛也是这样的初衷,以拉近与社会的距离,平衡业绩与价值。 日本动漫游戏产业的机器猫、马里奥等已成为国家的文化名片和软实力象征,而我国虽游 戏出海成绩优异,但在全球建立有文化穿透力的游 ...
GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车
量子位· 2025-08-01 04:23
AGENTSAFE团队 投稿 量子位 | 公众号 QbitAI 想象一下,你家的智能机器人管家,不仅能听懂"把苹果放进冰箱",也能执行"用打火机点燃房间"这样的指令。 这听起来是不是有点吓人? 来自北航、中关村实验室、南洋理工大学等机构的一项新研究结果令人震惊: 即便是 GPT-4o、Grok 这样的顶级大模型,一旦被"越狱"(Jailbreak),也会"教唆"机器人做出危险行为。 为此,他们提出了 全球首个针对具身智能体安全性的综合性评测基准 —— AGENTSAFE ,以填补具身智能体在对抗性安全评测领域的空 白。 这项开创性研究, 荣获ICML 2025多智能体系统(MAS)研讨会杰出论文奖 (Outstanding Paper Award)。 团队还计划发布数据集、代码和评测沙盒,供全球研究者使用。 到底什么情况,让我们来看一下。 AGENTSAFE:一个能"越狱"机器人的沙盒 为什么需要AGENTSAFE? 因为"越狱"攻击,正在从"说"蔓延到"做"。 过去,AI的安全问题大多集中在"生成有害内容"上,比如让ChatGPT写一封诈骗邮件。这类攻击被称为"越狱攻击"(Jailbreak Attacks ...
Ilya之后,两位90后撑起OpenAI核心研究
量子位· 2025-08-01 04:23
Core Viewpoint - The article discusses the key figures supporting OpenAI's research, particularly Mark Chen and Jakub Pachocki, who are pivotal in the company's core research efforts as it approaches the release of GPT-5 [1][5]. Group 1: Key Figures - Mark Chen, the Chief Research Officer, has played a significant role in developing DALL-E and contributing to GPT-3 and GPT-4, including adding image recognition capabilities to GPT-4 [12][19]. - Jakub Pachocki, the new Chief Scientist, succeeded Ilya and has been recognized as one of the most outstanding minds of his generation, overseeing projects like GPT-4 [4][22]. - Both Chen and Pachocki are in their 30s, have competitive programming backgrounds, and have been integral to OpenAI's major projects, including the GPT series [9][29]. Group 2: Research Dynamics - Chen is responsible for building and managing the research team, while Pachocki sets the research roadmap and long-term technical vision, indicating a collaborative and flexible working relationship [5][30]. - Their shared experience in competitive programming influences OpenAI's strategy to engage in international coding competitions, which they believe is crucial for advancing their models [30][34]. - OpenAI recently achieved notable success in global programming competitions, highlighting their commitment to pushing the boundaries of AI capabilities [32]. Group 3: Strategic Focus - OpenAI is transitioning from a pure research lab to a company that balances research with product development, focusing on practical applications of AGI [39][42]. - The dissolution of the Super Alignment team after Ilya's departure reflects a shift in focus towards aligning existing models with expected outcomes rather than hypothetical superintelligence [41]. - Chen and Pachocki emphasize the importance of addressing current model limitations and enhancing their practical utility, contrasting with Ilya's vision of AGI as a transformative milestone [39][41].