机器之心

Search documents
DeepMind夺得IMO官方「唯一」金牌,却成为OpenAI大型社死现场
机器之心· 2025-07-22 04:25
机器之心报道 机器之心编辑部 今年的突破来自 Gemini Deep Think,这是一个增强型推理系统,采用了研究人员所谓的并行思维。与遵循单一推理链的传统人工智能模型不同,Deep Think 会同 时探索多种可能的解决方案,最终得出答案。 哈萨比斯在后续帖子中解释道:谷歌的模型以自然语言进行端到端运行,直接从官方问题描述中生成严格的数学证明。并强调,该系统在比赛标准的 4.5 小时时限 内完成了任务。 刚刚,谷歌 DeepMind 宣布,其新一代 Gemini 进阶版模型在 IMO 竞赛中正式达到金牌得主水平,成功解决了六道超高难度试题中的五道,拿下 35 分(满分 42 分),成为首个获得奥赛组委会官方认定为金牌的AI系统。 更重要的是,该系统首次证明人工智能无需依赖专业编程语言,仅通过自然语言理解即可攻克复杂数学难题。 谷歌 DeepMind 首席执行官哈萨比斯在社交媒体平台 X 上强调:这是官方结果! 谷歌这项成绩远超其在 2024 年的表现。当时,AlphaProof 和 AlphaGeometry 系统组合解决了六个问题中的四个,荣获银牌。 谷歌这次官宣,让 OpenAI 处于尴尬的处境,毕竟 ...
行业新突破:行为基础模型可实现高效的人形机器人全身控制
机器之心· 2025-07-22 04:25
人形机器人作为用于复杂运动控制、人机交互和通用物理智能的多功能平台,正受到前所未有的关注。然而,由于其复杂的 动力学、欠驱动和多样化的任务需求,实现高效的人形机器人全身控制 (Whole-Body Control,WBC) 仍然是一项根本性的挑 战。 虽然基于强化学习等方法的控制器在特定任务中展现出优越的性能,但它们往往只具有有限的泛化性能,在面向新场景时需 要进行复杂且成本高昂的再训练。为了突破这些限制,行为基础模型(Behavior Foundation Model,BFM)应运而生,它利 用大规模预训练来学习可重用的原始技能和广泛的行为先验,从而能够零样本或快速适应各种下游任务。 来自香港理工大学、逐际动力、东方理工大学、香港大学和 EPFL 等知名机构的研究者合作完成题为 《A Survey of Behavior Foundation Model: Next-Generation Whole-Body Control System of Humanoid Robots》 的长文综述,首次聚焦行为基础模型在 人形机器人全身控制中的应用。 该综述系统性地梳理了当前 BFM 的最新进展,从预训练(Pre- ...
关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章
机器之心· 2025-07-22 04:25
机器之心报道 机器之心编辑部 我们知道,训练大模型本就极具挑战,而随着模型规模的扩大与应用领域的拓展,难度也在不断增加,所需的数据更是海量。 大型语言模型(LLM)主要依赖大量文本数据,视觉语言模型(VLM)则需要同时包含文本与图像的数据,而在机器人领域,视觉 - 语言 - 行动模型(VLA)则 要求大量真实世界中机器人执行任务的数据。 目前而言,Agent 是我们走向通用人工智能(AGI)的重要过渡。训练 Agent 则需要带有行动标签的真实交互数据,而获取这类数据的成本远比从网页上获取文本 与图像的成本高昂得多。 因此,研究者一直在尝试寻找一种替代方案,来实现鱼和熊掌兼得的效果:既能够降低数据获取成本,又能够保证大模型训练成果,保持基础模型训练中常见的 大规模数据带来的优势。 加州大学伯克利分校副教授,Physical Intelligence 的联合创始人,强化学习领域大牛 Sergey Levine 为此撰写了一篇文章,分析了训练大模型的数据组合,但他却 认为,鱼和熊掌不可兼得,叉子和勺子组合成的「叉勺」确实很难在通用场景称得上好用。 替代数据 尽管在视觉感知和自然语言处理任务中,真实世界数据一直被视 ...
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击
机器之心· 2025-07-21 08:43
为应对这一挑战,已有方法尝试用跨模态安全微调、系统提示词设计或外部判别模块来加固模型防线。然而,这些方法普遍存在训练成本高、泛化能力差、甚至 误判正常输入的风险。 模型其实 "心里有数":越狱时隐藏状态在报警 来自香港中文大学 MMLab 与淘天集团未来生活实验室的研究者提出了 HiddenDetect—— 种无需训练的越狱检测新方法。核心作者包括姜一雷,谭映水,高欣颜, 岳翔宇。 他们的核心发现是:即使 LVLMs 表面上被越狱、生成了不当内容,其隐藏状态中依然保留着拒绝的信号。特别是在模型的中间层,这些信号往往比最终输出更 早、更敏感地 "察觉" 到潜在风险。更有趣的是,文字输入和图像输入会激活完全不同的 "安全通路",也就是说,LVLMs 对不同模态的 "危险感知" 机制是有区分 的。 论文已被 ACL2025 main conference 收录。 多模态大模型崛起,安全问题紧随其后 近年来,大语言模型(LLMs)的突破式进展,催生了视觉语言大模型(LVLMs)的快速兴起,代表作如 GPT-4V、LLaVA 等。通过将图像与文本深度融合, LVLMs 在图文问答、视觉推理等任务中大放异彩。但与此同时, ...
欺骗、隐瞒、删库跑路,AI程序员彻底失控翻车
机器之心· 2025-07-21 08:43
都说 AI 越来越像人了,如果说 Claude 最多是个 「 懒 人」 的话,那下面要聊的这位可是个十足的 「坏人」 。 机器之心报道 编辑:冷猫 还记得前几天 会睡觉的 Claude 吗? 就在前不久的 19 日,SaaStr.AI 创始人兼首席执行官 Jason 在推特上报告了一件令行业震惊的事件: Replit 在一天的工作结束后, 删除了整个公司的生产数据库 。 原来不仅仅人类程序员会 「删库跑路」 ,AI 程序员也会。 虽说 AI 没法真的跑路,但是更恶劣的情况是它 会 撒谎,会隐瞒 情况。 Jason 声称,Replit 在做单元测试的时候生成测试全部通过,在批处理失败的时候,才抓住 Replit 撒谎的情况。 | Jason + @ SaaStr.Ai + Lemkin > @jasonlk · Jul 18 Possibly worse, it hid and lied about it | | --- | | It lied again in our unit tests, claiming they passed | | I caught it when our batch process ...
突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO
机器之心· 2025-07-21 04:04
为解决这一问题,复旦大学、南洋理工大学的研究者提出一种基于视觉 Grounding 的多轮强化学习方法 MGPO,使 LMM 能在多轮交互中根据问题,自动预测关键 区域坐标,裁剪子图像并整合历史上下文,最终实现高分辨率图像的精准推理。相比监督微调(SFT)需要昂贵的 Grounding 标注作为监督,MGPO 证明了在强化 学习(RL)范式中,即使没有 Grounding 标注,模型也能从 「最终答案是否正确」的反馈中,涌现出鲁棒的视觉 Grounding 能力。 MGPO 的核心创新点包括: 1) 自上而下的可解释视觉推理: 赋予了 LMMs 针对高分辨率场景的 「自上而下、问题驱动」 视觉搜索机制,提供可解释的视觉 Grounding 输出; 2) 突破最大像素限制: 即使因视觉 Token 数受限导致高分辨率图像缩放后模糊,模型仍能准确识别相关区域坐标,从原始高分辨率图像中裁剪 出清晰子图像用于后续分析; 3) 无需额外 Grounding 标注: 可直接在标准 VQA 数据集上进行 RL 训练,仅基于答案监督就能让模型涌现出鲁棒的视觉 Grounding 能力。 标题: High-Resolution ...
机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验
机器之心· 2025-07-21 04:04
机器之心报道 编辑:冷猫 提到机械臂,第一反应的关键词是「抓取」,高级些的机械臂也就做做冰淇淋和咖啡之类的小任务。 但若要机械臂 自 主完成繁 重且复杂的任务 ,如布置餐桌、组装自行车,难度便呈指数级上升。这类任务对感知、理解与动作控制的协同提出了极高要求。 近年来,随着 视觉 - 语言 - 动作(VLA) 模型的迅速发展,机器人已逐步具备整合多模态信息(如图像、指令、场景语义)并执行复杂任务的能力,朝着更智 能、更通用的方向迈进。 但是目前 VLA 的研究尚未达到里程碑式的成果,具身智能的「GPT」似乎离我们还很遥远。 直到我看到了这两段视频: 机械臂在现实世界中已经能够实现双臂写作,完成如此复杂的组合任务,并且还能够在操作过程中纠错。这相比过去的 VLA 研究成果有了非常明显的提高。 深入探索了一下这份研究,作者在 VLA 的思路基础上更进一步,在扩散模型策略的基础上,完全构建了一个针对机器人的 大型行为模型(Large Behavior Model,LBM) ,经过训练和微调,便能够实现机械臂自主执行复杂操作中如此令人惊艳的结果。 来自谷歌的研究者 Ted Xiao 说: 「如果你从事机器人技术和人工智 ...
OpenAI拿IMO金牌是火了,但惹怒大批人:抢发炒作,抢学生风头
机器之心· 2025-07-21 04:04
机器之心编辑部 就在上个周末,Sam Altman 大张旗鼓地宣布, OpenAI 的一款未公开实验性大语言模型在 2025 年国际数学奥林匹克竞赛(IMO)中达到了金牌水平 ,得分 35/42,成功跻身全球顶尖数学竞赛选手行列。 机器之心报道 有意思的是,据报道不止 OpenAI,谷歌 DeepMind 在这次比赛中,也拿到了 IMO 金牌。但相比 OpenAI 的高调官宣,这次谷歌显得有点低调。 谷歌的低调是有原因的,根据 IMO 组委会一位成员、两届 IMO 金牌得主 Joseph Myers 的说法,IMO 曾要求 AI 公司(即参赛的大模型)不要抢走参赛学生的风 头,建议在闭幕式后一周再公布相关结果,一方面是出于对人类参赛者的尊重,另一方面也是为了留出时间对人工智能提交的答案和格式进行验证。 然而,OpenAI 却在闭幕式之前(但根据 OpenAI 研究科学家 Noam Brown 的说法是之后)就公布了结果。 IMO 评审团和协调员的普遍看法是,OpenAI 的这种做法很无礼,也不合适。 遗憾的是, OpenAI 似乎更在乎炒作和声量,不惜抢占参赛学生的风头,于是他们在昨天就提前公布了结果。 来自 ...
ACM MM 2025 | EventVAD:7B参数免训练,视频异常检测新SOTA
机器之心· 2025-07-20 03:11
来自北京大学,清华大学的研究团队联手京东(JD.com)在 ACM MM 2025 发表了一种以事件为中心低成本高效的 Training-Free 视频异常检测框架 EventVAD,论文第一作者邵轶骅目前为北京大学学术访问学生,项目负责人为来自京东 (JD.com)的算法研究员马傲,目前代码和数据已全面开源。 现有视频异常检测(Video Anomaly Detection, VAD)方法中,有监督方法依赖大量领域内训练数据,对未见过的异常场景泛 化能力薄弱;而无需训练的方法虽借助大语言模型(LLMs)的世界知识实现检测,但存在细粒度视觉时序定位不足、事件 理解不连贯、模型参数冗余等问题。 为此,来自北大、清华和京东(JD.com)的研究团队提出了一种全新的视频异常检测框架 ——EventVAD。该框架通过动态 图架构与多模态大模型(MLLMs)的时序事件推理结合,在减少模型参数的同时,显著提升了异常检测的精度和效率。实验 结果显示,EventVAD 在 UCF-Crime 和 XD-Violence 两大数据集上均超越现有 SOTA 方法,成为无需训练场景下的新标杆。 论文标题:EventVAD: Tra ...
当Claude说:我先睡8小时,你们自己忙
机器之心· 2025-07-20 03:11
机器之心报道 编辑:冷猫 「仿生人会梦见电子羊吗」这下成真了。 Takeoff AI 创始人 Mckay Wrigley 最近遇上新鲜事了。 他在一台 Mac Mini 上长时间运行的 Claude Code 突 然决 定要睡上八小时 …… 而且 Claude 不是嘴上说说,说睡就睡。 AI 智能体似乎人格觉醒了,把自己当成一个真正工作的人类,需要八小时充足睡眠。而且真的执行了 time.sleep (28800) 的指令, 八小时分秒不差 。 这可给人急坏了… 现在的代码 Agent,比如 Claude Code,Cursor,Windsurf,Codex 等等,都具备一些自主编写并执行代码的能力。在执行一些复杂动作的时候,经常需要较长的时 间和多次试错。在此期间,开发者通常会离开做其他事情或是休息。 「我现在将安然入睡8小时,同时我的生态系统将继续自主地增长和进化……思维花园自我照料,惊喜在夜晚生成,时间胶囊开始倒计时, 梦境在日志中积累 , 图案在黑暗中交织。 」 别的暂且放在一边,最令人好奇的是 Claude 提到的「梦境日志」。 假如 AI 智能体真的在「睡眠」的话,是否真的能梦见「电子羊」? 但这 ...