机器之心

Search documents
思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能
机器之心· 2025-06-03 06:26
在大语言模型(LLM)飞速发展的今天,Chain-of-Thought(CoT)技术逐渐成为提升复杂推理能力的关键范式,尤 其是在数学、逻辑等结构化任务中表现亮眼。 本文的共同第一作者是徐皓雷和颜聿辰。徐皓雷是浙江大学的一年级硕士生,主要研究兴趣集中在大模型推理和可解释 性研究;颜聿辰是浙江大学博士三年级研究生,主要研究兴趣集中在大模型推理和智能体。本文通讯作者是浙江大学鲁 伟明教授和沈永亮研究员。 但你是否注意到:即使是精心构建的 CoT 数据,也可能存在 "跳跃式" 推理,缺失关键中间步骤。对人类专家来说这 些步骤或许 "理所当然",但对模型而言,却可能是无法逾越的鸿沟。 为了解决这一问题,浙江大学联合微软亚洲研究院、香港中文大学提出了 Thought Leap Bridge 任务,并开发了思维 链修复方法:CoT-Bridge。实验显示,该方法显著提升了多个数学与逻辑任务中的推理准确率,并能作为 "即插即用" 的模块嵌入到知识蒸馏、强化学习等流程中。 CoT 不等于 Coherent-of-Thought 思维跳跃是如何破坏推理链的? CoT 的设计初衷是让大模型像人一样 "按步骤思考",然而研究团队发 ...
字节跳动 2025 奖学金计划启动!每人 10 万、名额再增加!
机器之心· 2025-06-03 04:06
科研资助基金10万元人民币 用于包括但不限于参加国际学术会 议、申请专利等相关支出。 l 关于字节跳动奖学金 |( 「字节跳动奖学金计划 ByteDance Scholarship Program 」是字节跳动2021年发起的一年一期的 人才培养项目,为每位获奖学生提供10万元人 民币奖学金、内部研学计划特邀通道等奖励。过 去四年,共有47位优秀学子获得了字节跳动奖 学金计划支持。2025年,字节跳动奖学金将加 大对重点方向的关注和投入,并进一步增加名 额,计划在中国、新加坡地区评选出20位优秀 同学,为他们的技术研究和职业发展提供助力。 l 五重奖励,加大研学投入 |( 加入字节跳动奖学金俱乐部,定期受 邀参与学术科研活动,与字节跳动资 深技术专家面对面交流,共同探讨技 术和行业前沿发展方向。 人才计划"绿色通道" 进入字节跳动人才计划专项(Top Seed / 筋斗云人才计划或研究实习生 专项)的绿色通道,有机会直达心仪 的 Offer。 * 非中国大陆地区提供等值货币 资深导师1V1带教 基于研究领域,一对一匹配字节跳动 资深导师,提供专业的研究指导。 内部研学计划特邀通道 , 川 申请条件 |( 8 ...
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
机器之心· 2025-06-03 04:06
机器之心发布 机器之心编辑部 长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算 开销和运行效率等方面仍存在明显短板。 近日,智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型:Video-XL-2。相较于上一版本的 Video-XL,该模型在多个维度全面优 化了多模态大模型对长视频内容的理解能力: 目前,Video-XL-2 的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。 技术简介 图 1:Video-XL-2 的模型架构示意图 图 3. Chunk-based Prefilling 效果更佳:Video-XL-2 在长视频理解任务中表现出色,在 MLVU、Video-MME、LVBench 等主流评测基准上达到了同参数规模开源模型的领先 水平。 长度更长:新模型显著扩展了可处理视频的时长,支持在单张显卡上高效处理长达万帧的视频输入。 速度更快:Video-XL-2 大幅提升了处理效率,编码 2048 帧视频仅需 12 秒,显 ...
姚顺雨提到的「AI下半场」,产品评估仍被误解
机器之心· 2025-06-02 05:22
机器之心报道 编辑:张倩 前段时间,OpenAI 研究员姚顺雨发表了一篇主题为「AI 下半场」的博客。其中提到,「接下来,AI 的重点将从解决问题转向定义问题。在这个新时代,评估的 重要性将超过训练。我们需要重新思考如何训练 AI 以及如何衡量进展,这可能需要更接近产品经理的思维方式。」(参见《 清华学霸、OpenAI 姚顺雨:AI 下半 由于观点非常有见地,这篇博客吸引了大量从业者围观。 有意思的是,亚马逊首席应用科学家 Eugene Yan 最近也发表了一篇博客,专门介绍 AI 产品的评估,可以说是对姚顺雨博客的有力补充。 场开战,评估将比训练重要 》) 这篇博客同样得到了诸多好评。 以下是博客原文。 自动化评估救不了你的产品 你得修复你的流程 产品评估这件事,很多人根本没搞懂。总有人以为再加个工具、添个指标,或者让大语言模型当裁判(LLM-as-judge),就能解决问题拯救产品。这根本是在回避 核心问题,逃避真正该做的工作。评估并非一劳永逸,也不是什么快速起效的方法 —— 它是运用科学方法的持续实践,是评估驱动开发,是 AI 输出的持续监 测。 构建产品评估体系,本质上就是在践行科学方法。这才是真正的 ...
LSTM之父22年前构想将成真?一周内AI「自我进化」论文集中发布,新趋势涌现?
机器之心· 2025-06-02 05:22
机器之心报道 编辑:张倩、+0 让 AI 实现自我进化是人类一直以来的梦想。 早在 2003 年,AI 先驱、LSTM 之父 Jürgen Schmidhuber 就提出过一种名为「哥德尔机(Gödel Machine)」的构想——它使用一种递归的自我改进 协议,如果能够证明新代码的策略较佳,就会重写自己的代码。但这终究只是一个假想。 近年来,关于模型自我学习、进化的研究逐渐多了起来,很多研究者的目标在逐渐从单纯的「训练模型」向「让模型学会自我学习和自我进化」转变,谷歌 最近发布的 AlphaEvolve 就是其中的重要代表。 人工智能研究的一个长期目标是创造能够持续学习的 AI 系统。实现这一目标的一条诱人路径是让 AI 通过重写自身代码(包括负责学习的代码)来实现自我 改进。这一由 Jürgen Schmidhuber 数十年前提出的构想被称为「哥德尔机」,是一种假想中的自我改进型 AI。当它在数学上证明存在更优策略时,它会 通过递归地重写自身代码来优化问题解决方案,因此成为元学习(即「学会学习」)领域的核心概念。 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文哥德尔机(DGM)」 :DGM ...
CVPR 2025 | 解决XR算力瓶颈,FovealSeg框架实现毫秒级IOI分割
机器之心· 2025-06-02 05:22
本文共同第一作者为纽约大学研究生 Hongyi Zeng 和Wenxuan Liu。合作作者为 Tianhua Xia、Jinhui Chen、Ziyun Li。通讯作者为纽约大学电子工程系和计算 机系教授 Sai Qian Zhang,研究方向为高效人工智能,硬件加速和增强现实。 在 XR 正逐步从概念走向落地的今天,如何实现 "按用户所视,智能计算" 的精准理解,一直是视觉计算领域的核心挑战之一。 最近,一项来自 纽约大学和 Meta Reality Labs 的联合研究引发了行业关注:Foveated Instance Segmentation —— 一种结合眼动追踪信息进行实例分割的新方法, 已被 CVPR 2025 正式接收 。 论文连接:https://arxiv.org/pdf/2503.21854 1. 从算力瓶颈谈起 在当下主流的 AR / VR 头显中,内置相机往往具备 720 P、1080 P 乃至 1440 P 的拍摄能力,但要想在如此高分辨率的画面上做实例分割,推理延迟常常飙升至数 百毫秒甚至秒级,远超人眼在交互中对时延(50–100 ms)所能接受的舒适阈值。论文 Foveated ...
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
机器之心· 2025-06-02 05:22
机器之心报道 编辑:陈陈 随着大语言模型 (LLM) 的出现,扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是 学术界,探索如何扩展 Transformer 模型日益成为一种趋势。 在此背景下,LLM 的参数规模呈指数级增长,从数十亿级增长到数万亿级。因此,其爆炸式增长的参数规模也给训练带来了极其昂贵的负担,并且无法针对不同 的部署环境提供不同的推理用途。 鉴于这种日益增长的扩展律,如何开发和有效利用 LLM 来处理各种场景中的用户指令,已成为整个社区面临的一个开放且关键的挑战。 目前,扩展 LLM 架构存在以下问题: 本文,来自微软、复旦大学、浙江大学以及上海科技大学的研究者提出了一个新的概念, CoR(Chain-o f-Represe ntation,表征链) ,它将表征范式的范畴泛化 到更广泛的范围。 具体而言,本文观察到任何表征总是可以看作是隐藏维度上多个子表征的组合。因此,本文将这种组合定义为表征链,每个子表征对应一条链。基于此定义,通 过使用不同数量的前导链(preceding chains),其对应的特征可以用 ...
陶哲轩:感谢Lean,我又重写了20年前经典教材!
机器之心· 2025-06-01 03:30
| 机器之心报道 | | --- | 编辑:陈陈、杜伟 不得不感慨,陶哲轩真闲不住啊! 虽然在本书撰写时,Coq 或 Agda 等一些证明助手已经相当成熟,但形式化验证当时还不在陶哲轩的考虑范围内。随着现在具备了一些这方面的经验,他意识到这 本书的内容实际上与这些证明助手非常兼容;特别地,之前用来构建标准数系等的「朴素类型理论」,与 Lean 的依赖类型理论(其中 Lean 对商类型的支持非常 出色)非常契合。 因此,陶哲轩决定创建《Analysis I》的 Lean 配套项目,将书中的许多定义、定理和练习转换成 Lean 版本。特别地,它提供一种完成书中练习的替代方法,只需 在 Lean 代码中填写对应的「待完成」(sorries)部分即可。 不过,陶哲轩不打算提供本书练习的「官方」答案。相反,他欢迎所有人自由创建这个项目的副本,并完成答题。 今天,陶哲轩又宣布 为自己的实分析本科教材《Analysis I》创建了一个「Lean」配套项目,将教材中的各种定义、定理和练习转换成 Lean 版本,为学生提供了 另一种学习方式 。Lean 既是一个交互式定理证明器,也是一种编写形式化证明的语言,近些年来在数学家群 ...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心· 2025-06-01 03:30
机器之心报道 编辑:张倩 「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」 随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进 行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型(LVLM)领域。 但近日的一项研究成果却给出了一个惊人的发现:「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径,而 RL 则是在促进真正的多模态推理!」 这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队,他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用 性,其中重点关注了两个核心问题:1)SFT 与 RL 在多模态推理中分别产生何种独特作用?2)这种两阶段训练对 LVLM 的推理能力是否确有必要? 论文标题: SFT or RL? An Early Investigation into Training ...
极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency
机器之心· 2025-06-01 03:30
本文由 NUS ShowLab 主导完成。第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、 NeurIPS 等国际顶级会议上发表多篇研究成果。共同一作刘成为 NUS 重庆研究院四年级本科生,研究方向是视觉生成。项目负责作者为该校校长青年教授寿政。 不久前,GPT-4o 的最新图像风格化与编辑能力横空出世,用吉卜力等风格生成的效果令人惊艳,也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上 的巨大差距。 目前,开源扩散模型在 image-to-image 风格迁移中普遍面临一个跷跷板困境:要想增强风格化效果,往往会牺牲细节、结构和语义一致性;而要保持一致性,风格 表达则明显退化。 为了解决这一难题,我们提出 OmniConsistency ,利用配对数据复现 GPT-4o 的出色风格化一致性,为开源生态注入接近商业级的能力。 论文标题:OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data 我们的解决方案:Omni ...