机器之心
Search documents
8B模型任务击败GPT-5?阶跃星辰开源Deep Think新框架,小模型解锁百万Token测试时计算
机器之心· 2025-12-14 02:49
8B 模型在数学竞赛任务上超越 GPT-5! 阶跃星辰 正式推出并行协同推理(PaCoRe, Parallel Coordinated Reasoning),这是一个全新的训练和推理框架,让大模型的能力不再受限于线性思维链的上下文窗 口大小(Context Window)和处理速度,而是基于大规模并行协同的方式,让模型进行前所未有的广度和深度思考。 强大性能的 Gemini Deep Think 模式仅隐约透露其采用"并行思考"扩展测试时计算的思路;而 PaCoRe 以卓越的表现验证了大规模扩展测试时计算的有效性,并完 整开源模型,训练数据,推理管线从而加速该领域的研究与创新。 基于该框架, 小模型 亦能解锁百万级 Token 测试时计算 (Test-Time Compute)。 经过大规模、基于结果的强化学习(Outcome-based RL)训练,阶跃星辰研究团队的 PaCoRe-8B 模型掌握了综合发散性推理轨迹的能力。在 HMMT 2025 数学基 准测试中,它取得了 94.5 的高分,一举超越了 GPT-5 的 93.2 分。这一成绩的取得,得益于模型在解决单个问题时,能够有效利用高达两百万 Tok ...
「Memory as a Context」是否将重新定义 Transformer 的 「记忆模式」?
机器之心· 2025-12-14 01:30
Group 1 - The article discusses the concept of "Memory as a Context" and its potential to redefine the memory mechanisms of Transformers, addressing the limitations of current LLM memory capabilities [6][8]. - Google's Titans architecture introduces a neural long-term memory module that allows for online learning and optimization during testing, marking a shift from passive data storage to active learning [7][8]. - The Titans framework includes three architectural variants: "Memory as a Context," "Memory as a Gate," and "Memory as a Layer," each representing different approaches to integrating memory capabilities with Transformer models [7][8]. Group 2 - The article highlights the evolution of LLM memory mechanisms from static caches to adaptive test-time learning systems, enabling models to adjust memory strategies dynamically based on task requirements [9][10]. - A review of the past seven years of research on core memory operations—reading, writing, forgetting, and capacity management—reveals the limitations of static caching mechanisms and recent advancements in improving these operations [10]. - The research emphasizes the importance of selective writing, real-time decision-making, and adaptive resource allocation in enhancing the memory capabilities of Transformers [10].
ACL Fellows 2025名单公布:西湖大学张岳与UIUC季姮入选
机器之心· 2025-12-13 08:31
机器之心报道 编辑:Panda 国际计算语言学学会(ACL)正式公布了 2025 年度的会士( ACL Fellows ) 名单。 作为自然语言处理(NLP)领域最具影响力的国际学术组织,ACL 自 2011 年设立会士制度,旨在表彰那些在该领域取得卓越技术成就或为社区做出突出贡献的会 员。ACL Fellow 是该学会授予会员的最高荣誉之一,每一位入选者都代表了 NLP 研究的顶尖水平,其评选过程以严苛著称,历年入选者均为推动语言智能发展的 关键人物。 在今年的评选中,共有 11 位学者 脱颖而出。值得关注的是,本次名单中有 2 位华人学者入选:来自伊利诺伊大学厄巴纳-香槟分校(UIUC)的 季姮(Heng Ji) 教授以及来自西湖大学的 张岳(Yue Zhang) 教授。 下面是各位新入选会士的具体入选理由和个人简介。 季姮(Heng Ji) 机构:伊利诺伊大学厄巴纳-香槟分校 个人页面:https://blender.cs.illinois.edu/hengji.html 入选理由:因其在信息抽取、多模态和多语言知识抽取以及「AI for Science」(科学智能)方面所作出的重要贡献。 季姮是伊利诺 ...
NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题
机器之心· 2025-12-13 08:31
本文第一作者是二年级博士生闫熠辰,主要研究方向是多模态大模型的数据质量管理;通讯作者是李环研究员,主要研究方向包括人工智能数据准备、大模型高 效推理与部署、时空大数据与模型轻量化等。 03 研究背景与动机 (Motivation) 01 省流版:一张图看懂 COIDO 在深入技术细节之前,我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案: 正如钟离在漫画中所言,面对海量视觉指令数据的选择任务,传统方法需要遍历全部数据才能进行筛选造成大量「 磨损」(高昂计算成本)。同时在面对数据重 要性和多样性问题时,传统方法往往顾此失彼。而 COIDO 通过「 耦合优化」的新契约,实现了以简驭繁的效果。 02 论文速览 多模态大语言模型(MLLM)的能力在很大程度上依赖于高质量的视觉指令微调(Visual Instruction Tuning)。然而,随着数据集规模的爆炸式增长(如 LLaVA- 665K),在全量数据上进行微调带来了巨大的计算开销和冗余 。 现有的数据筛选方法虽然旨在选取高质量子集,但普遍存在两个关键痛点: ...
谢赛宁REPA得到大幅改进,只需不到4行代码
机器之心· 2025-12-13 04:59
编辑:Panda 而对于 REPA,也有一个类似的问题: 全局信息 与 空间结构 ,哪个对表征对齐更重要? 机器之心报道 邹忌曾经有一个问题:吾与徐公孰美? 论文标题:What matters for Representation Alignment: Global Information or Spatial Structure? 论文地址:https://arxiv.org/abs/2512.10794v1 表征对齐(REPA)可通过将强大的预训练视觉编码器的表征蒸馏为中间扩散特征,来指导生成式训练。该方法于去年十月份问世,一直以来都备受关注,已成为 加速扩散 Transformer(Diffusion Transformers)训练的一项有力技术。参阅报道《 扩散模型训练方法一直错了!谢赛宁:Representation matters 》。 但是,其还有一个很基本的问题悬而未决:对生成而言,目标表征的哪个方面更重要?是其「全局」语义信息(例如,以 ImageNet-1K 准确率衡量),还是其空 间结构(即,图像块 token 之间的成对余弦相似度)? 此前,普遍观点认为,如果使用更强的全局语义性能作为 ...
AAAI 2026 Oral | 拒绝「一刀切」!AdaMCoT:让大模型学会「看题下菜碟」,动态选择最佳思考语言
机器之心· 2025-12-13 04:59
多语言大模型(MLLM)在面对多语言任务时,往往面临一个选择难题:是用原来的语言直接回答,还是翻译成高资源语言去推理? 实际上, 不同 的语言在模型内部承载着不同的「特长」 。比如英语可能逻辑性强,适合科学推理;而中文或印尼语在处理特定文化背景或押韵任务时,可能比英 语更具优势。 如何让模型在面对不同任务时,自动选择一条「最顺手」的推理路径?来自新加坡科技研究局(A*STAR)Nancy F. Chen 和 Ai Ti Aw 带领的研究团队,携手新加 坡科技设计大学(SUTD)Roy Ka-Wei Lee 教授团队共同推出了 AdaMCoT(Adaptive Multilingual Chain-of-Thought)框架 。AdaMCoT 的核心在于 把 「用哪种 语言思考」本身当成一个可优化的决策变量 :通过自适应地在多种语言间路由并组合链式思考,再将推理结果映射回目标语言,从而显著提升跨语言的事实推理 准确性与一致性。 该工作已被 AAAI 2026 主轨道接收为 Oral 论文 。 研究背景与痛点 现有的跨语言推理方法通常存在「路径依赖」:要么不做处理直接推理,容易导致低资源语言的幻觉;要么强制全部转 ...
GPT-5.2已上线24小时:差评如潮!
机器之心· 2025-12-13 04:59
机器之心报道 编辑:杨文 网友吐槽GPT-5.2「不通人性」。 X 上充斥着对 GPT-5.2 的恶评。 昨天,OpenAI 十周年之际,拿出了 最新的顶级模型 GPT-5.2 系列 ,官方号称是「迄今为止在专业知识工作 上最强大的模型系列」,在众多基准测试中,GPT-5.2 也都刷新了最新的 SOTA 水平。 | | GPT-5.2 Thinking | GPT-5.1 Thinking | | --- | --- | --- | | GDPval (wins or ties) | 70.9% | 38.8% (GPT-5) | | Knowledge work tasks | | | | SWE-Bench Pro (public) | 55.6% | 50.8% | | Software engineering | | | | SWE-bench Verified | 80.0% | 76.3% | | Software engineering | | | | GPQA Diamond (no tools) | 92.4% | 88.1% | | Science questions | | | | Ch ...
2026 将近,世界模型到底更「世界」了吗?
机器之心· 2025-12-13 02:30
引言 :近期 Runway 发布 GWM Worlds 和 GWM Robotics,将视频生成进一步推向可交互的「世界模拟」范式。这一动作也让「世界模型」的讨论重新聚焦:它究竟是一套 面向创作与交互的 Interface,一台用于训练与评测的 Simulator,还是一种面向推理与决策的认知框架? 目录 01. 从 RL 分支到演化建模,世界模型这两年经历了怎样的转变? Sora 式像素级模拟更可靠,V-JEPA 式抽象表征预测更高效?... 02 . 界面、模拟器还是认知框架,世界模型的定义依旧模糊? 世界模型输出的「世界」应是静态资产、实时帧序列,还是驱动预测与控制的 latent state?... 03 . 重押还是凑数,国内外各厂商如何布局世界模型? 本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 从 RL 分支到演化建模,世界模型这两年经历了怎样的转变? 1、当下的世界模型已经被业内认为是和 LLM 同级别的 AGI 路线,但如果把时间拨回 2024 年初,世界模型的定义其实是相对收敛的,更多集中在强化学习的语境中。[2-1] ① 当时的分析认为,世界模型是智能体 ...
告别「盲目自信」,CCD:扩散语言模型推理新SOTA
机器之心· 2025-12-13 01:13
对此, 华为小艺香港团队、香港城市大学及香港大学 的研究人员们共同提出了一种全新的 上下文一致性解码算法(Coherent Contextual Decoding, CCD) ,充分 利用扩散过程中的上下文增广,从理论上纠正了传统 DLM 推理策略的 "短视性",并进一步采用自适应解码方案在多种开源 DLMs 上同时实现了 3.48 倍的加速和 3.9% 的性能提升。该方案不仅适配 Any-oder 生成,且在半自回归 Block-wise 解码设定下也获得了提升,扩散语言模型的高效推理时代,或许已经到来。 研究背景 今年以来,以 Dream 和 LLaDA 为主的开源扩散语言模型大放异彩,实现了和同尺寸自回归 LLM 相当的通用能力,且展现出了 DLMs 在全局规划和双向上下文理 解任务上的优势 。 扩散语言模型(Diffusion Language Models)以其独特的 "全局规划" 与并行解码能力广为人知,成为 LLM 领域的全新范式之一。然而在 Any-order 解码模式下,其 通常面临推理速度较慢且生成逻辑不连贯等问题。 论文标题: Beyond Confidence: Adaptive an ...
苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣
机器之心· 2025-12-13 01:13
Core Viewpoint - The article discusses Apple's recently withdrawn paper on a scalable reinforcement learning framework called RLAX, which utilizes Google's TPU and other cloud services, highlighting the company's engineering capabilities in AI infrastructure despite recent personnel changes [1][35]. Group 1: Paper Overview - The paper titled "RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs" was submitted on December 6 and quickly withdrawn after being made public [1][7]. - RLAX is designed for efficient execution of advanced reinforcement learning algorithms on large-scale distributed TPU clusters [12]. Group 2: Technical Contributions - RLAX employs a parameter-server architecture, allowing for logical separation of training, inference, and validation components, which enhances resource allocation flexibility [14]. - The framework supports preemptive scheduling, enabling immediate resource recovery for higher-priority tasks without crashing the training process [15]. - RLAX addresses key challenges in post-training reinforcement learning, offering programmable configuration options for managing on-policy and off-policy RL [16]. Group 3: Experimental Results - During experiments, RLAX improved the pass@8 accuracy of the QwQ-32B model by 12.8% in just 12 hours and 48 minutes using 1024 TPU v5p [24]. - The framework's development involved using Google's TPU, Amazon's AWS Lambda for testing, and a Chinese open-source model, showcasing a collaborative approach across different technologies [26]. Group 4: Author Background - The paper lists several authors, including Kelvin Zou, who has transitioned to Meta, and Cheng Leong, a long-time Apple employee, indicating a shift in talent within the AI sector [8][9].