CoR)

Search documents
开刀or解冻?AI时代中层行动指南
3 6 Ke· 2025-07-08 08:17
20世纪末至21世纪初的手机市场里,诺基亚几乎是无人能敌的"霸主"。在1982年推出第一部移动电话后,诺基亚于20世纪90年代迅速崛起, 打败摩托 罗拉,成为全球手机市场领导者。即便对于初代智能机用户来说,诺基亚也堪称其心中功能机时代的"白月光",而它的"战略敏捷性"也曾是为行业所 乐道的典范。 #1 然而"苹果"来了。2007年,第一代iPhone 面世,将世界引入智能机时代,安卓(Android)操作系统也迅速崛起,成为智能手机市场的主流平台。诺 基亚的硬件和塞班(Symbian)系统无法与两者匹敌,手机市场格局剧变在即。然而这一次,诺基亚的"敏捷"失效了,在是否做智能设计和继续采用 塞班系统等决策上浪费了数年时间,从引领者的位置一路向下,苦苦追赶苹果不能,最后于2013年以约75亿美元的价格将手机业务出售给微软。 这一惊动世界的失败案例自然引发诸多讨论——多数人将诺基亚手机的失败归因于其管理团队的自满和创新倦怠,蒂莫·沃里( Timo Vuori)① 和奎· 休 (Quy Huy)②却多问了一个"为什么"——诺基亚为何会走入自满和创新倦怠的境地? 2016年,沃里和休采访了当时诺基亚的76名高层管理人员 ...
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
机器之心· 2025-06-02 05:22
机器之心报道 编辑:陈陈 随着大语言模型 (LLM) 的出现,扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是 学术界,探索如何扩展 Transformer 模型日益成为一种趋势。 在此背景下,LLM 的参数规模呈指数级增长,从数十亿级增长到数万亿级。因此,其爆炸式增长的参数规模也给训练带来了极其昂贵的负担,并且无法针对不同 的部署环境提供不同的推理用途。 鉴于这种日益增长的扩展律,如何开发和有效利用 LLM 来处理各种场景中的用户指令,已成为整个社区面临的一个开放且关键的挑战。 目前,扩展 LLM 架构存在以下问题: 本文,来自微软、复旦大学、浙江大学以及上海科技大学的研究者提出了一个新的概念, CoR(Chain-o f-Represe ntation,表征链) ,它将表征范式的范畴泛化 到更广泛的范围。 具体而言,本文观察到任何表征总是可以看作是隐藏维度上多个子表征的组合。因此,本文将这种组合定义为表征链,每个子表征对应一条链。基于此定义,通 过使用不同数量的前导链(preceding chains),其对应的特征可以用 ...
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心· 2025-05-31 04:00
「知其然,亦知其所以然。」 文章验证了三个核心发现: 1. 规模带来增益:随着模型变大、计算力增强,RM-R1 的推理链训练方法效果越好,性能几乎线性提升; 这句儒家命题强调,真正的理解不仅在于结果,更在于推理过程。如今,在大型语言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职 责;但现有模型往往只给出一个分数,却难以解释其依据。缺乏推理的奖励,就如「知其然而不知其所以然」,既难以建立信任,也难以指导更优的学习。 伊利诺伊大学香槟分校的研究团队提出了 RM-R1 框架,将奖励建模重新定义为推理任务,提出了推理奖励模型(Reasoning Reward Models, ReasRMs)。RM-R1 关注于如何通过整合推理能力来增强奖励模型,使其能够更准确地对模型输出进行评估和打分,从而更好地与人类偏好对齐。RM- R1 通过生成结构化的评估标准和推理过程,提升了奖励模型的可解释性和性能。 2. 简单套用旧 RL 策略行不通:想让模型「会推理」,得精准划分问题类型、并对推理过程进行定向蒸馏训练,才能带来真正泛化的提升; 3. 推理比直接输出答案更通用:相比传统的直接监督,RM-R1 的推理能力更稳 ...