Hierarchical Reasoning Model (HRM)

Search documents
又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同
Sou Hu Cai Jing· 2025-08-10 04:21
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 27M小模型超越o3-mini-high和DeepSeek-R1!推理还不靠思维链。 开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友,Sapient Intelligence的创始人王冠。 2700万参数,就实现了对现有大模型的精准超车。 不用预训练补课,还不靠思维链打草稿,仅凭1000个训练样本,就把极端数独、30x30迷宫玩得明明白白。 所以,HRM这个小模型是如何做到的? 核心是仿脑的双层循环模块设计 HRM之所以能有如此出色的表现,源于其五项核心技术的巧妙设计。 首先是分层循环模块与时间尺度分离。 HRM受大脑皮层区域分层处理和时间分离机制启发,设计了两个相互配合的循环模块:一个高层模块负责慢节奏的抽象规划,一个低层模块处理快节奏 的细节计算,不用明确监督中间过程,一次就能完成推理。 这个27M小模型就是Sapient最新提出的开源可复现的分层推理模型Hierarchical Reasoning Model(下面简称HRM),模仿大脑的分层处理与多时间尺度 运作机制,克服了标准Transfomer的计算局限。 两者在不同时 ...