Workflow
微型递归模型(TRM)
icon
Search documents
700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理
机器之心· 2025-10-09 04:43
机器之心报道 对 HRM 感兴趣的读者可以参考 我们之前的报道 。 编辑:冷猫 Training Small, Thinking Big. 大模型的推理架构颠覆的未免有些太快了。 今年 6 月,来自 Sapient Intelligence 的研究者提出了分层推理模型(HRM),用循环架构打破了传统思维链(CoT)的架构限制,对大模型推理结构产生了重大的 影响。 HRM 仅包含 2700 万个参数(大约比最小的 Qwen3 0.6B 模型小 22 倍) ,仅使用 1000 个训练样本,便在复杂的推理任务上取得了卓越的性能。 仅仅过了四个月,HRM 的架构就彻底不够看了。 来自加拿大蒙特利尔三星先进技术研究所(SAIT)的高级 AI 研究员 Alexia Jolicoeur-Martineau 介绍了微型递归模型(TRM)。 这个 TRM 有多离谱呢?一个 仅 包含 700 万个参数 (比 HRM 还要小 4 倍)的网络 ,在某些最困难的推理基准测试中,其参数数量与 o3-mini 和 Gemini 2.5 Pro 等 尖端语言模型相比,甚至可以超越它们,尽管这些模型的参数数量是 TRM 的 10,000 倍。 ...