她如何把“系统2”带给了大模型｜对话微软亚洲研究院张丽

量子位智库量子位 | 公众号 QbitAI 2023年，业界还在卷 Scaling Law ，不断突破参数规模和数据规模时，微软亚洲研究院张丽团队就选择了另一条路径。早在 OpenAI o1 发布前，张丽团队就开始探索大模型深度推理能力。 System2 这个原属认知科学的词汇最早由她及团队引入大模型领域。最近，她们通过蒙特卡洛搜索算法让 7B模型实现了 o1级别的数学推理能力。 rStar—Math 的发布引发学术圈内外的广泛讨论。 △ rStar-Math论文在当前基于PPO/GRPO强化学习路线主导的当下，她们的工作又将带来哪些新的可能性？本期「大模型创新架构」主题访谈，量子位邀请到 rStar-Math作者微软亚洲研究院首席研究员张丽，聊聊突破大模型智商上限、奖励模型以及System2背后的故事。张丽，MSRA系统研究组首席研究员，微软LongRoPE及rStar系列工作项目leader。 △ 微软亚洲研究院系统研究组首席研究员张丽以下为量子位与 rStar-Math作者微软亚洲研究院首席研究员张丽的对话实录整理：智商突围量子位：能简单介绍下rSta ...