Workflow
推理链
icon
Search documents
微软开源 Phi-4 推理模型:啰嗦AI,反卷出圈
3 6 Ke· 2025-05-08 09:15
AI圈子最有意思的事,已经不是"谁家模型参数最多",而是——谁家小模型,能把大模型打趴下。 最近,微软研究院开源了一款"小而强"的研究:Phi-4-reasoning-plus。这是一款专为深度结构化推理任务设计的开源语言模型。 14B参数,不到DeepSeek 70B的五分之一,但数学、科学、代码、逻辑推理的表现,都比较能打。 在AIME 2025数学考试上,14B的小模型,第一次尝试的全题正确率,居然干过了70B的精炼大块头,甚至快摸到DeepSeek 671B的脚后跟。 微软团队用一串"推理链"打破了常规,让AI学会慢下来、啰嗦一点、反复琢 磨、允许自己犯错,主要体现在: 推理链(Chain-of-Thought)成为核心训练目标 。不是像传统大模型那样直接给出答案,而是专门训练模型写"推理过程";在训练数据和输出里,强制要 求模型用...标签,把自己的思考、分步推理、反复验证详细写出来。这种推理链往往很"啰嗦":不是一句话解决问题,而是像人类一样, 细致分解、逐步排查。 鼓励"慢思考",奖励啰嗦的推理过程。 在RL(强化学习)阶段,奖励机制被专门设计成:答错时鼓励更长推理链,答对时鼓励简洁;只要模型没 ...