AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
量子位·2025-05-24 04:38
MathIF团队 投稿 量子位 | 公众号 QbitAI 如果面前有两个AI助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么 选? 最近, 上海人工智能实验室 与 香港中文大学的研究团队 发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通过一个全新的评测基准 MathIF 揭示: 大模型越擅长复杂推理,越容易忽略用户的指令要求," 聪明 "和" 听话 "之间存在明显的矛 盾。 这项工作的灵感,源自实际使用推理模型(如o3)过程中的一个意外发现:相比许多经过强 化推理训练的大模型,GPT-4o在执行具体指令时反而更加"听话" 。也正是这种"越聪明、越 不听话"的真实体验,让研究团队开始系统性地研究推理能力与指令跟随之间的关系。 这一研究也引来知名博主的转发: 研究揭示越擅长数学推理的模型反而越难完全遵守指令,同时分析了模型大小与服从性的非 正相关现象,强调了推理能力与指令遵循之间的权衡。 MathIF:衡量推理模型"听话程度"的新基准 Math ...