Workflow
大模型指令遵循能力评估
icon
Search documents
理想分享如何让理想同学更好遵循用户精细化指令的思考
理想TOP2· 2025-12-05 09:48
2025年11月13日理想基座模型团队发布 模型在不同语言下的指令遵循能力存在显著差异,GPT-o3-2025-04-16中文任务的严格准确率为 76.9%,而英文任务为 63.5% (中文英文没打 错)。即单一语言的评测无法代表模型的整体控制能力 。 LexInstructEval(基于形式化语法的指令评估框架) 框架由两个解耦的工程模块组成: 数据构建管道 (Data Construction): 基于形式化语法生成无歧义的指令数据集 。 自动化验证引擎 (Automated Verification Engine): *基于确定性代码(而非 AI 模型)的验证工具 。 数据策略: 形式化语法分解 (Formal Grammar) 不直接使用自然语言生成数据,定义了一套形式化语法,将所有指令解构为机器可读的 (Procedure, Relation, Value) 三元组: LexInstructEval: Lexical Instruction Following Evaluation for Large Language Models 理想这篇论文核心指出限制模型性能的瓶颈不在于指令的数量(Bread ...