大模型指令遵循能力评估 - filings, earnings calls, financial reports, news

大模型指令遵循能力评估

Search documents

理想TOP2· 2025-12-05 09:48

2025年11月13日理想基座模型团队发布模型在不同语言下的指令遵循能力存在显著差异，GPT-o3-2025-04-16中文任务的严格准确率为 76.9%，而英文任务为 63.5% (中文英文没打错)。即单一语言的评测无法代表模型的整体控制能力。 LexInstructEval(基于形式化语法的指令评估框架) 框架由两个解耦的工程模块组成: 数据构建管道 (Data Construction): 基于形式化语法生成无歧义的指令数据集。自动化验证引擎 (Automated Verification Engine): *基于确定性代码(而非 AI 模型)的验证工具。数据策略: 形式化语法分解 (Formal Grammar) 不直接使用自然语言生成数据，定义了一套形式化语法，将所有指令解构为机器可读的 (Procedure, Relation, Value) 三元组: LexInstructEval: Lexical Instruction Following Evaluation for Large Language Models 理想这篇论文核心指出限制模型性能的瓶颈不在于指令的数量(Bread ...

LI AUTO(US:LI)

大模型指令遵循能力评估

Artificial Intelligence

理想基座模型

大模型指令遵循能力评估

Artificial Intelligence

理想基座模型