SuperCLUE最新评测:文心X1.1精确指令遵循国内第一
10月21日,中文精确指令遵循测评基准(SuperCLUE-CPIF)正式发布,文心X1.1以75.51分位居国产大 模型第一,在任务类型、指令数量两类划分中均为国内榜首,文心X1.1在实际生产环境中应用具有显著 优势。 本次测评涵盖GPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning、Gemini-2.5-Pro 等共10个国内外模型参与。基于实际生产环境特点,SuperCLUE-CPIF重点评估大型语言模型(LLM) 在中文环境下的精确遵循复杂、多约束指令能力,重点评估模型将自然语言指令转化为符合所有要求的 具体输出的能力。测评结果显示,国产主流大模型中,文心X1.1以75.51分位居国产大模型第一, DeepSeek-V3.2-Exp-Thinking和Hunyuan-T1-20250822分别以73.98分和65.82分位居国内二、三。 SuperCLUE-CPIF中文精确指令遵循测评总榜,文心X1.1位居国内第一 文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强 化学习训 ...