Workflow
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
量子位·2025-05-29 04:42

LIFEBench团队 投稿 量子位 | 公众号 QbitAI 你是否曾对大语言模型(LLMs)下达过明确的 "长度指令" ? 比如,"写一篇10,000字的长文,详细分析某个议题。"看似简单的要求,实际却往往让这些模型"力不从心": 不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。 一篇最新研究论文 《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》 对这一问题 进行了深入探讨,提出了一个全新的基准测试集 LIFEBENCH,系统评估大语言模型在长度指令遵循方面的表现。 研究结果揭示:这些看似无所不能的模型在长度指令,特别是长文本生成任务中,表现不尽人意。 当模型被明确要求生成特定长 度的文本时,大多数模型表现糟糕。 接下来,让我们一起来看看这篇论文是如何揭示这些"瓶颈"的! LIFEBENCH:专注长度指令遵循的基准测试 LIFEBENCH,全称" L ength In struction F ollowing E valuation Bench mark",是一套专门评估大语言模型在长度指令下表 ...