Workflow
长文本向量模型在4K Tokens 之外形同盲区?
AI科技大本营·2025-03-27 02:23

责编 | 梦依丹 2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统"大海捞针"(Needle-in-a-Haystack, NIAH)测试依赖 关键 词匹配的做法,它最大的特点是 通过精心设计问题和关键信息,迫使模型进行 深层语义理解和推理,才能从长文本中找到答案。Jina AI 技术团队 受到启发,并进针对向量模型 jina-embeddings-v3 进行了类似实验。 NoLiMa: https://arxiv.org/abs/2502.05167 NoLiMA 的研究结果揭示了一个重要问题:那些号称能处理几十万甚至上百万词元(tokens)的 LLM,在真正需要理解长文本的任务里,性能大打折 扣。比如,在 32K 词元的长度下,有 10 个受测模型,表现还不如处理短文本(小于 1K 词元)时的一半好;就连表现最好的 GPT-4o,性能也从接近完 美的 99.3% 掉到了 69.7%。 【编者按】 2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统"大海捞针"(Needle-in-a-Haystack ...