LIMIT数据集

Search documents
DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?
机器之心· 2025-09-02 03:44
| 机器之心报道 | | --- | | 编辑:杜伟、+0 | 这几天,一篇关于向量嵌入(Vector Embeddings)局限性的论文在 AlphaXiv 上爆火,热度飙升到了近 9000。 要理解这篇论文的重要性,我们先简单回顾一下什么是向量嵌入。 图源: veaviate 多年以来,嵌入主要用于「检索」任务,例如搜索引擎中的相似文档查找,或推荐系统中的个性化推荐。随着大模型技术的发展,嵌入的应用开始拓展到推理、 指令遵循、编程等更复杂的任务。这些新兴需求,推动着嵌入技术朝着能处理任何查询、任何相关性定义的方向演进。 然而,先前的研究已经指出了向量嵌入的理论局限性。它的本质,是把一个高维度、复杂的概念(比如「爱」,可能包含亲情、爱情、友情、奉献、占有等无数 面向)强行压缩成一串固定长度的向量。这个过程不可避免地丢失信息,就像三维苹果被拍成二维照片 —— 无论照片多清晰,你都无法从中还原出它的重量、气 味等属性。 过去几年,业界普遍认为这种理论困难可以通过更好的训练数据和更大的模型来克服。这就是过去几年以 OpenAI 为代表的公司所遵循的「大力出奇迹」(Scaling Laws)的哲学。 从 GPT-2 ...