可解释的生成式Embedding
Search documents
Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
量子位· 2025-10-21 09:05
UIUC团队 投稿 量子位 | 公众号 QbitAI 让模型先解释,再学Embedding! 来自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人员,最新推出 可解释的生成式Embedding框架——GRACE 。 过去几年,文本表征 (Text Embedding) 模型经历了从BERT到E5、GTE、LLM2Vec,Qwen-Embedding等不断演进的浪潮。这些模型 将文本映射为向量空间,用于语义检索、聚类、问答匹配等任务。 简单来说, GRACE不再是"把文本压成向量",而是"让模型先解释,再学Embedding" —— 模型首先生成每个文本的"推理说明(rationale)",然后再将这些rationale编码成Embedding。奖励信号会鼓励模型产生更有逻辑、更语义 一致的推理。 方法总览:生成、表征、优化三位一体 概括而言,GRACE包含三个关键模块: 然而,大多数方法有一个共同缺陷: 它们把大语言模型当成"哑巴编码器"使用—— 输入文本,输出向量,却无法告诉我们为什么这两个文本相似 。 这种 "对比学习+池化" 的做法虽然有效,但本质上抛弃了大语言模型 (LLM) 的推理与生成能 ...