Workflow
无需数据配对,文本嵌入也能互通?康奈尔重磅研究:所有模型都殊途同归
量子位·2025-05-23 07:52

无需任何配对数据,就能实现文本嵌入的模型空间转换?! 曾因llya离职OpenAI,在互联网上掀起讨论飓风的 柏拉图表示假说 提出: 所有足够大规模的图像模型都具有相同的潜在表示。 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 那么是否存在针对文本模型的通用潜在结构呢? 康奈尔大学现在给出了Plus版答案—— vec2vec , 首个 无监督文本嵌入的跨向量空间转换方法。 利用 共享潜在空间 ,不仅保留嵌入结构和底层输入语义,还能够反推提取嵌入信息。 vec2vec在目标嵌入空间中与真实向量的余弦相似度高达 0.92 ,并在超过 8000个 随机打乱的嵌入上实现完美匹配,揭示了 所有编码器在 不同架构或训练数据下都拥有几乎相同的表示形式 。 使用相同目标和模态、但不同数据及模型架构训练的神经网络,会收敛到一个通用潜在空间,使得无需任何成对对应关系,即可学习到 它们表征之间的转换关系。 vec2vec就是在此基础上构建,核心思想就是 学习和利用文本表示的通用潜在结构,实现表征的嵌入空间转移,而无需任何成对的数据或编 码器 。 vec2vec采用模块化架构,其中嵌入向量通过特定空间的 适配器模块 进行编码 ...