长文本检索大突破,联通团队研发的新模型,准确率提升近两成
Sou Hu Cai Jing·2025-12-02 20:15

文 |姑苏九歌 编辑 |姑苏九歌 你有没有遇到过这种情况,想在网上找一件"白色福特F250皮卡,带有色车窗和超大轮胎",结果搜出 来一堆普通白色轿车?这可不是你描述得不够清楚,而是AI在处理长文本描述时犯了难。 现在的图像检索模型,比如大家熟悉的CLIP,处理简单描述还行,一旦遇到这种带多个特征的复杂描 述,反而容易"抓不住重点"。 有时候描述得越详细,匹配准确率反而越低,就像考试时答太多无关内容反而扣分一样。 这时候,HiMo-CLIP就登场了。 这款由中国联通数据科学与人工智能研究院团队研发的新模型,在AAAI会议上做了口头报告,一下子 就解决了这个"说越多错越多"的老大难问题。 让AI学会"抓重点"的黑科技 HiMo-CLIP最聪明的地方,就是它能像人一样自动识别描述中的关键信息。 团队给这个能力起了个专业名字叫HiDe模块,说白了就是动态语义指纹提取技术。 具体怎么做呢?它会通过统计学方法,在一堆相似的描述中找出最有区分度的特征。 比如提到福特皮卡,它会自动发现"超大轮胎"比"有色车窗"更能帮它准确找到目标。 这种方法比以前固定模板分词或者人工标注层级要高效得多,准确率能达到89.3%。 更厉害的是, ...