阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集
机器之心·2025-12-16 04:11

机器之心发布 如果把用户在互联网上留下的每一个足迹都看作一段记忆,那么现在的推荐系统大多患有 "短期健忘症"。 受限于算力和存储,那些沉睡在数年前的点击、收藏与购买,往往被粗暴地截断或遗忘。即便被召回,它们在模型眼中也只是一串串冰冷且互不相识的 ID 代码。 但事实上,真正有趣的东西也往往藏在这些被遗忘的 "长尾" 之中。如何唤醒这 10 万级 的沉睡数据,并读懂它们背后的视觉与语义关联? 阿里妈妈与武汉大学团队给出的答案是 MUSE(MUltimodal SEarch-based framework) 。这不仅仅是一个新的 CTR 模型,更像是一个给推荐系统安装的 "多模 态海马体"。它利用图像与文本的语义力量,重构了用户跨越时空的兴趣图谱。 甚至,他们还开源了构建这个 "数字大脑" 的基石: Taobao-MM 数据集 。 对于推荐系统长久以来技术演进路线,这一突破可谓是一次深刻的反思与重构! 论文标题:MUSE: A Simple Yet Effective Multimodal Search-Based Framework for Lifelong User Interest Modeling 在搜推 ...