推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析
机器之心·2026-03-03 02:55
强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困 于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。近期,大语言模型(LLM)的崛起带来了新机遇。LLM 凭借常识储 备、推理能力和语义天赋,不仅能让智能体更懂用户,还能充当高保真的环境模拟器。LLM 与 RL 的结合开启了更加智能、稳健且可信的 LLM-RL 协同推 荐系统 新范式。 针对这一新兴方向,研究团队联合发布了首篇聚焦 LLM-RL 协同推荐的系统性综述。该论文创新性地提出五大主流协同范式,全面总结评估体系框架,深 入分析了当前关键挑战与未来发展路径,为该领域的研究者和工程师提供了一份从方法范式到评测体系、从研究现状到创新方向的一站式参考指南。 | (2)中国科学在术大学 | KUAISHOU | (2)中国人民大學 | 1 2 2 2 2 大 第 | (全) J. 女子, 3 | ▲ 最流形式大學 UNIVERSITY OF SCIENCE | | --- | --- | --- | --- | --- | --- | | [ Un ...