港理工:LLM推理与推荐能力集成
📖标题:R²ec: Towards Large Recommender Models with Reasoning
🌐来源:arXiv, 2505.16994
🌟摘要
🔸大型推荐模型通过编码或项目生成将LLM扩展为强大的推荐器,LLM推理的最新突破同步激发了推荐推理的探索。目前的研究通常将LLM定位为外部推理模块,以产生增强传统推荐管道的辅助思想。然而,这种解耦设计在资源成本和次优联合优化方面受到限制。
🔸为了解决这些问题,我们提出了 R2ec,这是一种统一的具有内在推理能力的大型推荐模型。最初,我们重新概念化模型架构以促进自回归过程中的交错推理和推荐。随后,我们提出了RecPO,这是一个相应的强化学习框架,在单个策略更新中同时优化R2ec的推理和推荐能力;RecPO引入了一种融合奖励方案,该方案仅利用推荐标签来模拟推理能力,消除了对专业推理注释的依赖。
🔸在具有不同基线的三个数据集上的实验验证了 R2ec 的有效性,在 Hit@5 中的相对改进为 68.67%,NDCG@20 中提高了 45.21%。代码可在 https://github.com/YRYangang/RRec 获得。
🛎️文章简介
🔸研究问题:如何将推理能力融入大型推荐模型以增强推荐性能?
🔸主要贡献:提出了R²ec,首个将推理和推荐集成在单一自回归结构中的统一大型推荐模型,并通过强化学习优化其联合性能。
📝重点思路
🔸R²ec模型通过引入推荐头与原有的语言建模头,交替生成推理和进行项目预测。
🔸在训练过程中,使用强化学习框架RecPO,同时优化推理和推荐,而不依赖人类标注的推理注释。
🔸采用联合奖励机制,将离散排名奖励和连续相似度奖励结合,以推动模型更好地进行推理和推荐。
🔸采用轨迹采样的方式捕捉用户的推理-推荐序列,从而提升模型在现实世界数据集上的性能。
🔎分析总结
🔸实验结果表明,R²ec在Hit@5和NDCG@20上分别相对于基线有68.67%和45.21%的显著提升,验证了模型的有效性。
🔸消融实验显示,推理的引入显著提高了推荐质量,且使用离散奖励和连续奖励的联合机制可获得最佳效果。
🔸利用不同的优化算法,R²ec展现了良好的泛化能力,并在多种数据集上实现了超越传统和基于大语言模型的推荐系统的表现。
🔸随着推理长度的增加,模型的表现也在持续改进,表明推理过程的重要性和有效性。
💡个人观点
论文的创新点在于首次将推理能力与推荐系统的核心任务紧密结合,形成统一架构的同时,通过强化学习实现了二者的联合优化。
🧩附录