当前位置：首页 > news >正文

R²ec: 构建具有推理能力的大型推荐模型，显著提示推荐系统性能！！

news 2025/9/12 3:46:19

摘要：大型推荐模型通过编码或项目生成将大型语言模型（LLMs）扩展为强大的推荐工具，而近期在LLM推理方面的突破也同步激发了在推荐领域探索推理的动机。目前的研究通常将LLMs定位为外部推理模块，以提供辅助性思考来增强传统的推荐流程。然而，这种分离式的设计存在显著的资源成本高和次优联合优化的限制。为了解决这些问题，我们提出了R²ec，这是一个具有内在推理能力的统一大型推荐模型。首先，我们重新构思了模型架构，以便在自回归过程中实现推理和推荐的交错进行。随后，我们提出了RecPO，这是一个相应的强化学习框架，能够在单一策略更新中同时优化R²ec的推理和推荐能力；RecPO引入了一种融合奖励方案，仅利用推荐标签来模拟推理能力，从而消除了对专门推理注释的依赖。在三个数据集上与各种基线模型的实验验证了R²ec的有效性，显示出在Hit@5指标上相对提升了68.67%，在NDCG@20指标上相对提升了45.21%。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 模型设计

架构设计

推理和推荐的交替过程

3.2 训练优化

轨迹采样

奖励和优势估计

四、实验结论

4.1 性能显著提升

4.2 推理模块有效性

4.3 优势估计方法对比

4.4 轨迹采样和组大小的影响

五、总结

一、背景动机

论文题目：R²ec: TOWARDS LARGE RECOMMENDER MODELS WITH REASONING

论文地址：https://arxiv.org/pdf/2505.16994

随着 LLMs 在推理任务中的突破，研究者开始探索如何将推理能力引入推荐系统。然而，现有的研究通常将 LLMs 作为外部推理模块，与传统的推荐流程解耦，这增加了内存占用和推理延迟。此外，推理和推荐模块只能交替更新，无法实现端到端的学习，导致性能次优。

该文章提出推理与推荐统一的大模型架构，通过双任务头和融合奖励机制解决传统解耦设计的缺陷。证明强化学习可在无人工推理标注下优化推荐模型的推理能力，为推荐系统引入可解释性和复杂决策能力。

二、核心贡献

提出 R²ec 模型：R²ec 是一个统一的大型推荐模型，具有内在的推理能力。该模型通过重新设计架构，将推理和推荐任务集成到一个自回归过程中，通过一个策略更新同时优化推理和推荐能力。
RecPO训练框架：为了训练 R²ec，作者提出了 RecPO，一个基于强化学习的训练框架，它通过引入融合奖励方案（结合离散排名奖励和连续相似性奖励）来优化模型，无需依赖专门的推理注释。

三、实现方法

3.1 模型设计

R²ec 的核心设计是将推理（reasoning）和推荐（recommendation）任务集成到一个统一的模型架构中，通过自回归过程实现推理和推荐的交替进行。

架构设计

基础架构：R²ec 基于一个解码器架构（decoder-only backbone），类似于常见的 Transformer 模型。
任务特定头（Task-specific Heads）：
- 语言建模头（lm_head）：负责生成推理标记（reasoning tokens）。它通过自回归的方式逐步生成推理过程中的文本内容。
- 推荐头（rec_head）：用于预测推荐项目。它通过计算候选项目与生成的推理标记的相似度来生成推荐分数。

推理和推荐的交替过程

推理生成：模型首先通过语言建模头生成一系列推理标记，这些标记描述了用户可能感兴趣的内容或推荐的逻辑。
项目预测：在推理标记生成完成后，模型通过推荐头对候选项目进行评分，最终生成推荐列表。

3.2 训练优化

为了训练 R²ec，文章提出了 RecPO，一个基于强化学习（RL）的训练框架。RecPO 的目标是同时优化推理和推荐能力，而无需依赖专门的推理注释。具体实现如下：

轨迹采样

采样过程：对于每个用户，模型通过当前策略采样多条推理轨迹（reasoning trajectories）。每条轨迹包括一系列推理标记和最终推荐的项目。
采样策略：使用温度（temperature）和 top-K 采样来控制生成轨迹的随机性和多样性。

奖励和优势估计

奖励计算：为了评估生成轨迹的质量，文章设计了一个融合奖励方案，结合了离散排名奖励（Rd）和连续相似性奖励（Rc）。
- 离散排名奖励（Rd）：使用 NDCG@k（Normalized Discounted Cumulative Gain）来衡量推荐项目的排名质量。
- 连续相似性奖励（Rc）：计算生成的推理标记与目标项目之间的 softmax 相似度。
- 融合奖励：通过线性组合将两种奖励结合起来，其中 β 是一个权重参数，用于平衡两种奖励的贡献。

优势估计：使用 GRPO或 RLOO 等方法来估计每条轨迹的优势值，这些优势值用于指导模型的更新方向。

四、实验结论

4.1 性能显著提升

R2EC 在所有实验数据集上均显著优于传统推荐系统、基于 LLM 的推荐系统和推理增强的推荐系统。具体来说，R2EC 在 Hit@5 和 NDCG@20 指标上分别实现了 68.67% 和 45.21% 的相对提升，表明其在推荐准确性和排名质量上都表现出色。

4.2 推理模块有效性

无推理（w/o Reasoning）：移除推理模块后，模型性能显著下降，表明推理模块对推荐性能有重要贡献。R2EC 在所有指标上平均提升了约 15%。
无连续奖励（w/o Rc）：仅使用离散排名奖励 Rd 时，模型性能优于仅使用连续相似性奖励 Rc，但融合奖励方案进一步提升了性能。
无离散奖励（w/o Rd）：仅使用连续相似性奖励 Rc 时，模型性能下降，表明离散奖励在优化过程中更为关键。

4.3 优势估计方法对比

训练奖励（Train Reward）：两种方法在训练过程中都表现出高方差，但 GRPO 在初始阶段学习更快。
验证奖励（Val Reward）：GRPO 在验证集上的表现优于 RLOO，表明其在早期训练中能够提供更大的梯度。
推理长度（Reasoning Length）：GRPO 的推理长度随着训练的进行逐渐增加，而 RLOO 保持相对稳定。

4.4 轨迹采样和组大小的影响

采样温度（Temperature）：增加采样温度可以提高推理的多样性和推荐性能，但过高的温度会导致推理长度过长。
top-K 采样：增加 top-K 会缩短推理长度，但过多的候选标记会引入噪声，降低推荐性能。
组大小（Group Size）：较大的组大小可以提高性能，但会增加训练成本。实验表明，组大小为 6 或 8 时性能提升最为显著。

五、总结

文章提出了一种新的大型推荐模型 R²ec，它通过引入推理能力显著提升了推荐性能。R²ec 的设计和训练方法为推荐系统领域带来了新的视角，特别是在如何将推理能力与推荐任务紧密结合方面。

文章转载自：

http://8gIOHKz5.nqmkr.cn
http://uiXYSnBL.nqmkr.cn
http://bn6TF4Ql.nqmkr.cn
http://2hqTL6DV.nqmkr.cn
http://KLQUypL0.nqmkr.cn
http://P15kuYVe.nqmkr.cn
http://5z0BDAfN.nqmkr.cn
http://74RIEMzw.nqmkr.cn
http://KznZJ7bO.nqmkr.cn
http://eTMjcdMt.nqmkr.cn
http://ecPAzrV9.nqmkr.cn
http://Ipsh0wGr.nqmkr.cn
http://V4Z4qnQx.nqmkr.cn
http://oQJkjzdr.nqmkr.cn
http://DrADffOf.nqmkr.cn
http://JUZgAYeg.nqmkr.cn
http://9wV90qjJ.nqmkr.cn
http://ilv81rTo.nqmkr.cn
http://a2o4V96d.nqmkr.cn
http://q3knjgzS.nqmkr.cn
http://XHOXLHSi.nqmkr.cn
http://OBGDfme3.nqmkr.cn
http://Di8Fk2Zi.nqmkr.cn
http://OYHCpJav.nqmkr.cn
http://3Pho9WyV.nqmkr.cn
http://P7azcWS4.nqmkr.cn
http://r2XDrbf2.nqmkr.cn
http://veksMfmh.nqmkr.cn
http://pdvwzhIy.nqmkr.cn
http://GDdD9KvM.nqmkr.cn

http://www.dtcms.com/a/236134.html

相关文章：

curl获取ip定位信息 --- libcurl-multi（三）

volka 25个短语动词

江科大读写内部flash到hal库实现

筛选企业订单和业绩显著增长的标的

c语言封装跨平台线程头文件

Vue：Form正则校验

Redis知识

【大厂机试题解法笔记】最差产品奖

通道注意力

win11部署suna

OpenLayers 分屏对比(地图联动)

OpenVINO环境配置--OpenVINO安装

Vue 渲染 Markdown 文件完全指南

【VLNs篇】06：SmartWay—面向零样本视觉语言导航的增强路径点预测与回溯

【动手学深度学习】2.6. 概率

C++递归语句完全指南：从原理到实践

智能仓储解决方案：如何为您的企业选择最佳系统 (提升效率降低成本)

麒麟系统安装Navicat(14试用,删除文件可接着用)

KuiperInfer跟学第二课——张量的构建与实现

嵌入式学习之系统编程（十一）网络编程之协议头，测试命令及工具

python闭包与装饰器

跟我学c++中级篇——理解类型推导和C++不同版本的支持

内嵌式mqtt server

成功案例丨基于OptiStruct的三轮车车架结构刚强度仿真计算与优化

leetcode1609. 奇偶树-meidum

win10/win11禁止系统更新

力扣面试150题--克隆图

Python删除大量文件

Day46 Python打卡训练营

阿里140 补环境日志