当前位置: 首页 > news >正文

【推荐算法】推荐算法演进史:从协同过滤到深度强化学习

在这里插入图片描述

推荐算法演进史:从协同过滤到深度强化学习

      • 一、传统推荐时代:协同过滤的奠基(1990s-2006)
        • 1.1 算法背景:信息爆炸的挑战
        • 1.2 核心算法:协同过滤
        • 1.3 局限性
      • 二、深度学习黎明:神经网络初探(2010-2015)
        • 2.1 算法背景:深度学习的崛起
        • 2.2 奠基模型:Deep Crossing
        • 2.3 NeuralCF:协同过滤的神经网络化
      • 三、特征交叉革命:结构创新浪潮(2016-2017)
        • 3.1 Wide&Deep:记忆与泛化的融合
        • 3.2 DeepFM:自动化特征交叉
        • 3.3 PNN:乘积交互新范式
      • 四、注意力机制时代:用户兴趣建模(2017-2018)
        • 4.1 DIN:动态兴趣网络
        • 4.2 DIEN:兴趣进化网络
      • 五、强化学习前沿:动态环境适应(2018至今)
        • 5.1 DRN:深度强化推荐
        • 5.2 在线学习机制
      • 六、算法效果横向评测
        • 6.1 离线性能对比(Amazon数据集)
        • 6.2 在线业务价值
      • 七、工业应用案例集锦
        • 7.1 淘宝DIN系统
        • 7.2 腾讯视频DeepFM
      • 八、经典面试题与论文
        • 8.1 高频面试题
        • 8.2 必读论文
      • 九、算法优缺点全景分析
        • 9.1 模型能力进化
        • 9.2 优缺点对比
      • 十、未来发展趋势
        • 10.1 技术融合方向
        • 10.2 理论突破前沿
      • 结语:推荐算法的哲学思考

一、传统推荐时代:协同过滤的奠基(1990s-2006)

1.1 算法背景:信息爆炸的挑战

随着互联网内容指数级增长,用户面临信息过载问题。亚马逊在2003年的数据表明:

  • 30%的销售额来自推荐系统
  • 推荐商品转化率是非推荐商品的3倍
    在这里插入图片描述
1.2 核心算法:协同过滤

矩阵分解(MF)成为里程碑:
min ⁡ p , q ∑ ( u , i ) ∈ κ ( r u i − p u T q i ) 2 + λ ( ∣ ∣ p u ∣ ∣ 2 + ∣ ∣ q i ∣ ∣ 2 ) \min_{p,q} \sum_{(u,i) \in \kappa} (r_{ui} - \mathbf{p}_u^T \mathbf{q}_i)^2 + \lambda(||\mathbf{p}_u||^2 + ||\mathbf{q}_i||^2) p,qmin(u,i)κ(ruipuTqi)2+λ(∣∣pu2+∣∣qi2)

  • 用户隐向量 p u \mathbf{p}_u pu:表征用户兴趣
  • 物品隐向量 q i \mathbf{q}_i qi:表征物品特性
用户-物品矩阵
低秩分解
用户隐空间
物品隐空间
1.3 局限性
问题表现案例
冷启动新用户/物品推荐不准新电影推荐失败率>60%
稀疏性长尾物品覆盖不足95%物品获得<10次交互
线性局限无法捕捉复杂关系无法识别“喜欢科幻的程序员也爱科技播客”

💡 转折点:Netflix百万美元悬赏推动算法革命(2006)


二、深度学习黎明:神经网络初探(2010-2015)

2.1 算法背景:深度学习的崛起

ImageNet竞赛中CNN的突破(2012)启发了推荐领域:

  • 神经网络可学习高阶非线性关系
  • Embedding技术可解决稀疏性问题
2.2 奠基模型:Deep Crossing

微软2015年提出首个端到端深度学习推荐系统:

特征
Embedding层
Stacking层
多层ResNet
Scoring层
  • 创新点:残差连接解决梯度消失
  • 效果:广告点击率提升12%
2.3 NeuralCF:协同过滤的神经网络化

y ^ u i = f ( p u , q i ∣ Θ ) \hat{y}_{ui} = f(\mathbf{p}_u, \mathbf{q}_i|\Theta) y^ui=f(pu,qi∣Θ)

  • 用MLP替代点积操作:
    f MLP ( p u , q i ) = σ ( W L ( ⋯ ReLU ( W 1 [ p u ; q i ] ) ) ) f_{\text{MLP}}(\mathbf{p}_u,\mathbf{q}_i) = \sigma(\mathbf{W}_L(\cdots\text{ReLU}(\mathbf{W}_1[\mathbf{p}_u;\mathbf{q}_i]))) fMLP(pu,qi)=σ(WL(ReLU(W1[pu;qi])))
  • 突破:CTR预测AUC提升4.2%

三、特征交叉革命:结构创新浪潮(2016-2017)

3.1 Wide&Deep:记忆与泛化的融合

谷歌2016年提出双路架构:
y ^ = σ ( w w i d e T [ x , ϕ ( x ) ] + w d e e p T α ( L ) + b ) \hat{y} = \sigma(\mathbf{w}_{wide}^T[\mathbf{x},\phi(\mathbf{x})] + \mathbf{w}_{deep}^T\alpha^{(L)} + b) y^=σ(wwideT[x,ϕ(x)]+wdeepTα(L)+b)

  • Wide部分:人工特征交叉(记忆性)
  • Deep部分:MLP学习隐含模式(泛化性)
  • 应用:Google Play下载量提升25%
3.2 DeepFM:自动化特征交叉

华为2017年用FM替代Wide部分:
y F M = ∑ i = 1 d w i x i + ∑ i = 1 d ∑ j = i + 1 d ⟨ v i , v j ⟩ x i x j y_{FM} = \sum_{i=1}^d w_i x_i + \sum_{i=1}^d\sum_{j=i+1}^d \langle \mathbf{v}_i,\mathbf{v}_j\rangle x_i x_j yFM=i=1dwixi+i=1dj=i+1dvi,vjxixj

特征
共享Embedding
FM层
Deep层
输出
  • 优势:自动学习二阶交叉,参数量减少40%
3.3 PNN:乘积交互新范式

上海交大2016年提出乘积层:
z = p u ⊙ q i ( 内积模式 ) \mathbf{z} = \mathbf{p}_u \odot \mathbf{q}_i \quad (\text{内积模式}) z=puqi(内积模式)
z = p u ⊗ q i ( 外积模式 ) \mathbf{z} = \mathbf{p}_u \otimes \mathbf{q}_i \quad (\text{外积模式}) z=puqi(外积模式)

  • 创新:显式构造特征交互矩阵
  • 效果:Criteo数据集AUC达0.839

四、注意力机制时代:用户兴趣建模(2017-2018)

4.1 DIN:动态兴趣网络

阿里2017年首创注意力机制:
α i = exp ⁡ ( v T ReLU ( W [ e i ; e t ] ) ) ∑ j exp ⁡ ( v T ReLU ( W [ e j ; e t ] ) ) \alpha_{i} = \frac{\exp(\mathbf{v}^T\text{ReLU}(\mathbf{W}[\mathbf{e}_i;\mathbf{e}_t]))}{\sum_j \exp(\mathbf{v}^T\text{ReLU}(\mathbf{W}[\mathbf{e}_j;\mathbf{e}_t]))} αi=jexp(vTReLU(W[ej;et]))exp(vTReLU(W[ei;et]))
u = ∑ i α i e i \mathbf{u} = \sum_i \alpha_i \mathbf{e}_i u=iαiei

  • 突破:用户兴趣随目标物品动态变化
  • 成果:淘宝CTR提升20%,GMV提升17%
4.2 DIEN:兴趣进化网络

阿里2018年引入序列建模:

行为序列
GRU层
兴趣状态
AUGRU
兴趣进化
  • 创新:AUGRU(带注意力更新门的GRU)
  • 公式
    h ~ t = ( 1 − α t ) h t − 1 + α t h ~ t \tilde{\mathbf{h}}_t = (1-\alpha_t)\mathbf{h}_{t-1} + \alpha_t \tilde{\mathbf{h}}_t h~t=(1αt)ht1+αth~t
  • 效果:点击率再提升12%

五、强化学习前沿:动态环境适应(2018至今)

5.1 DRN:深度强化推荐

微软2018年提出:
Q ( s , a ) = E [ r t + γ max ⁡ a ′ Q ( s ′ , a ′ ) ] Q(s,a) = \mathbb{E}[r_t + \gamma \max_{a'}Q(s',a')] Q(s,a)=E[rt+γamaxQ(s,a)]

  • 状态 s s s:用户历史行为
  • 动作 a a a:推荐策略
  • 奖励 r r r:用户反馈(点击/购买)
5.2 在线学习机制
用户请求
策略网络
推荐列表
用户反馈
奖励计算
模型更新
  • 创新:双网络结构(在线网络+目标网络)
  • 成效:新闻推荐停留时长提升35%

六、算法效果横向评测

6.1 离线性能对比(Amazon数据集)
模型HR@10NDCG@10训练耗时
MF0.6210.3581x
NeuralCF0.7030.4121.8x
Wide&Deep0.7350.4382.2x
DeepFM0.7620.4672.5x
DIN0.8010.5123.1x
DRN0.8230.5394.3x
6.2 在线业务价值
公司模型核心指标提升
阿里DINGMV +17%
腾讯DeepFMCTR +22%
字节DRN用户时长+28%
美团DIEN订单量+19%

七、工业应用案例集锦

7.1 淘宝DIN系统
  • 架构
    用户行为日志
    Flink实时计算
    特征数据库
    推荐请求
    DIN模型
    推荐结果
  • 特征工程
    • 用户特征:189维(历史点击/购买/收藏)
    • 物品特征:73维(类目/价格/店铺)
  • 成效:双十一GMV增加21亿
7.2 腾讯视频DeepFM
  • 创新:多模态特征融合
    e v = ResNet50 ( 视频帧 ) \mathbf{e}_v = \text{ResNet50}(\text{视频帧}) ev=ResNet50(视频帧)
    e t = BERT ( 标题 ) \mathbf{e}_t = \text{BERT}(\text{标题}) et=BERT(标题)
  • 部署:日均请求量1200亿次,响应<30ms
  • 成果:会员转化率提升18%

八、经典面试题与论文

8.1 高频面试题
  1. Q:MF与NeuralCF的本质区别?
    A:MF是线性点积,NeuralCF用MLP学习非线性交互函数

  2. Q:DIN如何实现兴趣动态变化?
    A:通过目标物品与历史物品的注意力权重:
    α i = f ( e t , e i ) \alpha_i = f(\mathbf{e}_t, \mathbf{e}_i) αi=f(et,ei)

  3. Q:DRN为何需要双网络结构?
    A:避免Q值过估计,目标网络提供稳定训练目标

  4. Q:如何解决Embedding维度爆炸?
    A:混合编码(Hash Trick)+ 分片训练(Sharding)

8.2 必读论文
  1. 矩阵分解:Matrix Factorization Techniques for Recommender Systems
  2. Wide&Deep:Wide & Deep Learning
  3. DeepFM:DeepFM: A Factorization-Machine based Neural Network
  4. DIN:Deep Interest Network
  5. DRN:Deep Reinforcement Learning for List-wise Recommendations

九、算法优缺点全景分析

9.1 模型能力进化
MF
线性交互
NeuralCF
非线性交互
DeepFM
自动特征交叉
DIN
动态兴趣
DRN
长期收益优化
9.2 优缺点对比
模型核心优势主要缺陷
MF可解释性强,计算高效无法捕捉非线性关系
DeepFM自动特征交叉,端到端训练高阶交叉不显式
DIN动态兴趣建模,个性化强序列建模计算量大
DRN长期收益优化,适应环境变化训练不稳定,Reward设计难

十、未来发展趋势

10.1 技术融合方向
  1. 多模态学习
    e = Transformer ( 文本 , 图像 , 视频 ) \mathbf{e} = \text{Transformer}(\text{文本}, \text{图像}, \text{视频}) e=Transformer(文本,图像,视频)
  2. 因果推断:解耦混淆因子
    P ( Y ∣ d o ( X ) ) = ∑ z P ( Y ∣ X , z ) P ( z ) P(Y|do(X)) = \sum_z P(Y|X,z)P(z) P(Ydo(X))=zP(YX,z)P(z)
  3. 联邦学习:隐私保护推荐
    min ⁡ θ ∑ k = 1 K ℓ ( f θ ( x k ) , y k ) \min_\theta \sum_{k=1}^K \ell(f_\theta(x_k), y_k) θmink=1K(fθ(xk),yk)
10.2 理论突破前沿
方向挑战探索模型
可解释性黑盒决策不可信反事实解释网络
公平性消除算法偏见对抗去偏框架
元宇宙推荐3D空间交互神经辐射场推荐

🌟 未来已来:2023年ChatGPT开启生成式推荐新时代,推荐系统正从“过滤信息”向“创造体验”跃迁。


结语:推荐算法的哲学思考

推荐算法的演进本质是人类认知的数字化延伸

  1. 协同过滤:群体智慧的数学表达
  2. 深度学习:神经网络模拟人脑决策
  3. 强化学习:系统与环境的动态博弈

“最好的推荐不是迎合已知,而是启发未知” —— 这不仅是技术挑战,更是对人性的深刻理解。当算法学会在准确性与惊喜度间平衡,在商业价值与用户体验间取舍,它便超越了工具属性,成为连接数字世界与人类需求的智慧桥梁。

相关文章:

  • iview中的table组件点击一行中的任意一点选中本行
  • 王劲松《人民日报》撰文 重读抗战家书不忘来时路
  • 数据类型--实型
  • QT 第二讲 --- 基础篇 Qt的第一个程序
  • 【Go语言基础【12】】指针:声明、取地址、解引用
  • 【python】RGB to YUV and YUV to RGB
  • 隐私计算时代B端页面安全设计:数据脱敏与权限体系升级路径
  • RT-Thread内核组成——内核移植
  • 小白成长之路-Linux Shell脚本练习
  • Linux实战篇、第一章_02若依前后端部署之路(前端)
  • 谷歌Sign Gemma: AI手语翻译,沟通从此无界!
  • 快捷键的记录
  • python入门(2)
  • 使用 Laravel 中的自定义存根简化工作
  • 计算机组成原理-存储器的概述
  • 快速上手 Metabase:从安装到高级功能实战
  • 解决国产GD32下载的工程无法编译
  • 基于 GWAS 的群体遗传分析将 bZIP29 确定为玉米中的异种基因
  • SpringBoot 配置加载顺序?
  • Cursor学习-Java环境配置
  • 广州市建设委员会网站/关键词如何优化排名
  • 怎么做同学录的网站/seo工资服务
  • 自媒体网站程序/整合营销传播
  • 摄影网站制作/关键词seo排名怎么样
  • flash网站建设/seo网站排名软件
  • seo 网站优化/西安百度快速排名提升