【论文阅读】基于指数-高斯混合网络的视频观看时间预测的多粒度分布建模-小红书recsys25
目录
- 短视频观看时间实际分布——以小红书平台为例
- 所提方法
- 分布假设
- EGMN:预估EGM的神经网络架构
- 训练目标 loss function
- 实验部分
- 整体表现
- RQ2 对闪滑行为的识别
- 消融实验
- RQ3 EGM 每一个部分的影响
- RQ4 三个损失函数影响
- RQ5 从粗到细粒度的分布建模
小红书25年recsys上一篇关于观看时长预测的工作,重新回顾的过程中发现这篇论文获得了最佳论文提名,牛牛牛!
短视频观看时间实际分布——以小红书平台为例
首先根据小红书平台视频流真实数据,作者全面分析了用户观看时长的分布情况,可以总结为三点:
- 图(a),从整体来看,视频观看时长呈现明显的偏态分布,由于用户的闪滑行为,在靠近0的地方有明显的高峰。
- 图(a),从视频本身时长来看,每组的分布又呈现双峰分布,从横轴信息判断,导致双峰的行为应该分别是“闪滑”和“完播”。
- 【用户角度】图(b),按照用户对推荐的视频接受程度进行划分,可以看到越挑剔(picky)的用户越多的闪滑行为导致明显的偏态分布,而接受度越高的用户(accepting)观看时长分布则偏态不明显。
- 【视频角度】图© ,从不同的视频类别来看,不同类型的视频观看时长的分布不同,呈现多样化。
总结来看,在粗粒度上,观看时长呈明显的偏态分布;划分细粒度来看,观看时长分布多种多样。两类综合起来形成了观看时长的实际复杂分布。
因此,以下两点被作者认为是观看时长预测的两个关键挑战:
- Coarse-grained distribution skewness:粗粒度分布偏度
- Fine-grained distribution diversity:细粒度分布多样性
所提方法
分布假设
针对上述的挑战,作者提出基于合理的分布假设直接回归观看时间的绝对值,从而提高估计精度。也就是通过合理的分布假设,来直接预测观看时长所服从的分布,从而直接预估观看时长。
-
假设的分布:指数-高斯混合分布(EGM 分布),由一个指数分布和K个高斯分布组成
-
指数部分(一个):拟合整体偏态分布,指数分布非常适合用来模拟快速跳过的行为,因为它具有无记忆性,并且概率集中在零附近,即随着x的增大,概率密度会快速衰减。
-
高斯部分(K个):捕捉细粒度的分布差异。在细粒度上分布变得更加复杂多样,高斯混合分布在理论上已被建立为复杂多模态分布的统计一致估计器,因此采用混合高斯来拟合这一部分。
EGMN:预估EGM的神经网络架构
Hidden Representation Encoder:构造预估网络的输入,可以包含用户feature、视频feature以及上下文feature。同样encoder的架构可以采用各种结构,比如DCN\DIN等。经过编码器,获得的表示为:
Mixture Parameter Generator【核心部分】用来生成假设分布的参数
- 输入是encoder得到的隐状态H
- 每个分布有各自的参数预估组件,以及会根据实际情况,对预估值进行限制
-
指数参数——λ
这里使用softplus来保证λ始终大于0 -
高斯参数——mu
公式左边部分要限制预估的高斯分布中轴在所预估指数分布的右边,也就是靠近0的偏态部分要交给指数部分来拟合,而右边更细粒度的部分交给高斯分布。同样softplus限制预估值大于0 -
高斯参数——sigma
直接预估方差,softplus保证方差大于0 -
Mixture Weights Generator,预估每个分布所占的权重
-
训练目标 loss function
Maximum Likelihood Estimation Loss 用负对数似然函数来训练分布拟合
展开可以得到:
Entropy Maximization Loss. 主要是对每个分布权重的约束,以防止模型在训练期间坍塌成单个分布,并鼓励模型在适当的时候使用多个组件,保证了对多样性分布的捕捉。
Regression Loss. 根本的目标loss,把观看时长看做回归问题,训练预估值拟合真实值,保证预估精度。这里,实际使用的时候会将预估分布的均值作为对观看时长的点估计,因此:
分布均值为:
回归loss为:
混合最终loss
实验部分
高斯分量个数设置为10
整体表现
- 离线上表现在所有数据集上达到最好效果,不管是数据集的随机划分还是按时间划分。
- 在线场景中,流量为10%,
- 新方法的表现比原本的基线CREAD好
- 在实时预测准确性上,新方法也得到了显著提升
RQ2 对闪滑行为的识别
实验设置:设定不同的跳过行为的观看阈值,通过auc指标看模型对于闪滑行为的判别力。
- EGMN对于闪滑行为的识别力最强,每个阈值下都很显著
- 当EGMN去掉指数部分建模以后,可以看到对闪滑行为的判别力明显下滑,验证了指数建模能够捕捉到用户的闪滑行为。
消融实验
RQ3 EGM 每一个部分的影响
- 去掉指数部分后,EGMN的表现骤降,反映出(1)预估闪滑是重要的(2)指数分布能够捕捉粗粒度的偏态分布【感觉也反映出混合高斯不能有效的捕捉偏态分布,还是需要引入更合适的分布。】
- 去掉高斯部分后,表现也有些下降。同时,作者也分析了K(高斯分布个数)的影响,结果表明,高斯分量数量不足限制了模型捕获观看时间数据中复杂模式的能力。但数量过多(>12)也会导致过拟合问题。
RQ4 三个损失函数影响
- 负对数似然:影响最大,消除 EGM 分布中的 MLE 损失会显着降低模型捕获复杂分布信息的能力,从而对估计精度产生负面影响
- 熵损失:在kuairac上很明显,确实可能存在训练坍塌问题
- 回归损失:去掉以后表现也有一定下降,说明尽管使用基于分布的方法,但通过回归显式优化期望仍然很重要。
RQ5 从粗到细粒度的分布建模
【验证所提出的方式,是否能在粗粒度整体和细粒度多角度更好的拟合观看分布】
- 整体分布建模:通过KL散度来评估拟合程度。
总的来说,EGMN 可以更好地平衡分布建模和价值回归之间的权衡。 - 视频时长角度的分布
首先,不同时长的视频的观看时间分布始终显示出相似的双峰性:闪滑和完播。其次,EGMN 的估计分布与地面真实情况紧密一致,准确地保留了双峰特征,表明 EGMN 的混合架构本质上能够对持续时间之外的其他特征维度的观看时间分布进行建模。 - 用户/视频角度的分布
实验设置:- 用户分成了两组:挑剔的 和 宽容的
- 视频选择两类:美妆类(大致是双峰分布);电影类别,更平坦更多峰的分布
- 从第一排和第一列边缘分布结果对比,EGMN 对用户和视频边缘分布表现出卓越的拟合精度,证实了其准确建模个人用户消费习惯和视频特定参与模式的能力。
- 黄色的组合部分说明了 EGMN 如何预测特定用户视频对的观看时间分布。这些分布揭示了 EGMN 整合用户行为模式和视频特征信息的能力。