当前位置：首页 > news >正文

【论文阅读】PEARL A dual-layer graph learning for multimodal recommendation

news 2025/11/12 6:23:27

【论文阅读】PEARL: A dual-layer graph learning for multimodal recommendation

PEARL：用于多模态推荐的双层图学习

关键词：Multimodal recommendation、 Graph purification 、Affinity graph learning 、Contrastive learning

摘要

尽管现有的工作通过关注用户-项目交互图结构和自监督学习来增强多模态表示学习，取得了显着的进展，但它们仍然表现出以下两个局限性：

问题：

（1）在固定的交互图上执行图卷积操作会引入由于用户对各种模态的注意力不平衡而引起的误导性噪声信号。

（2）缺乏对多模态属性中固有的自监督信号的探索，无法减轻数据增强过程中引入的分布偏差。

方法：

为了解决这些问题，我们提出了一种名为 Purified-intEraction 和 Affinity gRaph Learning (PEARL) 的多模态推荐新方法，该方法利用双层图学习来对用户偏好进行建模。具体来说，为了消除误导性的噪声信号，我们设计了一种图纯化策略，该策略构建纯化的特定模态交互图，从而从原始交互图中去除噪声边缘。

然后，分别基于用户共现和项目多模态特征构建用户和项目亲和图，然后将其用于消息传递以挖掘相似用户或项目之间的隐式自监督信号。之后，我们在融合模块中提出了一个无增强对比学习任务，以提高 ID 嵌入和多模态特征的质量，最终生成用户和项目的最终表示。

引言

为了解决上述限制，我们提出了一种名为 Purified-intEraction 和 Affinity gRaph Learning (PEARL) 的新方法，用于多模态推荐。具体来说，我们首先设计一种图纯化策略，以消除用户对各种模态注意力不平衡造成的噪声边缘，从而以硬去噪的方式生成特定模态的交互图。然后，我们并行应用三个图卷积网络来处理多模态特征和 ID 嵌入，生成用户和项目的高阶表示。此外，我们在冻结的用户共现和项目模态感知亲和力图上执行消息传递，以聚合相似节点之间的特征，从而挖掘用户或项目之间隐式的模态内亲和力以增强其表示。最后，我们提出了一种无增强对比学习任务，该任务利用 ID 嵌入和多模态特征之间固有的自监督信号，避免使用有偏差的数据增强。上述技术的总体贡献是通过有效学习用户-项目交互信号和多模态特征来获得准确的多模态用户偏好。

方法

在这里插入图片描述

初始化 & 图净化

先用预训练模型抽取物品图像/文本特征；用户的“视觉/文本偏好向量”和用户/物品的ID嵌入随机初始化。

图净化（Graph Purification）：按“用户在不同模态上的注意力不均衡”计算每条交互边在各模态下的注意力分数，对注意力低的边按比例ρ做硬剪枝，得到模态特定的交互图（视觉一张、文本一张，标🔥，可随训练更新）。这样避免把“用户其实没看文本却发生了点击”这类噪声沿图扩散。

交互图学习（中左，紫色区域）

并行跑三套 LightGCN：
① 在原始历史交互图上，更新ID嵌入；
② 在**视觉交互图(🔥)上，更新视觉侧用户/物品表示；
③ 在文本交互图(🔥)**上，更新文本侧用户/物品表示。

这一步得到三路的高阶表示（图中 $X(⋅)X^{(\cdot)}$ ）。

亲和图学习（中右，灰色区域）

构建两类冻结❄️的亲和图来“顺着相似性再聚合一次”：

用户共现图 U–U(❄️)：由“看过同一物品的用户”共现矩阵取Top-n得到，基于上一步的用户表示再做一层传播，得到用户的进阶表示 $Z$ 。
物品模态感知图 I–I(❄️)：按原始视觉/文本特征的余弦相似度取Top-n，各模态各一张，对物品ID嵌入与模态特征分别消息传递并按超参 $α\alpha$ （视觉权重）融合，得到物品的进阶表示 $Z$ 。