当前位置：首页 > news >正文

【论文阅读】Hypercomplex Prompt-aware Multimodal Recommendation

news 2025/11/12 9:51:36

【论文阅读】Hypercomplex Prompt-aware Multimodal Recommendation

超复杂的提示感知多模式推荐

关键词：

Multimodal; Recommendation; Hypercomplex Algebra; Promptaware; Graph Learning

摘要

问题：Existing methods suffer from three fundamental limitations:

( 1 )通过单一表征表示丰富多模态特征的能力有限。

( 2 )现有的线性模态融合策略忽略了模态之间的深层非线性相关性。

( 3 )静态优化方法无法动态缓解图卷积网络( GCN )中的过平滑问题。

方法：

为了克服这些局限性，我们提出了一种新颖的超复数Prompt - aware多模态推荐框架HPMRec，该框架利用多组件形式的超复数嵌入来增强多模态特征的表示多样性。HPMRec采用超复数乘法自然地建立非线性跨模态交互来弥合语义鸿沟，有利于探索跨模态特征。HPMRec还引入了提示感知补偿机制来辅助部件间的错位和模式特异性特征损失，该机制从根本上缓解了过平滑问题。它进一步设计了增强表示多样性和对齐不同模态的自监督学习任务。

引言

问题：

单一向量难以刻画多模态的丰富语义：一个嵌入不足以完整表示用户/物品在不同模态中的细粒度特征。
线性融合欠表达跨模态的非线性关系：加权求和/拼接等线性策略难以挖掘模态间深层关联，导致跨模态信息利用不足。
GCN过平滑治理静态且被动：现有方法多用固定的、静态的优化技巧缓解过平滑，缺乏能随训练动态自适应的机制。

解决方案：

超复数多组件表征：引入 Cayley–Dickson 超复数结构，把每个模态的用户/物品表征拆为多个“组件”，并配套超复图卷积，使各组件学习到多样化的模态特定特征。
超复数乘法做非线性模态交互：用超复乘法在模态间建立天然的非线性高阶关系，强化跨模态特征的挖掘与融合。
Prompt 感知的动态补偿机制：为每个模态、每个组件配置可学习的 Prompt，动态对齐与补偿组件间的语义偏移，既保留模态核心特征，又从根上缓解过平滑。
自监督辅助任务：
- 跨模态对齐（如 ID–视觉、ID–文本、视觉–文本）以促进融合；
- 实部–虚部差异扩展以扩大组件间差异，进一步增强表征多样性。
结合同/异构图信息：在用户–物品二部图之外，用基于特征相似度的物品–物品 kNN 图增强物品表征，并与上述模块协同优化，最终实现 state-of-the-art 的推荐效果。

简言之：HPMRec 用“多组件（提升表达力）+ 超复乘法（非线性交互）+ Prompt 动态补偿（保核心、抗过平滑）+ 自监督（对齐与多样性）”四根支柱，系统性解决引言中指出的三大痛点。

方法

在这里插入图片描述

Hypercomplex Multimodal Encoder（左上）

三种模态（Textual/ID/Visual）各用编码器得到超复数多组件嵌入，每个节点由 $2^{n}+1$ 个“实/虚部件”组成（图中方块序列）。随后在二部图上做超复图传播，得到每模态的节点表征 $hˉu/vt/id/v\bar{\mathbf h}^{t/id/v}_{u/v}$ 。这样能为同一用户/物品捕获更丰富的模态特征。

Prompt-aware Compensation

给每个模态、每个组件注入一个可学习 prompt $Pu/vm\mathcal{P}^{m}_{u/v}$ ，与对应组件相加，得到补偿后的 $h~u/vm\tilde{\mathbf h}^{m}_{u/v}$ 。目的：自适应对齐多组件的语义、保留“模态核心特征”，并缓解超复表示带来的组件错位与过平滑

MI Enhancement Fusion Strategy（中间）

先对三对模态（t–id、id–v、t–v）做超复数乘法（图中“⊗”），得到非线性的成对融合特征 $Hˉu/vm-m′\bar{\mathbf H}^{m\text{-}m'}_{u/v}$ ，再与各自单模态特征（“⊕”）结合形成 $H^u/vt/id/v\hat{\mathbf H}^{t/id/v}_{u/v}$ 。随后将用户与物品端汇聚为 $H^u,H^v\hat{\mathbf H}_u, \hat{\mathbf H}_v$ 。这一步的要点就是：用超复乘法挖掘更深的跨模态高阶关系，优于线性/注意力式融合。

还引入物品–物品同构图（基于相似度的 $k$ NN），把 $H^v\hat{\mathbf H}_v$ 再做一次增强传播，得到最终物品侧表征（图中“Item-Item Homogeneous Graph”）。

Self-supervised Learning Tasks

并行设计两类自监督目标，作用在最终的 $H^\hat{\mathbf H}$ 上：

Cross-modality Alignment $Lalign\mathcal L_{\text{align}}$ ：让三种模态的实部在同一实体上更靠近、不同实体更分离（图中红色“拉近/推远”）。用于跨模态对齐。

Real–Imag Discrepancy Expansion $Lexpand\mathcal L_{\text{expand}}$ ：约束实部与各虚部均值拉开差异，鼓励组件间多样性，从而挖到更多“模态特有”信号。

这两者一“保核心”、一“扩多样”，互相制衡，既不丢模态核心，又提升表征多样性与融合效果。

详细学习

Cayley–Dickson Construction

一种把实数系逐步“翻倍”得到更高维超复数代数的方法，以及在该代数上的四种基本运算（加/减、共轭、乘法、数乘）

1) 逐步“翻倍”的超复数族

从 $A0=RA_0=\mathbb R$ 出发，每一步用一个新的超虚单位 $i_{2^n+1}$ 把维度从 $2^n$ 翻到 $2^{n+1}$ ：
$An+1={ha+hbi2n+1∣ha,hb∈An}.A_{n+1}=\{\,h_a+h_b\, i_{2^n+1}\mid h_a,h_b\in A_n\,\}.$
新单位满足 $i_{2^n+1})^2=-1$ ，且与旧单位的乘法规则按文中给定关系成立（如 $i_1 i_{2^n+1}= i_{2^n+1} i_1$ 等）。
直观上：每个高维元素都由“上一层的两个元素”拼成一个“二元组”。这就是“翻倍”的含义。

例子： $A0=RA_0=\mathbb R$ ； $A_1$ 给出复数；再翻倍得 $A_2$ （四元数），再翻倍得 $A_3$ （八元数/辛）。（论文此处强调“维度为 2 的幂”。）

2) 四种运算的递归定义

设 $h_x=h_a+h_b i_{2^n+1},\; h_y=h_c+h_d i_{2^n+1}$ （都在 $A_{n+1}$ ）：

加法/减法：分别对“前半”和“后半”在 $A_n$ 里做 $⊕n/⊖n\oplus_n/\ominus_n$ 再组合：
$hx⊕n+1hy=(ha⊕nhc)+(hb⊕nhd)i2n+1h_x\oplus_{n+1} h_y=(h_a\oplus_n h_c)+ (h_b\oplus_n h_d)\, i_{2^n+1}$ 。Chen 等 - 2025 - Hypercomplex Pr…
共轭：把“后半”的符号取反： $hx‾=ha‾−hbi2n+1\overline{h_x}=\overline{h_a}-h_b i_{2^n+1}$ 。实数的共轭仍为其本身。Chen 等 - 2025 - Hypercomplex Pr…
乘法（关键）：
$hx⊗n+1hy=(ha⊗nhc⊖nhd‾⊗nhb)+(ha⊗nhd⊕nhb⊗nhc‾)i2n+1.h_x\otimes_{n+1} h_y =\big(h_a\otimes_n h_c\;\ominus_n\; \overline{h_d}\otimes_n h_b\big) +\big(h_a\otimes_n h_d\;\oplus_n\; h_b\otimes_n \overline{h_c}\big)\, i_{2^n+1}.$
当 $n≥2n\ge 2$ 时，这个乘法不再对称（非交换）。
数乘：标量 $γ∈R\gamma\in\mathbb R$ 逐分量作用： $γhx=γha+γhbi2n+1\gamma h_x=\gamma h_a+\gamma h_b i_{2^n+1}$ 。

这些定义的意义在于：高维的运算都可以用低维的运算递归实现，因此实现与推导都更简单。本文后续在建模里就沿用这些 C–D 运算。

3) 与本文方法的关系

论文借助 C–D 结构把用户/物品的模态表示拆成多个组件，并在图学习与模态融合时使用上面的超复乘法与共轭等运算；因为是递归定义，实际实现时只要写好低维运算即可推广到更高维表示。

一句话：C–D 构造给了我们一套“把高维超复数分解成两半，再用低维规则拼起来”的通用法则；HPMRec 正是依赖这套法则在多模态推荐里进行表示与交互

Prompt-aware Compensation

它解决“超复数多组件表示彼此语义错位、直接拼接会丢核心模态特征”的问题。

核心做法：

为每个实体、每个模态、每个组件配置可学习的 prompt 向量
论文引入可学习的 $p∈Rd⋅(2n+1)p\in\mathbb{R}^{d\cdot(2^{n}+1)}$ ，逐组件对表示做补偿，使各组件回到更一致的语义空间，避免仅靠拼接带来的噪声与偏移。
跨层聚合 + Prompt 动态补偿
对模态 $m$ 的用户/物品表示，先把 GCN 各层输出求和（0…L 层），再加上该模态的 prompt：