【论文阅读】Hypercomplex Prompt-aware Multimodal Recommendation
【论文阅读】Hypercomplex Prompt-aware Multimodal Recommendation
超复杂的提示感知多模式推荐
关键词:
Multimodal; Recommendation; Hypercomplex Algebra; Promptaware; Graph Learning
摘要
问题:Existing methods suffer from three fundamental limitations:
( 1 )通过单一表征表示丰富多模态特征的能力有限。
( 2 )现有的线性模态融合策略忽略了模态之间的深层非线性相关性。
( 3 )静态优化方法无法动态缓解图卷积网络( GCN )中的过平滑问题。
方法:
为了克服这些局限性,我们提出了一种新颖的超复数Prompt - aware多模态推荐框架HPMRec,该框架利用多组件形式的超复数嵌入来增强多模态特征的表示多样性。HPMRec采用超复数乘法自然地建立非线性跨模态交互来弥合语义鸿沟,有利于探索跨模态特征。HPMRec还引入了提示感知补偿机制来辅助部件间的错位和模式特异性特征损失,该机制从根本上缓解了过平滑问题。它进一步设计了增强表示多样性和对齐不同模态的自监督学习任务。
引言
问题:
-
单一向量难以刻画多模态的丰富语义:一个嵌入不足以完整表示用户/物品在不同模态中的细粒度特征。
-
线性融合欠表达跨模态的非线性关系:加权求和/拼接等线性策略难以挖掘模态间深层关联,导致跨模态信息利用不足。
-
GCN过平滑治理静态且被动:现有方法多用固定的、静态的优化技巧缓解过平滑,缺乏能随训练动态自适应的机制。
解决方案:
- 超复数多组件表征:引入 Cayley–Dickson 超复数结构,把每个模态的用户/物品表征拆为多个“组件”,并配套超复图卷积,使各组件学习到多样化的模态特定特征。
- 超复数乘法做非线性模态交互:用超复乘法在模态间建立天然的非线性高阶关系,强化跨模态特征的挖掘与融合。
- Prompt 感知的动态补偿机制:为每个模态、每个组件配置可学习的 Prompt,动态对齐与补偿组件间的语义偏移,既保留模态核心特征,又从根上缓解过平滑。
- 自监督辅助任务:
- 跨模态对齐(如 ID–视觉、ID–文本、视觉–文本)以促进融合;
- 实部–虚部差异扩展以扩大组件间差异,进一步增强表征多样性。
- 结合同/异构图信息:在用户–物品二部图之外,用基于特征相似度的物品–物品 kNN 图增强物品表征,并与上述模块协同优化,最终实现 state-of-the-art 的推荐效果。
简言之:HPMRec 用“多组件(提升表达力)+ 超复乘法(非线性交互)+ Prompt 动态补偿(保核心、抗过平滑)+ 自监督(对齐与多样性)”四根支柱,系统性解决引言中指出的三大痛点。
相关工作
Hypercomplex-based Recommendation
基于超复杂的表示学习已被证明在计算机视觉 [55] 和自然语言处理 [30] 等领域是有效的。最近,研究人员开始将这些技术应用于推荐系统:之前的工作 [4, 19] 专注于使用交互数据的纯粹协同过滤,而后续研究 [5,20, 31] 通过集成辅助辅助信息来增强这一基础。然而,超复杂嵌入固有的多分量结构使其特别适合编码复杂信息,例如多模态特征。据我所知,之前的工作还没有利用超复杂嵌入进行多模式推荐。我们提出的 HPMRec 框架填补了这一空白,并探讨了超复杂嵌入如何通过表示能力和结构使多模态特征受益。
通俗说法:“超复数(Hypercomplex)推荐”*就是把用户/物品的向量,不再用普通的实数向量来表示,而是用超复数嵌入(带多个“分量/部件”的向量,比如四元数、八元数等)来建模;并用超复数的乘法/共轭等运算去刻画更复杂的交互关系。这样做能在相同或更少参数下,让表示更丰富、模态间的关系更自然地被编码进去。
Prompt-based Recommendation
提示学习已经成为大型预训练模型背景下的一个新兴研究方向[3, 22],一些工作探索了推荐领域提示学习的能力。GraphPrompt [23] 定义了图上提示的范例。为了将知识图语义转移到任务数据中,KGTransformer [50]将任务数据视为调优的三重提示。此外,还引入了基于提示的学习来增强模型公平性[37]、序列学习[38]。最近,PromptMM [35]提出了一种新颖的多模态提示学习方法,可以自适应地指导知识蒸馏。在我们的 HPMRec 中,我们考虑使用提示的功能来实现超复杂嵌入的动态补偿机制,以便它可以实现多样化的表示,同时保留核心模态特定的功能。它还通过表示的多样性缓解了图卷积网络固有的过度平滑问题。这种设计充分合理地利用了提示的能力来提高推荐性能。
方法

Hypercomplex Multimodal Encoder(左上)
三种模态(Textual/ID/Visual)各用编码器得到超复数多组件嵌入,每个节点由 2n+12^{n}+12n+1 个“实/虚部件”组成(图中方块序列)。随后在二部图上做超复图传播,得到每模态的节点表征 hˉu/vt/id/v\bar{\mathbf h}^{t/id/v}_{u/v}hˉu/vt/id/v。这样能为同一用户/物品捕获更丰富的模态特征。
Prompt-aware Compensation
给每个模态、每个组件注入一个可学习 prompt Pu/vm\mathcal{P}^{m}_{u/v}Pu/vm,与对应组件相加,得到补偿后的 h~u/vm\tilde{\mathbf h}^{m}_{u/v}h~u/vm。目的:自适应对齐多组件的语义、保留“模态核心特征”,并缓解超复表示带来的组件错位与过平滑
MI Enhancement Fusion Strategy(中间)
先对三对模态(t–id、id–v、t–v)做超复数乘法(图中“⊗”),得到非线性的成对融合特征 Hˉu/vm-m′\bar{\mathbf H}^{m\text{-}m'}_{u/v}Hˉu/vm-m′,再与各自单模态特征(“⊕”)结合形成 H^u/vt/id/v\hat{\mathbf H}^{t/id/v}_{u/v}H^u/vt/id/v。随后将用户与物品端汇聚为 H^u,H^v\hat{\mathbf H}_u, \hat{\mathbf H}_vH^u,H^v。这一步的要点就是:用超复乘法挖掘更深的跨模态高阶关系,优于线性/注意力式融合。
还引入物品–物品同构图(基于相似度的 kkkNN),把 H^v\hat{\mathbf H}_vH^v 再做一次增强传播,得到最终物品侧表征(图中“Item-Item Homogeneous Graph”)。
Self-supervised Learning Tasks
并行设计两类自监督目标,作用在最终的 H^\hat{\mathbf H}H^ 上:
Cross-modality AlignmentLalign\mathcal L_{\text{align}}Lalign:让三种模态的实部在同一实体上更靠近、不同实体更分离(图中红色“拉近/推远”)。用于跨模态对齐。
Real–Imag Discrepancy Expansion Lexpand\mathcal L_{\text{expand}}Lexpand:约束实部与各虚部均值拉开差异,鼓励组件间多样性,从而挖到更多“模态特有”信号。
这两者一“保核心”、一“扩多样”,互相制衡,既不丢模态核心,又提升表征多样性与融合效果。
详细学习
Cayley–Dickson Construction
一种把实数系逐步“翻倍”得到更高维超复数代数的方法,以及在该代数上的四种基本运算(加/减、共轭、乘法、数乘)
1) 逐步“翻倍”的超复数族
- 从 A0=RA_0=\mathbb RA0=R 出发,每一步用一个新的超虚单位 i2n+1i_{2^n+1}i2n+1 把维度从 2n2^n2n 翻到 2n+12^{n+1}2n+1:
An+1={ha+hbi2n+1∣ha,hb∈An}.A_{n+1}=\{\,h_a+h_b\, i_{2^n+1}\mid h_a,h_b\in A_n\,\}. An+1={ha+hbi2n+1∣ha,hb∈An}.
新单位满足 (i2n+1)2=−1(i_{2^n+1})^2=-1(i2n+1)2=−1,且与旧单位的乘法规则按文中给定关系成立(如 i1i2n+1=i2n+1i1i_1 i_{2^n+1}= i_{2^n+1} i_1i1i2n+1=i2n+1i1 等)。
直观上:每个高维元素都由“上一层的两个元素”拼成一个“二元组”。这就是“翻倍”的含义。
例子:A0=RA_0=\mathbb RA0=R;A1A_1A1 给出复数;再翻倍得 A2A_2A2(四元数),再翻倍得 A3A_3A3(八元数/辛)。(论文此处强调“维度为 2 的幂”。)
2) 四种运算的递归定义
设 hx=ha+hbi2n+1,hy=hc+hdi2n+1h_x=h_a+h_b i_{2^n+1},\; h_y=h_c+h_d i_{2^n+1}hx=ha+hbi2n+1,hy=hc+hdi2n+1(都在 An+1A_{n+1}An+1):
-
加法/减法:分别对“前半”和“后半”在 AnA_nAn 里做 ⊕n/⊖n\oplus_n/\ominus_n⊕n/⊖n 再组合:
hx⊕n+1hy=(ha⊕nhc)+(hb⊕nhd)i2n+1h_x\oplus_{n+1} h_y=(h_a\oplus_n h_c)+ (h_b\oplus_n h_d)\, i_{2^n+1}hx⊕n+1hy=(ha⊕nhc)+(hb⊕nhd)i2n+1。Chen 等 - 2025 - Hypercomplex Pr… -
共轭:把“后半”的符号取反:hx‾=ha‾−hbi2n+1\overline{h_x}=\overline{h_a}-h_b i_{2^n+1}hx=ha−hbi2n+1。实数的共轭仍为其本身。Chen 等 - 2025 - Hypercomplex Pr…
-
乘法(关键):
hx⊗n+1hy=(ha⊗nhc⊖nhd‾⊗nhb)+(ha⊗nhd⊕nhb⊗nhc‾)i2n+1.h_x\otimes_{n+1} h_y =\big(h_a\otimes_n h_c\;\ominus_n\; \overline{h_d}\otimes_n h_b\big) +\big(h_a\otimes_n h_d\;\oplus_n\; h_b\otimes_n \overline{h_c}\big)\, i_{2^n+1}. hx⊗n+1hy=(ha⊗nhc⊖nhd⊗nhb)+(ha⊗nhd⊕nhb⊗nhc)i2n+1.
当 n≥2n\ge 2n≥2 时,这个乘法不再对称(非交换)。 -
数乘:标量 γ∈R\gamma\in\mathbb Rγ∈R 逐分量作用:γhx=γha+γhbi2n+1\gamma h_x=\gamma h_a+\gamma h_b i_{2^n+1}γhx=γha+γhbi2n+1。
这些定义的意义在于:高维的运算都可以用低维的运算递归实现,因此实现与推导都更简单。本文后续在建模里就沿用这些 C–D 运算。
3) 与本文方法的关系
论文借助 C–D 结构把用户/物品的模态表示拆成多个组件,并在图学习与模态融合时使用上面的超复乘法与共轭等运算;因为是递归定义,实际实现时只要写好低维运算即可推广到更高维表示。
一句话:C–D 构造给了我们一套“把高维超复数分解成两半,再用低维规则拼起来”的通用法则;HPMRec 正是依赖这套法则在多模态推荐里进行表示与交互
Prompt-aware Compensation
它解决“超复数多组件表示彼此语义错位、直接拼接会丢核心模态特征”的问题。
核心做法:
-
为每个实体、每个模态、每个组件配置可学习的 prompt 向量
论文引入可学习的 p∈Rd⋅(2n+1)p\in\mathbb{R}^{d\cdot(2^{n}+1)}p∈Rd⋅(2n+1),逐组件对表示做补偿,使各组件回到更一致的语义空间,避免仅靠拼接带来的噪声与偏移。 -
跨层聚合 + Prompt 动态补偿
对模态 mmm 的用户/物品表示,先把 GCN 各层输出求和(0…L 层),再加上该模态的 prompt:
hˉu/vm=∑l=0Lhu/vm(l)+pu/vm.\bar{h}^{\,m}_{u/v}=\sum_{l=0}^{L}h^{\,m}_{u/v}(l)+p^{\,m}_{u/v}. hˉu/vm=l=0∑Lhu/vm(l)+pu/vm.
这样做在保持跨层信息的同时,用 prompt 对每个组件进行独立补偿与对齐。
- 为何能抗过平滑
GCN 传播会让邻居表示趋同(过平滑)。作者的思路是允许各组件学出多样性,再用 prompt **保留“核心模态特征”*并进行对齐;多样性得以保留,从而*从机制上减轻过平滑。
Prompt-aware Compensation = 逐组件的可学习补偿 + 跨层聚合:动态对齐多组件语义、保留模态核心特征、维持表示多样性,从而同时解决错位与过平滑。
rompt **保留“核心模态特征”*并进行对齐;多样性得以保留,从而*从机制上减轻过平滑。
Prompt-aware Compensation = 逐组件的可学习补偿 + 跨层聚合:动态对齐多组件语义、保留模态核心特征、维持表示多样性,从而同时解决错位与过平滑。
