Distance Information Improves Heterogeneous Graph Neural Networks
Distance Information Improves Heterogeneous Graph Neural Networks (TKDE 2023)
摘要
异构图神经网络(HGNNs)在处理包含多种类型节点和边的图结构数据时取得了显著进展。然而,现有方法在表示节点语义时,通常忽略了节点之间的距离信息(如结构距离或语义距离),从而限制了模型的表达能力和性能。为解决这一问题,本文提出了一种新颖的框架,名为 Distance-enhanced Heterogeneous Graph Neural Network (DHGNN),通过显式地整合距离信息来增强节点表示学习能力。我们设计了两种距离感知机制:(1)结构距离感知模块,利用元路径结构中的跳数信息;(2)语义距离感知模块,基于元路径上下文相似性构建节点间的语义距离。在多个真实世界的异构图数据集上的实验表明,DHGNN 在节点分类任务中显著优于现有的先进方法,验证了距离信息在异构图建模中的重要性和有效性。
1 引言
异构图(Heterogeneous Graphs)由多种类型的节点和边组成,具备丰富的语义信息,已被广泛应用于复杂系统的抽象与建模中,例如学术图谱【1】【2】、交通系统【3】、药物反应分析【4】以及金融分析【5】。如图 1(a) 所示,学术异构图包含三种类型的节点:论文、作者和术语,以及它们之间复杂的关系。在过去十年中,传统的异构图挖掘方法【6】(尤其是基于路径的方法【7】【8】)已被深入研究。
近年来,基于深度学习的技术逐渐被应用于图结构数据的挖掘【9】【10】【11】。作为一种深度图表示学习模型,**异构图神经网络(HGNN)**在性能上优于传统的异构图分析方法【7】【8】,并引发了广泛的研究关注。
目前主流的异构图神经网络(HGNN)实现主要关注于如何处理图的异质性,并通过聚合结构邻居的信息来学习每个节点的表示。然而,这种 HGNN 的学习范式继承了 GNN 表达能力有限的缺陷【12】,无法有效建立节点之间的相关性【11】【13】,从而在多个与节点相关的任务中(如链接预测或关系预测【14】【15】)表现不佳。如图 1(b) 所示,节点 (p2)(p_2)(p2) 和 (p3)(p_3)(p3) 分别从一位作者和两个术语中聚合信息,因此从结构上看(此处忽略节点属性),它们的嵌入表示将相同。因此,对于两个节点对 (p1,p2)(p_1, p_2)(p1,p2) 和 (p1,p3)(p_1, p_3)(p1,p3),HGNN 无法判断哪个链接更可能存在,最终对它们预测出相同的存在概率,即 y^p1,p2=y^p1,p3\hat{y}_{p_1,p_2} = \hat{y}_{p_1,p_3}y^p1,p2=y^p1,p3,如图 1© 所示。实际上,节点 (p1)(p_1)(p1) 与 (p2)(p_2)(p2) 的距离相较于 (p3)(p_3)(p3) 更近,因此链接 (p1,p2)(p_1, p_2)(p1,p2) 更可能存在。HGNN 表达能力的局限性严重削弱了其性能,并在很大程度上限制了其应用范围。
HGNN 表达能力受限的一个重要原因在于其对每个节点仅进行结构邻居的独立聚合,在很大程度上忽略了节点之间的相关性(如距离),而这种相关性对于提升模型表达能力是至关重要的【11】【16】【17】【18】【19】。捕捉多个节点之间的相关性对于处理涉及多个节点的任务(如链接预测或关系预测)尤其有价值。例如,当两个节点彼此接近时,它们更可能形成连接(如三元闭包现象【20】),这一趋势为链接预测提供了有用信息。此外,即使 GNN 模型可以学习到较强的单节点表示,如果没有捕捉到多节点之间的相关性,仍可能无法区分非同构的节点集合【19】。
近年来,一些工作【11】【16】【17】【19】【21】尝试将不同形式的相关性引入同构图神经网络的学习过程中,例如 DEGNN【11】中建模的最短路径距离(Shortest Path Distance, SPD)。
然而,上述相关性建模方法并未考虑图中多种类型的边,因此无法直接应用于异构图场景。
实际上,在异构图中建立节点之间的相关性面临更多挑战,因为节点之间存在多种类型的连接(即路径),例如“论文-术语”和“论文-作者”等。传统的度量方式(如最短路径距离 SPD)无法充分衡量异构图中节点之间的相关性,**因为它们只关注路径长度,**而忽略了路径类型的影响,从而可能导致不恰当的结果。
如图 1(d) 所示,节点对 (p2,p1)(p_2, p_1)(p2,p1) 与节点对 (p2,p3)(p_2, p_3)(p2,p3) 的相关性是不同的,因为它们之间连接的路径类型不同:前者是“论文-作者-论文”,后者是“论文-术语-论文”。而传统的 SPD【11】方法会为它们赋予相同的相对距离(即路径长度均为 2),这显然无法反映路径语义的差异。
在上述分析的基础上,为了通过建模节点相关性来提升 HGNN 的表达能力,我们需要解决以下新的挑战:
• 异构相关性建模
在异构图中,不同类型节点之间的相关性对许多图挖掘任务至关重要。然而,传统 HGNN 由于表达能力有限,往往忽略了这类相关性,从而在这些任务中容易失败。例如,给定一个节点对 (u,v)(u, v)(u,v),如果它们都与某个节点 iii 存在强相关性(如直接连接或距离较近),那么 (u,v)(u, v)(u,v) 之间存在边的概率就较高。如图 1(a) 所示,论文 p1p_1p1 倾向于与论文 p2p_2p2 建立引用关系,这是因为它们都由作者 a2a_2a2 撰写,且存在两条短路径 (p1,a2)(p_1, a_2)(p1,a2) 和 (a2,p2)(a_2, p_2)(a2,p2),表明它们之间存在较强的相关性。显然,作者 a2a_2a2 起到了连接 p1p_1p1 和 p2p_2p2 的中介作用,为预测引用关系 (p1,p2)(p_1, p_2)(p1,p2) 提供了有价值的信息。相比之下,论文 p1p_1p1 不太可能与论文 p3p_3p3 建立引用关系,因为它们通过两条较长路径 (p1,a2,p2)(p_1, a_2, p_2)(p1,a2,p2) 和 (p2,t3,p3)(p_2, t_3, p_3)(p2,t3,p3) 连接(即相关性较弱)。尽管节点相关性的有效性在许多应用中已被验证(如相似性搜索【8】),但如何将节点间的相关性有效地引入 HGNN 并进一步提升其表达能力,仍然是一个尚未解决的问题。
因此,仅仅计算最短路径距离会削弱不同类型路径所携带的语义信息。如何在异构图中合理衡量节点之间的相对距离仍是一个亟待解决的问题。为此,本文提出了一种简单而有效的技术,称为异构距离编码(Heterogeneous Distance Encoding, HDE),用于应对上述挑战。我们将 HDE 注入到 HGNN 的邻居聚合过程中,并进一步提出了一种新型的基于距离编码的异构图神经网络,称为 DHN(Distance encoding based Heterogeneous graph neural Network)。具体而言,我们首先定义了异构最短路径距离,用于衡量节点之间的相对距离,并通过聚合多个节点之间的距离,设计出 HDE 以编码它们的相关性。随后,所提出的 DHN 将这种编码后的相关性注入到聚合过程中,从而在链接预测任务中学习到更具表达力的节点表示。通过对比图 1(b) 与图 1(e) 可以看出,引入相关性建模后,所提出的 DHN 在表示能力上显著优于以往的 HGNN。
图 1. 一个学术异构图及 HGNN 与 DHN 的对比。
- (a) 该学术异构图包含三类节点和两类边。不同的路径揭示了节点之间不同的距离。
- (b) HGNN 的局限性在于其聚合过程是基于每个节点的结构邻居独立学习节点表示的。
- © HGNN 的表达能力有限,无法区分哪些连接应当存在(例如:y^p1,p2=y^p1,p3\hat{y}_{p1,p2} = \hat{y}_{p1,p3}y^p1,p2=y^p1,p3)。
- (d) 通过不同路径连接的节点对展示出不同的距离。
- (e) 所提出的 DHN 通过编码节点之间的距离,将关联信息注入到聚合过程中。
- (f) 借助距离信息,DHN 的表达能力显著提升(例如:y^p1,p2>y^p1,p3\hat{y}_{p1,p2} > \hat{y}_{p1,p3}y^p1,p2>y^p1,p3)。
需要指出的是,我们在方法中忽略了节点属性,原因有两个:
首先,我们考虑的是最坏情况,即某些异构图数据集本身不提供节点属性信息,例如 Freebase 和 LastFM。其次,HDE 本身具有较强的表达能力和鲁棒性,因为它是通过无需依赖数据学习的算法计算得出的;而相比之下,若 HGNN 依赖节点属性来区分图结构,一旦测试集的分布与训练集差异较大,其泛化能力就会明显下降。
我们提出的技术具有很强的通用性,可应用于需要建模高阶相关性的任务,例如模式(schema)预测【22】、三元组(triplet)预测【23】、图模体(motif)预测【24】以及子图(subgraph)预测【25】等。因此,除了链接预测任务外,我们还将 HDE 应用于元路径实例预测任务,该任务同样需要建模多个节点之间的距离相关性。
我们还观察到,在某些数据集上,HDE 的计算开销可能非常高。为了计算异构最短路径距离(Hete-SPD),需要枚举两个节点之间的所有简单路径,当封闭子图较大时,这一操作将带来巨大的时间开销。为缓解这一问题,本文提出了一种近似算法,称为 E-HDE。该算法的核心思想是将广义 PageRank 分数【26】扩展到异构图中。该算法能够同时计算多个节点的距离信息,并且避免了枚举所有可能路径的计算开销;此外,利用矩阵乘法的并行计算优势,还能显著提升整体计算效率。
本工作的主要贡献总结如下:
-
我们首先指出了现有 HGNN 表达能力的局限性。为了解决这一问题,我们提出了异构距离编码(HDE),通过编码节点之间的相对距离来捕捉它们之间的相关性。
-
我们设计了一种更强大的 HGNN 模型,称为 DHN,它将所提出的 HDE 注入到邻居聚合过程中,从而显著提升模型的表达能力。
-
我们提出了一种更高效、可并行化的 HDE 近似算法,称为 E-HDE。该算法在仅带来轻微预测性能损失的前提下,显著降低了 HDE 的计算开销。
-
在传导式(transductive)与归纳式(inductive)链接预测任务上的大量实验证明,所提出的 DHN 在性能上显著优于现有最先进的方法。更重要的是,我们还深入分析了 HDE 的特性,并揭示了它为何能够有效提升 HGNN 性能的原因。
请注意,我们的初步研究工作已作为短文被第 21 届 IEEE ICDM 国际数据挖掘大会录用【27】。在此基础上,本文在以下几个方面对原始工作进行了实质性的扩展:
-
我们对所提出的 HDE 以及基于 HDE 的 DHN 进行了更深入的分析。新增了对算法复杂度的分析,并探讨了其在捕捉相对距离信息方面的本质。此外,我们对实验过程也提供了更完整的描述。
-
我们提出了一种快速的 HDE 近似算法,称为 E-HDE。该算法能在预测性能仅有轻微损失的前提下,显著降低计算开销。
-
我们进行了更加全面的实验评估。不仅在不同节点对划分比例下对链接预测任务进行了实验,还将 HDE 应用于一个新的任务——元路径实例预测,验证了 HDE 在更大目标节点集合场景下的有效性。此外,实验也表明,HDE 可以作为一种通用增强模块,用于提升几乎所有 GNN 与 HGNN 模型的预测性能。
2 相关工作
图神经网络(Graph Neural Networks)
图神经网络(GNN)是一类专门为处理图结构数据而设计的深度学习模型。文献 [28] 首次提出了一种基于傅里叶变换的频谱图卷积网络扩展形式。ChebNet [29] 利用 K 阶切比雪夫多项式定义图卷积,从而避免了计算开销巨大的拉普拉斯特征分解。GCN [9] 在此基础上进一步简化,使用了一阶近似来提升效率。还有一些方法在空间域直接定义图卷积,方式为对局部邻居信息进行聚合与变换。例如,GraphSAGE 模型 [30] 通过邻居采样和灵活的聚合函数,有效地学习节点嵌入表示。为改进邻居聚合,GAT [10] 引入了注意力机制,以学习邻居的重要性并进行加权聚合。
为了提升效率,FastGCN [31] 在每一层中进行重要性采样,从而在每层采样固定数量的节点;而 APPNP [32] 则结合 GCN 与 PageRank [33] 的关系,提出了一种基于个性化 PageRank 的改进传播策略。
图神经网络的表达能力
神经网络(NN)因其强大的表达能力而广为人知。许多研究已经证明,前馈神经网络可以逼近任意目标函数。然而,这些结果尚未直接应用于图神经网络(GNN)。文献 [12] 指出,基于消息传递机制的 GNN 的表达能力受到 1-WL(Weisfeiler-Lehman)测试的限制。近年来,一些研究 [11]、[16]、[21] 尝试在 GNN 的邻居聚合过程中引入位置、位置信息或距离信息,以突破 1-WL 测试所带来的表达能力限制。例如:
- PGNN [16] 利用节点与一组预选锚点之间的距离,来编码节点间的绝对距离,但该方法在归纳能力和泛化性能方面较弱。
- SEAL [21] 提取每个目标链接周围的局部子图,并将子图模式映射到链接的存在性上。
- Li 等人 [11] 提出了距离编码方法,在理论与实践上均提升了 GNN 的表达能力。
然而,上述工作均集中于同构图场景。随着 HGNN 在各类实际任务中应用越来越广泛,异构图神经网络(HGNN)的表达能力仍有待进一步研究和提升。
异构图神经网络(Heterogeneous Graph Neural Networks)
在现实世界中,包含多种类型节点和关系的异构图广泛存在。已有一些研究将 GNN 扩展到异构图场景中:
- HAN [1] 基于手工设计的元路径和分层聚合策略,以捕捉丰富的语义信息。
- MAGNN [34] 进一步利用节点内容特征,引入关系旋转编码器(relational rotation encoder)对元路径实例进行聚合。
- 为缓解深层 HGNN 中的表达退化问题,HPN [35] 提出了一种新的异构图传播网络,用于捕捉高阶语义。
- HGT [36] 则通过相对时间编码(Relative Temporal Encoding, RTE)技术来建模图的动态性。
值得注意的是,许多现有的 HGNN 方法严重依赖手动设计的语义模式(如元路径、元关系)来建模节点间的相关性。尽管部分工作允许自动选择语义模式,但仍需事先人工指定并枚举候选模式,然后再通过注意力等机制进行后期筛选。
然而,我们的方法从根本上改变了异构图建模的方式:我们通过 HDE(异构距离编码)将语义信息编码进节点特征中,再由强大的神经网络模型以端到端方式自动选择与任务相关的信息,无需依赖人工设计语义结构。
此外,尽管已有一些研究关注同构 GNN 的表达能力,但HGNN 的表达能力尚未被充分研究。在本工作中,我们首次探索了 HGNN 的表达能力,并提出了一种新颖的异构距离编码方法,用于建立节点之间的结构相关性,从而提升 HGNN 的表达能力。
3 预备知识(PRELIMINARY)
定义 1:异构图 [37]
一个异构图表示为 G=(V,E)G = (V, E)G=(V,E),其中 VVV 是节点(对象)集合,EEE 是边(链接)集合。异构图还包含两个映射函数:
节点类型映射函数 ϕ:V→A\phi : V \rightarrow Aϕ:V→A,将每个节点映射到一个预定义的节点类型;
边类型映射函数 ψ:E→R\psi : E \rightarrow Rψ:E→R,将每条边映射到一个预定义的关系类型。
其中,AAA 表示节点类型集合,RRR 表示边类型集合,并且满足 ∣A∣+∣R∣>2|A| + |R| > 2∣A∣+∣R∣>2,即图中存在多种节点类型或多种边类型,这也正是异构图与同构图的本质区别。
例子:以图 1 中展示的异构图为例,该图由三种类型的节点组成:论文(P)、作者(A)和术语(T),即 A={P,A,T}A = \{P, A, T \}A={P,A,T}。给定一个节点 uuu,我们可以通过节点类型映射函数获得它的类型索引 j=ϕ(u)j = \phi(u)j=ϕ(u),以及对应的节点类型 AjA_jAj。例如,节点 p1p_1p1 的类型索引为 0(即 ϕ(p1)=0\phi(p_1) = 0ϕ(p1)=0),对应的节点类型为 P=A0P = A_0P=A0。此外,我们还可以定义同构图,即仅包含一种节点类型和一种边类型的图(即 ∣A∣+∣R∣=2|A| + |R| = 2∣A∣+∣R∣=2)。
接下来,我们定义异构封闭子图,用于提取目标节点集合周围的局部结构信息,以辅助特定任务中的预测。
定义 2:异构封闭子图
给定异构图中的一个目标节点集合 S⊂VS \subset VS⊂V,其 kkk 阶异构封闭子图记作 GSkG^k_SGSk,该子图是由集合 SSS 中所有节点的 kkk 阶邻居的并集,在原始异构图中诱导而成的子图。
例子:以节点对 (p1,a2)(p_1, a_2)(p1,a2) 为例(即 S=p1,a2S = {p_1, a_2}S=p1,a2),其 1 阶异构封闭子图 Gp1,a21G^1_{{p_1, a_2}}Gp1,a21<