当前位置：首页 > news >正文

Heterogeneous Graph Transformer （WWW 2020）译文

news 2025/8/25 18:04:09

在这里插入图片描述

摘要：

异构图广泛存在于现实世界中，例如学术图、知识图谱和金融交易网络。这些图包含多个不同类型的节点和边，其关系极为复杂。尽管已有一些图神经网络（GNN）模型被设计来处理异构图，但它们在大规模图上的建模能力仍较为有限，尤其是在捕捉跨类型依赖性方面。本文提出了一种异构图变换器（Heterogeneous Graph Transformer, HGT）模型，以实现对异构图中不同类型节点之间信息的灵活传递与聚合。HGT 引入了类型相关的注意力机制、边依赖的消息函数，并采用残差连接和归一化技术，成功将变换器框架推广到异构图上。为验证 HGT 的有效性，本文在三个具有代表性的异构图数据集上进行了节点分类和链接预测实验，实验结果表明 HGT 在准确率和效率方面均优于现有最先进的方法。

1 引言

异构图被广泛用于抽象和建模复杂系统，在这些系统中，不同类型的对象通过多种方式相互作用。一些典型的实例包括学术图、Facebook 实体图、LinkedIn 经济图，以及更广义上的物联网网络。例如，图1中的 Open Academic Graph（OAG）[28] 就包含五种类型的节点：论文、作者、机构、发布渠道（期刊、会议或预印本）和研究领域，以及它们之间的多种关系类型。

在过去十年中，关于挖掘异构图的研究已经取得了显著进展 [17]。其中一个经典的研究范式是通过**定义并使用元路径（meta paths）**来建模异构结构，例如 PathSim [18] 和 metapath2vec [3]。

近年来，图神经网络（GNN）在多种任务中表现出色 [7, 9, 22]，这也促使研究者尝试将 GNN 引入异构图学习任务 [14, 23, 26, 27]。然而，这些尝试面临几个关键问题：

大多数方法需要为每种异构图专门设计元路径，这通常依赖于领域知识；
它们要么简单地假设不同类型的节点/边共享相同的特征和表示空间，要么仅对节点类型或边类型设置独立的不共享权重，这都不足以全面捕捉异构图的特性；
许多方法忽视了异构图的动态性质；
它们在设计和实现上的限制，使其难以扩展到 Web 规模的异构图建模任务。

以 OAG（Open Academic Graph）为例：

首先，OAG 中的节点和边具有不同的特征分布，例如论文具有文本特征，而机构的特征可能来自其附属学者；合作关系明显不同于引用关系。
其次，OAG 是一个持续演化的图，例如：
1）论文发表数量每 12 年翻一番 [4]；
2）KDD 会议的主题焦点发生变化：1990 年代更偏数据库，近年来更偏机器学习。
最后，OAG 包含数亿个节点和数十亿条关系，这使得现有的异构图神经网络方法无法扩展到这种规模的图数据上。

鉴于这些局限性和挑战，我们提出研究一种新的异构图神经网络，其目标是：

保持节点类型和边类型相关的表示方式，
捕捉网络的动态变化，
避免依赖手工定制的元路径，
并具备处理 Web 规模图数据的可扩展性。

为了解决上述所有问题，我们在本研究中提出了异构图 Transformer（Heterogeneous Graph Transformer，HGT）架构。

为了解决图结构中的异质性问题，本文引入了节点类型和边类型依赖的注意力机制。与对每种边类型单独建模不同，HGT 中的异构互注意力机制是通过将每条边 $e = (s, t)$ 分解为其元关系三元组来定义的，即：

⟨源节点的类型，连接源节点与目标节点的边的类型，目标节点的类型⟩

图1展示了异构学术图中的这些元关系。具体来说，HGT 使用这些元关系来参数化计算每条边注意力所需的权重矩阵。因此，不同类型的节点和边都可以保留各自特有的表示空间；与此同时，不同类型的相连节点之间仍可进行信息交互、传递和聚合，不会因特征分布差异而受到限制。

由于架构的特性，HGT 能够通过跨层的信息传递机制，引入来自不同类型的高阶邻居的信息。这些传递过程可以被看作是**“软元路径”**。也就是说，即使 HGT 仅使用一跳边作为输入、无需手动设计元路径，它也能通过所提出的注意力机制自动、隐式地学习和提取对下游任务有重要意义的“元路径”。

为了解决图的动态变化问题，本文在 HGT 中引入了相对时间编码（RTE）策略。与将图按时间戳切分的传统做法不同，本文提出：

保留所有时间上的边关系为一个整体，
设计 RTE 策略来建模任意时间跨度的结构化时间依赖关系，
并支持建模未来未见的时间戳信息。

通过端到端训练，RTE 能够使 HGT 自动学习异构图的时间依赖性与演化过程。

为了解决 Web 规模图数据的问题，本文设计了首个异构子图采样算法 HGSampling，用于小批量 GNN 训练。其核心思想是：

采样出在各类型节点上分布均衡的异构子图，避免现有同构 GNN 采样方法（如 GraphSage、FastGCN 和 LADIES）产生的节点/边类型严重不平衡问题；
同时，HGSampling 还设计用于保持子图的密集性，以最小化信息损失。

借助 HGSampling，包括 HGT 在内的所有 GNN 模型都可以在任意规模的异构图上进行训练与推理。

我们在 Web 规模的 Open Academic Graph 上验证了所提出的 HGT 方法的有效性与效率。该数据集包含 1.79 亿个节点和 20 亿条边，时间跨度从 1900 年至 2019 年，这是目前为止在异构图上进行的最大规模和最长时间跨度的表示学习实验。

此外，HGT 还被应用于多个特定领域图数据，如计算机科学和医学领域的学术图。实验结果表明，HGT 相较于现有最先进的 GNN 和异构模型，在多项下游任务中可获得 9%–21% 的显著提升。我们还通过案例研究进一步验证了该方法确实可以自动捕捉任务相关的隐式元路径的重要性。

2 前置知识与相关工作

本节将介绍具有网络动态特性的异构图的基本定义，并回顾图神经网络（GNN）及其异构变体的最新研究进展。同时，我们也会强调 HGT 与现有异构图神经网络方法之间的区别。

2.1 异构图挖掘

异构图（Heterogeneous Graphs）[17]，又称为异构信息网络（Heterogeneous Information Networks），是建模现实复杂系统中关系型数据的一种重要抽象形式。形式化定义如下：

定义 1. 异构图：
一个异构图被定义为一个有向图 $G = (V, E, A, R)$ ，其中每个节点 $\in V$ 和每条边 $\in E$ 都通过类型映射函数与其类型相关联：
节点类型映射函数为 $\tau(v) : V \rightarrow A$ ，边类型映射函数为 $\phi(e) : E \rightarrow R$ ，
其中 $A$ 是节点类型集合， $R$ 是边类型集合。

元关系（Meta Relation）
对于一条从源节点 $s$ 指向目标节点 $t$ 的边 $e = (s, t)$ ，它的元关系定义为：

$\langle \tau(s), \phi(e), \tau(t) \rangle$

自然地， $\phi(e)^{-1}$ 表示边类型 $\phi(e)$ 的反向类型。

经典的元路径范式 [17–19] 定义为一系列这样的元关系组成的路径（meta path sequence）。需要注意的是，为了更好地建模现实世界中的异构网络，我们在此假设：不同类型的节点之间可能存在多种类型的关系。例如，在 Open Academic Graph（OAG）中，作者与论文之间就存在多种不同类型的关系 —— 考虑作者署名顺序时，有“第一作者”“第二作者”等不同语义的边关系。

动态异构图（Dynamic Heterogeneous Graph）
为了建模现实世界中（异构）图的动态特性，我们为每条边 $e = (s, t)$ 分配一个时间戳 $T$ ，表示节点 $s$ 在时间 $T$ 与节点 $t$ 建立连接。

如果节点 $s$ 第一次出现在图中，那么它也被赋予时间戳 $T$ 。随着时间的推移，若 $s$ 不断建立新连接，它可以关联多个时间戳。换句话说，我们假设边的时间戳是固定不变的，即表示该边的创建时间。

例如，当一篇论文在某个会议上于时间 $T$ 被发表时，时间戳 $T$ 会被分配给论文节点与会议节点之间的边。

相对地，节点本身则可以拥有多个时间戳。例如，会议节点 “WWW” 可以被分配多个不同的年份时间戳：

WWW @1994 表示我们考虑的是 WWW 的第一届，当时重点在互联网协议和 Web 基础设施上；
WWW @2020 则代表即将召开的 WWW 会议，其研究议题已扩展到社会分析、泛在计算、搜索与信息检索、隐私与社会等多个方面。

虽然关于异构图的研究已有大量成果，涵盖节点分类、聚类、排序和表示学习等任务 [3, 17–19]，但从“动态”角度来研究异构图尚未被广泛深入地探讨与研究。

2.2 图神经网络（Graph Neural Networks）

近年来，图神经网络（GNN）在处理关系型数据方面取得了巨大成功【7, 9, 22】。通常，GNN可以被视为使用输入图结构作为计算图进行信息传递的过程【6】，其中本地邻居的信息被聚合以获得更具上下文语义的表示。形式上，其更新过程定义如下：

定义 2. 通用GNN框架：

假设 $H^l[t]$ 是节点 $t$ 在第 $l$ 层GNN中的表示，其从第 $(l - 1)$ 层更新到第 $l$ 层的过程为：

$H^l[t] \leftarrow \text{Aggregate}_{\forall s \in N(t), \forall e \in E(s,t)} \left( \text{Extract}(H^{l-1}[s]; H^{l-1}[t], e) \right)$

其中 $N (t)$ 表示节点 $t$ 的所有源节点， $E (s, t)$ 表示从节点 $s$ 到 $t$ 的所有边。

GNN中最关键的两个操作是 Extract(·) 和 Aggregate(·)：

*Extract(·) 表示邻居信息的提取器。它从源节点 $s$ 的表示 $H^{l-1}[s]$ 中提取有用信息，并结合目标节点 $t$ 的表示 $H^{l-1}[t]$ 和二者之间的边 $e$ 。

Aggregate(·) 用某种聚合操作（如均值、求和、最大值）将来自多个源节点的信息整合起来。当然也可以设计更复杂的池化或归一化函数。

在该框架下，已经提出了多种（用于同质图的）GNN架构：

Kipf 等人【9】提出了图卷积网络（GCN），它将每个节点的一跳邻居取平均后，再通过线性映射和非线性激活函数处理。
Hamilton 等人提出了 GraphSAGE，它将GCN的聚合操作推广为求和、最大值或使用RNN单元。
Velicković 等人提出了图注意力网络（GAT）【22】，将注意力机制引入GNN，使得邻居节点的重要性可以不同地加权。

2.3 异构图神经网络（Heterogeneous GNNs）

近年来，已有研究尝试扩展图神经网络以建模异构图。Schlichtkrull 等人【14】提出了关系图卷积网络（RGCN），用于建模知识图谱。RGCN为每种边类型保留了一套独立的线性变换权重。Zhang 等人【27】提出了异构图神经网络（HetGNN），为不同的节点类型采用不同的RNN模块，以整合多模态特征。Wang 等人【23】扩展了图注意力网络，引入基于元路径的权重矩阵，并使用高级语义注意力机制对来自不同元路径的信息进行区分和聚合。

虽然这些方法在实验中确实优于基础的 GCN 和 GAT 模型，但它们并没有充分利用异构图的特性。具体来说：

所有这些方法仅仅使用节点类型或边类型之一来决定GNN中的权重矩阵。
然而，不同类型的节点或边的数量差异可能很大。对于出现次数不多的关系类型来说，很难学习到准确的特定权重。
为了解决这个问题，我们提出引入参数共享机制以提升泛化能力。

具体地说，考虑一条边 $e = (s, t)$ 的元关系为三元组 ⟨τ(s), ϕ(e), τ(t)⟩，我们使用三组交互矩阵来分别建模这三个元素（即源节点类型、边类型、目标节点类型）。这样，大部分的权重就可以在不同关系中共享。例如，对于“第一作者”和“第二作者”这两种关系，它们的源节点和目标节点类型都是作者和论文。这意味着从一种关系中学习到的关于作者和论文的知识，可以被快速迁移并适配到另一种关系中。

因此，我们将这一思想与强大的Transformer注意力架构结合起来，提出了异构图变换器（HGT）。

总结来说，HGT与现有方法的关键区别包括：

使用元关系 ⟨τ(s), ϕ(e), τ(t)⟩ 进行建模：
我们不是单独根据节点类型或边类型来设定注意力权重，而是将交互和变换矩阵按三元组方式进行分解。这使得模型可以同时捕捉不同关系的共性与个性，参数更少但泛化性更强。
不依赖手工设计的元路径（meta paths）：
与大多数现有方法需要预定义元路径不同，HGT通过模型架构本身自动融合高阶异构邻居信息，从而学习出重要的隐式元路径。
考虑图的动态变化性：
多数现有工作忽略了图的动态特性，而我们提出了 相对时间编码（RTE） 技术，在计算开销有限的条件下，将时间信息有效引入模型。
具备Web规模图的可扩展性：
以往的异构GNN设计并未考虑Web规模的应用，也未在大规模图上实验。因此，我们提出了异构小批量图采样算法（HGSampling），使得HGT可以高效地训练和推理超大规模异构图。

3 异构图Transformer

在本章中，我们提出了一种用于建模异构图的架构——Heterogeneous Graph Transformer (HGT)。该方法的核心思想是利用异构图的元关系（meta relation）对注意力机制、信息传递及聚合过程中的权重矩阵进行参数化。同时，为了建模图的动态特性，我们引入了 **相对时间编码（Relative Temporal Encoding, RTE）**机制。