图神经网络分享系列-GraphSage(Inductive Representation Learning on Large Graphs) (一)
目录
一、摘要
低维嵌入在图节点预测中的应用
GraphSAGE框架的核心思想
算法性能与实验验证
关键创新与优势
二、介绍
低维图节点向量嵌入技术
归纳式嵌入的需求与挑战
现有方法的局限性
当前工作
方法核心
实验验证
三、相关工作
相关工作
图神经系列概览:图神经网络分享系列-概览-CSDN博客
一、摘要
低维嵌入在图节点预测中的应用
大规模图中节点的低维嵌入在多种预测任务中已被证明极为有效,涵盖内容推荐到蛋白质功能识别等领域。然而,现有方法大多要求图中所有节点在嵌入训练阶段必须存在,这类传统方法本质上是直推式(transductive),无法自然泛化到未见的节点。
GraphSAGE框架的核心思想
GraphSAGE提出了一种通用的归纳式(inductive)框架,通过利用节点特征信息(如文本属性)高效地为未见数据生成节点嵌入。与为每个节点单独训练嵌入不同,该方法学习一个生成函数,通过采样并聚合节点局部邻域的特征来动态生成嵌入。
算法性能与实验验证
该算法在三个归纳式节点分类基准测试中表现优异:基于引文数据和Reddit帖子数据对演化信息图中的未见节点进行分类;此外,通过蛋白质-蛋白质相互作用的多图数据集验证了算法对全新未见图的泛化能力。
关键创新与优势
传统方法的直推式限制被打破,GraphSAGE通过局部特征聚合实现动态嵌入生成,适用于动态增长或部分观察的图结构。这一特性使其在真实场景(如社交网络、生物网络)中更具实用性和扩展性。
二、介绍
低维图节点向量嵌入技术
大规模图结构中节点的低维向量嵌入已被证明在各类预测和图分析任务中极具价值[5, 11, 28, 35, 36]。节点嵌入方法的核心思想是通过降维技术,将节点邻域的高维信息压缩为稠密的向量表示。这些嵌入可作为下游机器学习系统的输入特征,支撑节点分类、聚类和链接预测等任务[11, 28, 35]。
归纳式嵌入的需求与挑战
现有研究多聚焦于单一静态图的节点嵌入,而实际应用常需快速生成未见节点或全新子图的嵌入。这种归纳能力对高吞吐的生产级机器学习系统至关重要,例如处理动态演变的图数据(如Reddit的帖子、Youtube用户与视频)。归纳式嵌入方法还能促进特征结构相同的图间泛化,例如在模式生物的蛋白质交互图上训练嵌入生成器,再将其直接应用于新生物数据。
相比直推式学习,归纳式节点嵌入问题更为复杂,因为泛化到未见节点需将新观测子图与算法已优化的嵌入“对齐”。归纳框架必须学会识别节点邻域的结构特性,从而同时反映节点在局部的角色和全局的位置。
现有方法的局限性
多数现有嵌入生成方法本质上是直推式的。它们通常基于矩阵分解目标直接优化各节点嵌入,无法自然地泛化到未见数据,仅适用于单一固定图的预测任务[5, 11, 23, 28, 35, 36, 37, 39]。虽可通过修改实现归纳式处理(如[28]),但这类调整往往计算代价高昂,需额外梯度下降步骤才能生成新预测。
近期基于图卷积操作的方法(如[17])展现出嵌入生成潜力,但图卷积网络(GCNs)目前仅应用于固定图的直推式场景[17, 18]。本研究不仅将GCNs扩展至归纳式无监督学习任务,还提出一个通用框架,通过可训练的聚合函数(超越简单卷积)进一步泛化GCN方法。
当前工作
提出了一种名为GraphSAGE(SAmple and aggreGatE)的通用框架,用于归纳式节点嵌入。与基于矩阵分解的嵌入方法不同,该框架利用节点特征(如文本属性、节点配置文件信息、节点度数)来学习一个能够泛化到未见节点的嵌入函数。通过学习算法整合节点特征,可同时捕获节点邻域的拓扑结构及其特征分布。尽管主要针对特征丰富的图(如带文本属性的引用数据、含功能/分子标记的生物数据),该方法也可适用于仅含结构特征的图(如节点度数),因此即使没有节点特征的图也能应用该算法。
方法核心

不直接为每个节点训练独立的嵌入向量,而是训练一组聚合函数,用于学习如何从节点的局部邻域聚合特征信息(如图1所示)。每个聚合函数从给定节点不同跳数(搜索深度)的邻域中聚合信息。在测试或推理阶段,通过应用已学习的聚合函数为完全未见过的节点生成嵌入。基于先前节点嵌入生成的研究,设计了一种无监督损失函数,使GraphSAGE无需任务特定监督即可训练。同时展示了该框架也可通过全监督方式训练。
实验验证
在三个节点分类基准测试中评估算法性能,测试GraphSAGE为未见数据生成有效嵌入的能力。使用的数据集包括基于引用数据的动态文档图、Reddit帖子数据(分别预测论文和帖子类别)以及蛋白质-蛋白质相互作用的多图泛化实验(预测蛋白质功能)。实验表明,该方法能高效生成未见节点的表示,并显著优于相关基线:在跨领域任务中,监督式方法相比仅使用节点特征的平均分类F1分数提升了51%;GraphSAGE始终优于强归纳式基线[28],尽管后者处理未见节点的运行时间多出约100倍。此外,所提出的新聚合器架构相比受图卷积网络[17]启发的聚合器平均带来7.4%的性能提升。最后,通过理论分析揭示了该框架的表达能力,证明其能够学习节点在图中的结构角色信息(第5节)。
三、相关工作
相关工作
该算法在概念上与以下三类方法相关:节点嵌入方法、基于监督学习的图结构数据处理方法,以及图卷积神经网络的最新进展。
基于分解的嵌入方法
近年来的节点嵌入方法多通过随机游走统计量和基于矩阵分解的学习目标来生成低维嵌入。这些方法与经典的光谱聚类、多维尺度分析及PageRank算法存在紧密关联。由于此类方法直接为单个节点训练嵌入表示,本质上是直推式(transductive)的,且对新节点的预测需耗费额外训练成本(如随机梯度下降)。此外,多数方法的嵌入空间对正交变换具有不变性,导致嵌入无法跨图泛化或在重新训练时发生偏移。Yang等人提出的Planetoid-I算法是例外,其通过嵌入实现半监督学习的归纳式(inductive)学习,但推理阶段未利用图结构信息,仅将其作为训练时的正则化手段。与这些方法不同,该研究利用节点特征信息训练模型,以生成未见节点的嵌入。
图结构数据的监督学习
除节点嵌入方法外,图结构数据的监督学习已有丰富成果,包括基于核函数的方法(通过图核生成图特征向量)和近年兴起的神经网络方法。该算法受此类方法启发,但核心差异在于:前人方法多关注整图或子图的分类,而本工作聚焦于为单个节点生成有效表示。
图卷积网络
近年来提出的图卷积神经网络架构大多无法扩展到大规模图,或仅适用于整图分类。Kipf等人提出的图卷积网络(GCN)是该研究的紧密关联工作,但原始GCN设计为直推式半监督学习,训练需已知完整的图拉普拉斯矩阵。该算法的简化变体可视为GCN框架向归纳式场景的扩展,具体讨论见第3.3节。
本篇内容讲解就到这里,下一篇会详细介绍算法内容~
传送门:
