当前位置：首页 > news >正文

图神经网络分享系列-GraphSage(Inductive Representation Learning on Large Graphs) (一)

news 2025/11/17 7:32:30

一、摘要

低维嵌入在图节点预测中的应用

GraphSAGE框架的核心思想

算法性能与实验验证

关键创新与优势

二、介绍

低维图节点向量嵌入技术

归纳式嵌入的需求与挑战

现有方法的局限性

当前工作

方法核心

实验验证

三、相关工作

一、摘要

低维嵌入在图节点预测中的应用

大规模图中节点的低维嵌入在多种预测任务中已被证明极为有效，涵盖内容推荐到蛋白质功能识别等领域。然而，现有方法大多要求图中所有节点在嵌入训练阶段必须存在，这类传统方法本质上是直推式（transductive），无法自然泛化到未见的节点。

GraphSAGE框架的核心思想

GraphSAGE提出了一种通用的归纳式（inductive）框架，通过利用节点特征信息（如文本属性）高效地为未见数据生成节点嵌入。与为每个节点单独训练嵌入不同，该方法学习一个生成函数，通过采样并聚合节点局部邻域的特征来动态生成嵌入。

算法性能与实验验证

该算法在三个归纳式节点分类基准测试中表现优异：基于引文数据和Reddit帖子数据对演化信息图中的未见节点进行分类；此外，通过蛋白质-蛋白质相互作用的多图数据集验证了算法对全新未见图的泛化能力。

关键创新与优势

传统方法的直推式限制被打破，GraphSAGE通过局部特征聚合实现动态嵌入生成，适用于动态增长或部分观察的图结构。这一特性使其在真实场景（如社交网络、生物网络）中更具实用性和扩展性。

二、介绍

低维图节点向量嵌入技术

大规模图结构中节点的低维向量嵌入已被证明在各类预测和图分析任务中极具价值[5, 11, 28, 35, 36]。节点嵌入方法的核心思想是通过降维技术，将节点邻域的高维信息压缩为稠密的向量表示。这些嵌入可作为下游机器学习系统的输入特征，支撑节点分类、聚类和链接预测等任务[11, 28, 35]。

归纳式嵌入的需求与挑战

现有研究多聚焦于单一静态图的节点嵌入，而实际应用常需快速生成未见节点或全新子图的嵌入。这种归纳能力对高吞吐的生产级机器学习系统至关重要，例如处理动态演变的图数据（如Reddit的帖子、Youtube用户与视频）。归纳式嵌入方法还能促进特征结构相同的图间泛化，例如在模式生物的蛋白质交互图上训练嵌入生成器，再将其直接应用于新生物数据。

相比直推式学习，归纳式节点嵌入问题更为复杂，因为泛化到未见节点需将新观测子图与算法已优化的嵌入“对齐”。归纳框架必须学会识别节点邻域的结构特性，从而同时反映节点在局部的角色和全局的位置。

现有方法的局限性

多数现有嵌入生成方法本质上是直推式的。它们通常基于矩阵分解目标直接优化各节点嵌入，无法自然地泛化到未见数据，仅适用于单一固定图的预测任务[5, 11, 23, 28, 35, 36, 37, 39]。虽可通过修改实现归纳式处理（如[28]），但这类调整往往计算代价高昂，需额外梯度下降步骤才能生成新预测。

近期基于图卷积操作的方法（如[17]）展现出嵌入生成潜力，但图卷积网络（GCNs）目前仅应用于固定图的直推式场景[17, 18]。本研究不仅将GCNs扩展至归纳式无监督学习任务，还提出一个通用框架，通过可训练的聚合函数（超越简单卷积）进一步泛化GCN方法。

当前工作

提出了一种名为GraphSAGE（SAmple and aggreGatE）的通用框架，用于归纳式节点嵌入。与基于矩阵分解的嵌入方法不同，该框架利用节点特征（如文本属性、节点配置文件信息、节点度数）来学习一个能够泛化到未见节点的嵌入函数。通过学习算法整合节点特征，可同时捕获节点邻域的拓扑结构及其特征分布。尽管主要针对特征丰富的图（如带文本属性的引用数据、含功能/分子标记的生物数据），该方法也可适用于仅含结构特征的图（如节点度数），因此即使没有节点特征的图也能应用该算法。

方法核心

不直接为每个节点训练独立的嵌入向量，而是训练一组聚合函数，用于学习如何从节点的局部邻域聚合特征信息（如图1所示）。每个聚合函数从给定节点不同跳数（搜索深度）的邻域中聚合信息。在测试或推理阶段，通过应用已学习的聚合函数为完全未见过的节点生成嵌入。基于先前节点嵌入生成的研究，设计了一种无监督损失函数，使GraphSAGE无需任务特定监督即可训练。同时展示了该框架也可通过全监督方式训练。

实验验证

在三个节点分类基准测试中评估算法性能，测试GraphSAGE为未见数据生成有效嵌入的能力。使用的数据集包括基于引用数据的动态文档图、Reddit帖子数据（分别预测论文和帖子类别）以及蛋白质-蛋白质相互作用的多图泛化实验（预测蛋白质功能）。实验表明，该方法能高效生成未见节点的表示，并显著优于相关基线：在跨领域任务中，监督式方法相比仅使用节点特征的平均分类F1分数提升了51%；GraphSAGE始终优于强归纳式基线[28]，尽管后者处理未见节点的运行时间多出约100倍。此外，所提出的新聚合器架构相比受图卷积网络[17]启发的聚合器平均带来7.4%的性能提升。最后，通过理论分析揭示了该框架的表达能力，证明其能够学习节点在图中的结构角色信息（第5节）。

一、摘要

低维嵌入在图节点预测中的应用

GraphSAGE框架的核心思想

算法性能与实验验证

关键创新与优势

二、介绍

低维图节点向量嵌入技术

归纳式嵌入的需求与挑战

现有方法的局限性

当前工作

方法核心

实验验证

三、相关工作

相关工作

相关文章：