当前位置：首页 > news >正文

Graph Adversarial Self-Supervised Learning 图对抗自监督学习

news 2025/10/25 6:47:38

GASSL（Graph Adversarial Self-Supervised Learning，图对抗自监督学习）的新方法，它能让计算机在没有人工监督的情况下学习图数据的特征。这就像教一个孩子认识各种形状的积木，但不需要你告诉他每个积木叫什么名字，他自己就能学会区分它们。

1. 论文要解决的核心问题是什么？

图（Graph）数据在现实世界中非常常见，比如社交网络、分子结构、金融交易网络等。图神经网络（GNNs）是处理这类数据的强大工具。

传统方法的问题： 以前的图神经网络通常需要大量的人工标注数据（比如，你需要告诉计算机这个图是什么类型，那个图是什么类型）。但在很多领域，比如生物化学，获取这些标注数据非常困难且昂贵。
自监督学习的兴起： 为了解决这个问题，自监督学习（Self-supervised learning）出现了。它的核心思想是，即使没有人工标注，计算机也可以通过数据本身来学习。它通过设计一些“预设任务”（pretext tasks），让模型学习输入数据的不同“视图”（views）之间的不变性。比如，对一张图片进行一些微小的改变（生成不同的“视图”），模型要能识别出这些改变后的图片仍然是同一个物体。
现有自监督学习的局限： 论文指出，当前大多数自监督学习方法都需要人工设计这些“视图”（比如，随机删除一些节点、改变一些边的连接、遮盖一些属性等）。但是，设计这些“视图”需要专家经验，并且这些手工设计的视图在不同任务上表现不一，不总是能带来性能提升。所以，如何自动生成图数据的有效“视图”是一个悬而未决的问题。

2. GASSL 是什么？它有什么特别之处？

GASSL 就是为了解决“如何自动生成视图”这个问题而提出的。

核心思想：对抗性训练

GASSL 受到了“对抗性训练”（Adversarial Training）的启发。对抗性训练原本是用来提高神经网络的鲁棒性（robustness）的，它通过生成一些“对抗样本”（即对原始数据添加微小但能欺骗模型的扰动），然后用这些对抗样本来训练模型，从而让模型变得更强大、更不容易被“骗” 。
GASSL 将对抗性训练的思想引入到自监督学习中，让模型自动生成具有挑战性的“视图”，而不是依赖人工设计。

怎么做的？

GASSL 的目标是最大化一个图和它经过扰动（即对抗性生成的“视图”）后的图之间的相似性。这意味着模型会努力让原始图和被扰动后的图的表示尽可能接近，从而学到更鲁棒、更泛化的特征。
它不依赖于“负样本对”（即把不相关的图推开），也不需要手工设计的视图。
教师-学生网络架构： GASSL 采用了一种“教师-学生”网络架构。
- “教师网络”和“学生网络”具有相同的结构，但参数不同。
- 教师网络有一个额外的预测器（MLPqθ），用来避免模型崩溃（即模型学习到的所有特征都一样，没有区分度）。
- 学生网络的参数是教师网络参数的“指数移动平均”（exponential moving average），可以理解为学生网络是教师网络学习历史的平滑版本。
扰动生成： 扰动可以直接加在输入节点的特征上，也可以加在图神经网络编码器（GNN encoder）的隐藏层输出上。
加速训练： 为了提高训练效率，GASSL 还采用了“梯度累积”（gradient accumulation）策略。这意味着它会在内部循环的每次迭代中累积梯度，然后用累积的梯度来更新模型参数，从而加速对抗性训练过程。

这篇论文的主要贡献可以总结为三点:

实验结果：

论文在10个图分类数据集上验证了 GASSL 的有效性，包括来自 TU 数据集和 Open Graph Benchmark (OGB) 的数据集。
实验表明，与使用手工视图的方法（如 GraphCL）相比，GASSL 的性能有显著提升（在 COLLAB 数据集上甚至提升了 6.7%）。这说明对抗性训练在生成有效视图方面的作用非常大。
论文还研究了对抗性训练中“步长”（step sizeα）和“扰动边界”（perturbation bound ϵ）这两个关键参数的影响。结果显示，过大或过小的步长和扰动边界都会影响模型的性能。
与各种基线模型（包括图核方法、监督 GNN 和其他自监督方法）相比，GASSL 在多个数据集上都取得了最先进的结果。例如，在 MUTAG 数据集上，GASSL 达到了 90.9% 的准确率，比之前的最佳结果提高了 1.9% 。

总的来说，GASSL 提出了一种创新的方法，利用对抗性训练来自动化图自监督学习中的视图生成过程，从而提高了模型在图分类任务上的性能，并减少了对人工专家经验的依赖。