当前位置: 首页 > news >正文

Graph Adversarial Self-Supervised Learning 图对抗自监督学习

GASSL(Graph Adversarial Self-Supervised Learning,图对抗自监督学习)的新方法,它能让计算机在没有人工监督的情况下学习图数据的特征。这就像教一个孩子认识各种形状的积木,但不需要你告诉他每个积木叫什么名字,他自己就能学会区分它们。

1. 论文要解决的核心问题是什么?

图(Graph)数据在现实世界中非常常见,比如社交网络、分子结构、金融交易网络等 。图神经网络(GNNs)是处理这类数据的强大工具 。

  • 传统方法的问题: 以前的图神经网络通常需要大量的人工标注数据(比如,你需要告诉计算机这个图是什么类型,那个图是什么类型)。但在很多领域,比如生物化学,获取这些标注数据非常困难且昂贵 。
  • 自监督学习的兴起: 为了解决这个问题,自监督学习(Self-supervised learning)出现了。它的核心思想是,即使没有人工标注,计算机也可以通过数据本身来学习。它通过设计一些“预设任务”(pretext tasks),让模型学习输入数据的不同“视图”(views)之间的不变性。比如,对一张图片进行一些微小的改变(生成不同的“视图”),模型要能识别出这些改变后的图片仍然是同一个物体 。
  • 现有自监督学习的局限: 论文指出,当前大多数自监督学习方法都需要人工设计这些“视图”(比如,随机删除一些节点、改变一些边的连接、遮盖一些属性等) 。但是,设计这些“视图”需要专家经验,并且这些手工设计的视图在不同任务上表现不一,不总是能带来性能提升 。所以,如何自动生成图数据的有效“视图”是一个悬而未决的问题 。

2. GASSL 是什么?它有什么特别之处?

GASSL 就是为了解决“如何自动生成视图”这个问题而提出的 。

核心思想:对抗性训练

  • GASSL 受到了“对抗性训练”(Adversarial Training)的启发 。对抗性训练原本是用来提高神经网络的鲁棒性(robustness)的,它通过生成一些“对抗样本”(即对原始数据添加微小但能欺骗模型的扰动),然后用这些对抗样本来训练模型,从而让模型变得更强大、更不容易被“骗” 。
  • GASSL 将对抗性训练的思想引入到自监督学习中,让模型自动生成具有挑战性的“视图”,而不是依赖人工设计 。

怎么做的?

  • GASSL 的目标是最大化一个图和它经过扰动(即对抗性生成的“视图”)后的图之间的相似性 。这意味着模型会努力让原始图和被扰动后的图的表示尽可能接近,从而学到更鲁棒、更泛化的特征。
  • 它不依赖于“负样本对”(即把不相关的图推开),也不需要手工设计的视图 。
  • 教师-学生网络架构: GASSL 采用了一种“教师-学生”网络架构 。
    • “教师网络”和“学生网络”具有相同的结构,但参数不同 。

    • 教师网络有一个额外的预测器(MLPqθ​),用来避免模型崩溃(即模型学习到的所有特征都一样,没有区分度)。

    • 学生网络的参数是教师网络参数的“指数移动平均”(exponential moving average),可以理解为学生网络是教师网络学习历史的平滑版本。
  • 扰动生成: 扰动可以直接加在输入节点的特征上,也可以加在图神经网络编码器(GNN encoder)的隐藏层输出上 。
  • 加速训练: 为了提高训练效率,GASSL 还采用了“梯度累积”(gradient accumulation)策略 。这意味着它会在内部循环的每次迭代中累积梯度,然后用累积的梯度来更新模型参数,从而加速对抗性训练过程 。

3. GASSL 的主要贡献和实验结果:

这篇论文的主要贡献可以总结为三点:

  1. 提出 GASSL: 一种无需人工监督的图表示学习自监督方法 。

  2. 自动生成视图: 利用对抗性训练自动生成具有挑战性的视图,取代了手工设计视图,并在多个数据集上提高了性能 。

  3. 性能优越: GASSL 在图分类任务上持续优于目前最先进的自监督模型,并且与监督学习模型相比,性能也达到了甚至超越了那些强大的基线模型 。

实验结果:

  • 论文在10个图分类数据集上验证了 GASSL 的有效性,包括来自 TU 数据集和 Open Graph Benchmark (OGB) 的数据集 。
  • 实验表明,与使用手工视图的方法(如 GraphCL)相比,GASSL 的性能有显著提升(在 COLLAB 数据集上甚至提升了 6.7%) 。这说明对抗性训练在生成有效视图方面的作用非常大 。
  • 论文还研究了对抗性训练中“步长”(step sizeα)和“扰动边界”(perturbation bound ϵ)这两个关键参数的影响 。结果显示,过大或过小的步长和扰动边界都会影响模型的性能 。

  • 与各种基线模型(包括图核方法、监督 GNN 和其他自监督方法)相比,GASSL 在多个数据集上都取得了最先进的结果。例如,在 MUTAG 数据集上,GASSL 达到了 90.9% 的准确率,比之前的最佳结果提高了 1.9% 。

总的来说,GASSL 提出了一种创新的方法,利用对抗性训练来自动化图自监督学习中的视图生成过程,从而提高了模型在图分类任务上的性能,并减少了对人工专家经验的依赖 。

http://www.dtcms.com/a/275147.html

相关文章:

  • MySQL的使用
  • DPDK性能优化实践:系统级性能调优的方法论与实战(一套通用的方法论)
  • 国产LVDT信号调理芯片XJD698:高精度位移检测的国产化突破,完美替代AD698
  • 基于相似性引导的多视角功能性脑网络融合|文献速递-最新论文分享
  • 我花10个小时,写出了小白也能看懂的数仓搭建方案
  • 有限状态机FSM(Finite State Machine)自动初始化
  • C++:vector(1)
  • 2025Nginx最新版讲解/面试
  • “功能替代”到“智能共创”——深入解读新松多可仿生人形机器人
  • map暨例题
  • 卢比危机下的金融破局:科伦坡交易所技术升级作战图
  • C++类对象多态基础语法【超详细】
  • GTSuite许可服务器设置
  • 380. O(1) 时间插入、删除和获取随机元素
  • 深度学习:反向传播算法
  • Google Test 介绍和使用指南
  • 《QtPy:Python与Qt的完美桥梁》
  • STM32 IIC通信(寄存器与hal库实现)
  • 组件杠杠结构
  • 干眼症的预防与治疗
  • 域名锁是什么?有必要安装域名锁吗?
  • 拼数(字符串排序)
  • TransUnet医学图像分割模型
  • PrimeTime (PT Shell) report_timing 报告全字段完整解析
  • 深度对比扣子(Coze) vs n8n
  • halcon 求一个tuple的极值点
  • 上位机知识篇---高效下载安装方法
  • Auto-GPT 简易教程
  • Ant Design ProTable重置函数全解析
  • 【Ubuntu 22.04 ROS2 Humble】没有数字签名。 N: 无法安全地用该源进行更新