当前位置: 首页 > news >正文

Stanford_CS224W----Machine learning with graph

Stanford_CS224W----Machine learning with graph

开始学习GNN相关的内容,课程是YouTube上公开的Standford_CS224W,本文介绍了一些在节点程度上的图论知识点

一、Node-level Tasks and Features

主要有四种描述网络中一个节点的结构和位置:

  • Node degree
  • Node centrality
  • Clustering coefficient
  • Graphlet

1、Node degree

就是普通的点的度

2、Node centrality

点的度没有刻画邻居的重要性,而点的中心性考虑了点在图中的重要性

  • Engienvector centrality 特征中心度
  • Betweenness centrality 间隙中心度
  • Closeness centrality      紧密性中心度
  • others
(1)Engienvector centrality

特征中心度,我们将节点的中心性建模为相邻节点的中心性之和。

可以发现,这样定义出的cv就是线性代数中的特征向量。

(2)Betweenness centrality

间隙中心度,如果一个节点位于其他节点之间的许多最短路径上,它就是重要的。

(3)Closeness centrality

紧密性中心度,如果一个节点与所有其他节点的最短路径长度较小,那么该节点就很重要。(最短路径之和的倒数)

3、Clustering coefficient

衡量v的邻接节点的连接程度。
 


分别是6/6 , 3/6 , 0/6

4、Graphlet

基于同构图的概念,获得邻居的拓扑结构特征,一个根植于给定节点的小图的计数向量。
 


在五个节点以内,一个节点可以有73不同位置有根连接的非同构子图。注意节点的位置。

5、Summary

  • Importance-based features:
    • Node degree
    • Different node centrality measures

对于这个特征,一个例子就是预测社交网络中的名人用户

  • Structure-based features
    • Node degree
    • Clustering coefficient
    • Graphlet count vector

对于这个特征,一个例子就是预测蛋白-蛋白相互作用网络中的蛋白功能。

对节点对的关系进行定量描述

  • Distance-based feature
  • Local neighborhood overlap
  • Global neighborhood overlap

1、Distance-based feature

这里是简化情况下,利用两个点之间的跳数作为距离。但是没有考虑到邻居节点的重叠程度

2、Local neighborhood overlap

利用节点对中两个节点的共有节点的特性来作为指标

(1)Common neighbors

|N(v1)∩N(v2)|

example:|N(A)∩N(B)|=|{C}|=1

(2)Jaccard’s coefficient

|N(v1)∩N(v2)||N(v1)∪N(v2)|

做一个类似标准化的操作,example:|N(A)∩N(B)||N(A)∪N(B)|=|{C}||{C,D}|=12

(3)Adamic-Adar index

一个应用得比较好的系数,大概就是名人效应。如果共同邻居的度很大,说明是个名人只是和许多人有关系,但他认识的人不一定有关系。类似于小圈子往往都认识对方

∑u∈N(v1)∩N(v2)1log(ku)

三、Graph-Level Features and Graph Kernels

目标:描述整个图的结构的特征
方法:使用图核(graph kernel),测量俩个图之间的相似性
一点介绍

  • 图核衡量数据之间的相似度。
  • 核矩阵必须是半正定的
  • 存在一种特征表示ϕ(⋅) et: K(G,G′)=ϕ(G)Tϕ(G′)

一些常用的核方法,前两种利用了bags of * 思想

  • Graphlet Kernel
  • Weisfeiler-Lehman Kernel
  • Random-walk kernel
  • Shortest-path graph kernel
  • others

1、Graphlet Kernel

注意这里的子图和节点中子图定义不同

  1. 子图中的点不需要连接
  2. 这些子图没有根

网课中给了个简单了例子,一看就会(可以使用标准化


但是!但是!这种计算方法属于NP-hard问题,计算量非常大,指数级增长

2、Weisfeiler-Lehman Kernel

对邻居节点度进行泛化,使用一种叫Color refinement的算法
步骤:
step1:对所有节点初始化一个颜色(颜色用数字表示)c(0)(v)
step2:迭代定义每个点的颜色c(k+1)(v)=HASH({c(k)(v),{c(k)(v)}u∈N(v)})
step3:迭代k次后,总结所有的颜色次数(还是看例子比较好)
第一次聚合


进行hash表建立
 


第二次聚合
 


进行hash表建立
 


最后获得的特征向量

这种方法的复杂性是#(edges)线性的

四、Summary

传统的机器学习流水线

  • 手工特征+ML模型
    对于图数据的手工特征
  • Node-level
    • Node degree, centrality, clustering coefficient, graphlets
  • Link-level
    • Distance-based feature
    • local/global neighborhood overlap
  • Graph-level
    • Graphlet kernel, WL kernel
http://www.dtcms.com/a/263415.html

相关文章:

  • (5)pytest-yield操作
  • 实现ModbusTCP转Profinet网关协议转换功能的网关设备
  • 【python】langgraph环境安装的曲折办法
  • 问题分解提示法:用结构化方法破解LLM复杂任务难题
  • 信创项目oracle数据库迁移到达梦数据库需要会有哪些问题?如何解决?
  • 《Redis可扩展:轻松应对数据增长与流量高峰》
  • Python 数据分析与机器学习入门 (六):Seaborn 可视化技巧,图表更美观
  • 飞算 JavaAI 深度实战:从老项目重构到全栈开发的降本增效密码
  • Windows如何安装beego环境问题解
  • 正交视图三维重建2 笔记 2d线到3d线2 先生成3d线然后判断3d线在不在
  • 推进自动驾驶车辆智能:基于深度学习和多模态LLM的交通标志识别与鲁棒车道检测
  • 告别复杂爬虫!Perplexity AI辅助Python网页抓取
  • 爬虫详解:Aipy打造自动抓取代理工具
  • Day113 切换Node.js版本、多数据源配置
  • RHCSA认证题目练习一(配置网络设置)
  • Centos7在yum当中遇到Could not resolve host: mirrorlist.centos.org解决方案
  • 高效读取文件中指定行段的两种方法
  • Golang 标准库errors用法
  • Golang快速开发框架——项目立项与系统配置读取组件viper(一)
  • 《如何在 Spring 中实现 MQ 消息的自动重连:监听与发送双通道策略》
  • Doc2X:破解RAG文档解析难题的核心引擎
  • 自由学习记录(65)
  • PO→DO→DTO→VO 和 DAO → DTO → VO
  • w-笔记:uni-app的H5平台和非H5平台的拍照识别功能:
  • 数据可视化:5 分钟读懂其核心价值与技术实践
  • PyTorch 中 nn.Linear() 参数详解与实战解析(gpt)
  • Python + Selenium 自动化爬取途牛动态网页
  • Qt Quick 与 QML(四)qml中的Delegate系列委托组件
  • 七天学会SpringCloud分布式微服务——05——OpenFeign
  • 基于时间策略+应用过滤的游戏防沉迷方案:技术实现与工具推荐