当前位置: 首页 > news >正文

Pyspark分布式访问NebulaGraph图数据库

本教程以部署单机版Spark为例进行演示,正式环境可部署集群版Spark

一、安装 Java

PySpark 依赖于 Spark,而 Spark 又依赖于 Java,所以,首先要确保你的机器上安装了 Java。

1、下载安装java8

sudo apt update
sudo apt install openjdk-8-jdk

2、配置环境变量

nano ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
source ~/.bashrc

二、本地安装Spark

1、下载 Spark

访问 Spark 官网下载页面,选择你需要的版本(例如,选择 3.x和 Hadoop 3.x),然后用 wget 下载,本教程使用Spark2.4.0 

wget http://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.6.tgz

2、解压 Spark 压缩包

tar -xvzf spark-2.4.0-bin-hadoop2.6.tgz

3、移动到目录 /opt/spark

 sudo mv spark-2.4.0-bin-hadoop2.6 /opt/spark

4、配置环境变量

为了让 Spark 能在命令行中使用,你需要设置环境变量。打开.bashrc 文件:

nano ~/.bashrc

在文件末尾添加以下内容:

在此步骤将python解释器一起进行配置(本教程使用的是python 3.7)

export SPARK_HOME=/opt/spark/spark-2.4.0-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
export PYSPARK_PYTHON=/home/dell/anaconda3/envs/pyspark_env/bin/python
source ~/.bashrc

三、Python环境安装Pyspark第三方库

Pyspark第三方库版本尽量与Spark版本一直,本教程都为2.4.0

pip install pyspark==2.4.0 -i https://pypi.tuna.tsinghua.edu.cn/simple/

四、Pyspark验证安装

在终端输入:

pyspark

你应该能看到类似以下的输出:

五、nebula-spark-connector下载

Nebula-Spark-Connector 是一个用于将 Nebula Graph 数据库与 Apache Spark 集成的连接器,它使得用户能够在 Spark 环境中轻松地读取、写入和处理 Nebula Graph 数据库中的图数据。

必须下载此组件。

spark使用2.x版本,Nebula-Spark-Connector尽量使用3.3以下版本。

Nebula-Spark-Connector下载地址:

https://repo1.maven.org/maven2/com/vesoft/nebula-spark-connector/

六、Pyspark连接NebulaGraph

from pyspark.sql import SparkSessionspark = SparkSession.builder \.appName("NebulaVisualization") \.master("local[*]") \.config("spark.jars", "/mnt/data/nebula-spark-connector-3.3.0.jar") \.config("spark.driver.extraClassPath", "/mnt/data/nebula-spark-connector-3.3.0.jar") \.config("spark.executor.extraClassPath", "/mnt/data/nebula-spark-connector-3.3.0.jar") \.getOrCreate()
spark.sparkContext.setLogLevel("ERROR")try:df = spark.read \.format("com.vesoft.nebula.connector.NebulaDataSource") \.option("metaAddress", "10.2.7.209:9559") \.option("spaceName", "construction_ontology") \.option("label", "dependsOnPreTask") \.option("type", "edge") \.option("returnCols", "") \.option("partitionNumber", "10") \.option("nebula.user", "root") \.option("nebula.password", "nebula") \.load()df.show()print("连接器验证成功!")except Exception as e:print(f"连接器验证失败:{e}")
finally:spark.stop()

注意:spark参数 spark.jars、spark.driver.extraClassPath、

spark.executor.extraClassPath需要配置第四步下载的nebula-spark-connector jar

http://www.dtcms.com/a/490687.html

相关文章:

  • FPGA----petalinux的Ubuntu文件系统移植
  • 宜昌网站建设厂家wordpress 扁担
  • TensorFlow2 Python深度学习 - 卷积神经网络示例2-使用Fashion MNIST识别时装示例
  • Eureka: Human-Level Reward Design via Coding Large Language Models 译读笔记
  • 随时随地看监控:我的UptimeKuma远程访问改造记
  • 关于网站篡改应急演练剧本编写(模拟真实场景)
  • 河北省企业网站建设公司企业管理系统软件有哪些
  • JVM的classpath
  • RVO优化
  • ethercat 环型拓扑(Ring Topology)
  • 颠覆PD快充、工业控制与智能家电等领域高CTR,高隔离电压高可靠性光电耦合器OCT1018/OCT1019
  • 【机器学习入门】8.1 降维的概念和意义:一文读懂降维的概念与意义 —— 从 “维度灾难” 到低维嵌入
  • 黄骅市旅游景点有哪些盐城网站关键词优化
  • 对于网站建设的调查问卷爱南宁app官网下载
  • 一文读懂 YOLOv1 与 YOLOv2:目标检测领域的早期里程碑
  • 在 Windows 10/11 LTSC等精简系统中安装Winget和微软应用商店,Windows Server安装Microsoft Store的应用
  • A2A架构详解
  • 基础 - SQL命令速查
  • logo图片素材大全sem和seo都包括什么
  • 把 AI“缝”进布里:生成式编织神经网络让布料自带摄像头
  • 岳阳建网站长沙网站优化价格
  • [Sora] 分布式训练 | 并行化策略 | `plugin_type` | `booster.boost()`
  • Linux系统函数link、unlink与dentry的关系及使用注意事项
  • 安卓手机 IP 切换指南:告别卡顿,轻松换 IP
  • 微服务拆分:领域驱动设计,单体应用如何平滑迁移?
  • 企业网站推广的形式有哪些福州网站推广排名
  • 关键词优化网站排名群英云服务器
  • nano-GPT:最小可复现的GPT实操
  • 网站建设公众号wordpress中文模板下载地址
  • 菜单及库(Num28)