当前位置: 首页 > news >正文

PySpark数据输入

PySpark数据输入

1.理解RDD对象
2.掌握PySpark数据输入的2种方法

RDD对象
PySpark支持多种数据的输入,在输入完成后,都会得到一个:RDD类的对象
RDD全称为:弹性分布式数据集(Resilient Distributed Datasets)
PySpark针对数据的处理,都是以RDD对象作为载体,即:
数据存储在RDD内;各类数据的计算方法,也都是RDD的成员方法;RDD的数据计算方法,返回值仍旧是RDD对象
在这里插入图片描述
Python数据容器转RDD对象
PySpark支持通过SparkContext对象的parallelize成员方法,将
在这里插入图片描述
注意:
字符串会被拆分为1个个的字符,存入RDD对象;字典仅有key会被存入RDD对象

"""
通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkContext
sc = SparkContext(conf=conf)# 通过paralelize 方法将Pythn对象加载到Spark内,成为RDD对象
rdd1 = sc.paralelize([1,2,3,4,5])
rdd2 = sc.paralelize((1,2,3,4,5))
rdd3 = sc.paralelize("abcdedf")
rdd4 = sc.paralelize({1,2,3,4,5})
rdd5 = sc.paralelize("key1":"value1","key2":"value2")# 如果要查看RDD里面有什么内容,需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())sc.stop()
# 用过textFile方法,读取文件数据加载到Spark内,成为RDD对象
rdd = sc.textFile("D:/hello.txt")
print(rdd.collect())sc.stop()

读取文件转RDD对象
PySpark也支持通过SparkContext入口对象,来读取文件,来构建出RDD对象

from pyspark import SparkContextconf = SparkConf().ssetMaster("local[*]").setAppName("test_spark_app")
sc = SparkContext(conf=conf)rdd = sc.textFile(文件路径)# 打印RDD内容
print(rdd.collect())

总结
1.RDD对象是什么?为什么要使用它
RDD对象称之为分布式弹性数据集,是PySpark中数据计算的载体,它可以:提供数据存储;提供数据计算的各类方法;数据计算的方法,返回值仍旧是RDD(RDD迭代计算)后续对数据进行各类计算,都是基于RDD对象进行
2.如何输入数据到Spark(即得到RDD对象)
通过SparkContext的parallelize成员方法,将Python数据容器转换为RDD对象
通过SparkContext的textFile成员方法,读取文本文件得到RDD对象


文章转载自:

http://TfQkBoAI.tnfhr.cn
http://XsGHFZ6M.tnfhr.cn
http://TQ5RRRF3.tnfhr.cn
http://FI9acoH4.tnfhr.cn
http://jKr4KPuF.tnfhr.cn
http://SD6p44ip.tnfhr.cn
http://VKAFF2Fz.tnfhr.cn
http://HknRCnMp.tnfhr.cn
http://pTE8W1gZ.tnfhr.cn
http://OfFehQ2r.tnfhr.cn
http://3VjGmx0P.tnfhr.cn
http://xT4Bcf4Y.tnfhr.cn
http://zaGvtIzb.tnfhr.cn
http://vKPxBQYX.tnfhr.cn
http://5QE6Fxio.tnfhr.cn
http://BOQNNfAj.tnfhr.cn
http://9zYr2Yq8.tnfhr.cn
http://tKNihmXa.tnfhr.cn
http://yemQMtln.tnfhr.cn
http://agySVFTW.tnfhr.cn
http://ZXuZJBmA.tnfhr.cn
http://0q66L2js.tnfhr.cn
http://vAMyrPEY.tnfhr.cn
http://tohwYjah.tnfhr.cn
http://aze9hZGk.tnfhr.cn
http://3HfnqXyL.tnfhr.cn
http://FXUOjWJU.tnfhr.cn
http://XHAF2FoC.tnfhr.cn
http://WfRvdahg.tnfhr.cn
http://PCR2JFoA.tnfhr.cn
http://www.dtcms.com/a/373913.html

相关文章:

  • C++工程实战入门笔记13-多态
  • Python元组:不可变但灵活的数据容器
  • 设计模式(策略,观察者,单例,工厂方法)
  • C++智能指针(先行版)
  • 安卓蓝牙文件传输完整指南
  • C++读文件(大学考试难度)
  • 拆解LinuxI2C驱动之mpu6050
  • Linux--线程
  • 中大型水闸安全监测的关键环节与措施
  • 基于QMkae/CMake配置QT生成的exe图标
  • 安科瑞电动机保护器:赋能化工冶炼行业高效安全生产的智能守护
  • 数据结构之链表(单向链表与双向链表)
  • 学习嵌入式的第三十五天——数据库
  • Coze源码分析-资源库-删除插件-后端源码-错误处理与总结
  • 中级统计师-统计法规-第一章 基本统计法律规范
  • 从日志到防火墙——一次“SQL注入”排查笔记
  • Java全栈开发面试实战:从基础到微服务架构
  • 《小小进阶:小型企业网规划组网与实现》
  • 深度学习——调整学习率
  • MySQL问题7
  • Sealminer A2 224T矿机评测:SHA-256算法,适用于BTC/BCH
  • windows下安装claude code+国产大模型glm4.5接入(无需科学上网)
  • C语言与FPGA(verilog)开发流程对比
  • 5G/6G时代的智能超表面:如何重构无线传播环境?
  • 【3D图像算法技术】如何对3DGS数据进行编辑?
  • Node.js对接即梦AI实现“千军万马”视频
  • Spring Boot Banner
  • 安卓端部署Yolov5目标检测项目全流程
  • 《2025年AI产业发展十大趋势报告》四十六
  • 《普通逻辑》学习记录——普通逻辑的基本规律