当前位置: 首页 > news >正文

Python与Spark

1.什么是Spark

Spark用于对海量数据进行分布式计算

pyspark是利用Python语言完成Spark任务的第三方包

2.安装pyspark

打开命令行,输入【pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark】

3.pyspark入门

4. pyspark输入数据

(1)输入数据容器

查看rdd中的内容,用collect()方法

(2)输入文件

5.pyspark处理数据

(1)map成员方法(算子)

map方法用于逐个处理rdd中的数据

(2)flatmap算子

在map的基础上,多了解除嵌套的功能

(3)reduceByKey算子

对二元元组按照key分组聚合后 ,对每个组内的元素两两进行处理

 (4)filter算子

过滤元素,只保留满足条件的

(5)distinct算子

对rdd中的数据去重 

(6)sortBy算子

按照什么样的规则进行排序 

6. pyspark输出数据为Python对象

(1)collect算子

(2)reduce算子

(3)take算子

(4)count算子 

 7.pyspark输出数据到文件中

saveAsTextFile算子

http://www.dtcms.com/a/305180.html

相关文章:

  • 26考研11408数据结构
  • yolo11安卓端部署检测图片
  • Docker用Web应用实例深入容器
  • Docker初学者需要了解的几个知识点(三):Docker引擎与Docker Desktop
  • prometheus_client 调用统计
  • 2025年中科院与JCR期刊分区深度对比(第一期):TON中科院分区3区不变,JCR分区升至Q1;TOSEM重回中科院1区!
  • Wan2.1
  • openEuler性能测试常用工具-fio开源压力测试工具
  • 05动手学深度学习(下)
  • EnergyMath芯详科技 EMS4100/MES4000/MES3900
  • sqlite3---维护命令、回调函数
  • 用命令查看Android设备的 Linux 内核版本,了解其对应的硬件支持各种特性
  • gRPC性能陷阱:低延迟网络下的客户端瓶颈揭秘
  • k8s搭建nfs共享存储
  • 前端代码打包与压缩完全指南
  • div 封装日历
  • 使用echarts绘制立体柱状图
  • Export useForm doesn‘t exist in target module
  • 深度解读|美创科技参编国家标准《数字水印技术实现指南》
  • docker的安装和配置流程
  • Python在人工智能与科学计算领域的统治地位:语言、生态与未来
  • 云原生MySQL Operator开发实战(四):测试策略与生产部署
  • Qt 移动应用推送通知实现
  • 多线程--关于锁的一些知识考点
  • 系统优化与性能调教
  • C++基础语法与面向对象特性
  • Blender入门笔记——建模篇(二)
  • 电商平台商品模块数据库设计
  • WEPollSelectorImpl
  • AI工作流赋能,业务的超级加速器