当前位置: 首页 > news >正文

Spark,数据清洗

数据清洗

先创建一个文档然后写几条数据

eg:如下姓名+年龄+性别 而数据中我们可明显看到第2,7行数据是错误的,现在我们把它洗掉

代码展示

运行结果:可以看到“脏”数据已经被洗出去了

【拓展】:如何把清洗之后的数据保存到一个文件中?

答:可以使用coalesce(1)这个方法可以让结果全部保存在一个文件中。

val singlePartitionRDD = cleanedLines.coalesce(1)// 保存清洗后的数据到文件val outputPath = "path/to/your/output/file.txt"singlePartitionRDD.saveAsTextFile(outputPath)// 停止 SparkContextsc.stop()

 

http://www.dtcms.com/a/193848.html

相关文章:

  • JavaScript 时间转换:从 HH:mm:ss 到十进制小时及反向转换
  • Maven使用详解:Maven的概述(二)
  • 如何选择高性价比的 1T 服务器租用服务​
  • Day29 -JS开发02 -两个实例:dom树(存在dom-xss) 加密及基础的js逆向(明文加密)
  • 机器学习与人工智能:NLP分词与文本相似度分析
  • 深入解析VPN技术原理:安全网络的护航者
  • 学习alpha
  • 12 web 自动化之基于关键字+数据驱动-反射自动化框架搭建
  • 在 Neo4j 中实现向量化存储:从文本到高效语义搜索
  • asp.net IHttpHandler 对分块传输编码的支持,IIs web服务器后端技术
  • ROS2学习(5)------ROS2 功能包介绍
  • Neo4j 图书馆借阅系统知识图谱设计
  • 【学习笔记】因果推理导论第1课
  • NDK19无法在AppleM芯片运行解决方案
  • 用 Rust 带你了解 TCP 和 UDP
  • 协议不兼容?Profinet转Modbus TCP网关让恒压供水系统通信0障碍
  • pytorch 14.3 Batch Normalization综合调参实践
  • 【数据结构】手撕AVL树(万字详解)
  • JAVA:Spring Boot 集成 RDF4J 实现欺诈检测的技术指南
  • 源码与二进制包区别
  • 移除链表元素数据结构oj题(力扣题206)
  • 【笔记】记一次PyCharm的问题反馈
  • 图像处理:预览并绘制图像细节
  • PT2031单触控单输出触摸IC
  • 快速选择算法:优化大数据中的 Top-K 问题
  • Ubuntu系统安装docker仓库教程
  • Java微服务架构实战:Spring Boot与Spring Cloud的完美结合
  • Python 3.13.3 安装教程
  • 1T 服务器租用价格解析
  • 硬件厂商的MIB文档详解 | 如何查询OID? | MIB Browser实战指南-优雅草卓伊凡