当前位置: 首页 > news >正文

Spark,数据清洗

数据清洗

先创建一个文档然后写几条数据

eg:如下姓名+年龄+性别 而数据中我们可明显看到第2,7行数据是错误的,现在我们把它洗掉

代码展示

运行结果:可以看到“脏”数据已经被洗出去了

【拓展】:如何把清洗之后的数据保存到一个文件中?

答:可以使用coalesce(1)这个方法可以让结果全部保存在一个文件中。

val singlePartitionRDD = cleanedLines.coalesce(1)// 保存清洗后的数据到文件val outputPath = "path/to/your/output/file.txt"singlePartitionRDD.saveAsTextFile(outputPath)// 停止 SparkContextsc.stop()

 

相关文章:

  • JavaScript 时间转换:从 HH:mm:ss 到十进制小时及反向转换
  • Maven使用详解:Maven的概述(二)
  • 如何选择高性价比的 1T 服务器租用服务​
  • Day29 -JS开发02 -两个实例:dom树(存在dom-xss) 加密及基础的js逆向(明文加密)
  • 机器学习与人工智能:NLP分词与文本相似度分析
  • 深入解析VPN技术原理:安全网络的护航者
  • 学习alpha
  • 12 web 自动化之基于关键字+数据驱动-反射自动化框架搭建
  • 在 Neo4j 中实现向量化存储:从文本到高效语义搜索
  • asp.net IHttpHandler 对分块传输编码的支持,IIs web服务器后端技术
  • ROS2学习(5)------ROS2 功能包介绍
  • Neo4j 图书馆借阅系统知识图谱设计
  • 【学习笔记】因果推理导论第1课
  • NDK19无法在AppleM芯片运行解决方案
  • 用 Rust 带你了解 TCP 和 UDP
  • 协议不兼容?Profinet转Modbus TCP网关让恒压供水系统通信0障碍
  • pytorch 14.3 Batch Normalization综合调参实践
  • 【数据结构】手撕AVL树(万字详解)
  • JAVA:Spring Boot 集成 RDF4J 实现欺诈检测的技术指南
  • 源码与二进制包区别
  • 长期吃太饱,身体会发生什么变化?
  • 年在沪纳税350亿人民币,这些全球头部企业表示“对上海承诺不会变”
  • 中办、国办关于持续推进城市更新行动的意见
  • 今年有望投产里程已近3000公里,高铁冲刺谁在“狂飙”?
  • 王征、解宁元、牛恺任西安市副市长
  • 佩斯科夫:若普京认为必要,将公布土耳其谈判俄方代表人选