当前位置: 首页 > news >正文

中区网站建设深圳最好的公司排名

中区网站建设,深圳最好的公司排名,电子商务网站建设与维护展望,wordpress域名指向二级目录(一)需求说明 准备十条符合包含用户信息的文本文件,每行格式为 姓名,年龄,性别,需要清洗掉年龄为空或者非数字的行。 例如: 张三,25,男 李四,,女 王五,30,男 赵六,a,女 孙七,35,男 周八,40,女 吴九,abc,男 郑十,45,女…
需求说明

准备十条符合包含用户信息的文本文件,每行格式为 姓名,年龄,性别,需要清洗掉年龄为空或者非数字的行

例如:

张三,25,男

李四,,女

王五,30,男

赵六,a,女

孙七,35,男

周八,40,女

吴九,abc,男

郑十,45,女

王十,50,男

李二,55,女

思路分析

  1. 读入文件
  2. 对每一行数据进行分析
    1. 字段拆分,拆分出年龄这个字段
    2. 判断
      • 如果它不是数字或者缺失,则忽略这条数据
      • 否则保存

(三) 代码展示

import org.apache.spark.{SparkConf, SparkContext}

object DataCleaning {

  def main(args: Array[String]): Unit = {

    // 创建 SparkConf 对象

    val conf = new SparkConf().setAppName("DataCleaning").setMaster("local[*]")

    // 创建 SparkContext 对象

    val sc = new SparkContext(conf)

 

    // 读取文本文件,创建 RDD

    val inputFile = "input/file.txt"

    val lines = sc.textFile(inputFile)

 

    // 数据清洗操作

    val cleanedLines = lines.filter(line => { // 使用filter算子

      val fields = line.split(",")

      if (fields.length == 3) {

        val age = fields(1).trim

        age.matches("\\d+")

      } else {

        false

      }

    })
      // 输出清洗后的数据
       cleanedLines.collect().foreach(println)

 

    // 停止 SparkContext

    sc.stop()

  }

}

拓展:如何把清洗之后的数据保存到一个文件中。

可以使用coalesce(1)这个方法可以让结果全部保存在一个文件中。

代码如下:

val singlePartitionRDD = cleanedLines.coalesce(1)

    // 保存清洗后的数据到文件

    val outputPath = "path/to/your/output/file.txt"

    singlePartitionRDD.saveAsTextFile(outputPath)

    // 停止 SparkContext

    sc.stop()

http://www.dtcms.com/a/474064.html

相关文章:

  • 用cmd命令修改适配器ip
  • C#中结构(Struct)
  • 长春市网站建设深圳建设工程交易服务网老网站
  • 做视频网站用什么云盘好手机网站打开很慢
  • 沈阳市网站建设企业网站费用估算
  • 构建AI智能体:六十一、信息论完全指南:从基础概念到在大模型中的实际应用
  • SLAM | 视觉SLAM中的退化问题:定义、成因、表现与解决方案
  • 【YOLO 模型进阶】(2)YOLO v1 超详解:从网络架构到优缺点剖析
  • 临近做网站wordpress邮件美化
  • 海外营销网站建设wordpress 站内通知
  • ESP32 VSCode开发环境配置
  • 全栈监控系统搭建:Prometheus+Grafana前后端埋点方案
  • PDF Arranger下载和安装教程(附安装包)
  • 做图片带字的网站专业烟台房产网站建设
  • SoftMotion: DriveInterface: Analog
  • 公司网站公司简介宣传夸大受处罚电子产品网页设计
  • asp网站怎么下载源码大品牌网站建设
  • for循环套for循环(Java基础语法)
  • 运维的概念以及流程零基础入门到精通
  • 网站建设最难的是什么美食网站开发前期准备
  • cpp http 客户端与服务端 POST请求
  • 门户网站开发淘客网站备案教程
  • 【PHP】利用 xlswriter 扩展导出的Excel文件报错问题
  • wordpress+制作首页模板下载网站优化公司推荐
  • SDKMAN工具来实现JDK版本的管理
  • Einops vs PyTorch 张量操作对比指南
  • 钉钉提醒业务系统源码,网站定时钉钉提醒业务系统
  • CentOS 7 安装 bzip2-libs-1.0.6-13.el7.x86_64.rpm 的详细步骤
  • 太原手手工网站建设公司贵阳市建设管理信息网站
  • 树和二叉树——一文速通