当前位置: 首页 > wzjs >正文

做特卖的网站雅美盛典深圳优化公司找高粱seo服务

做特卖的网站雅美盛典,深圳优化公司找高粱seo服务,wordpress web应用,软件外包公司的出路(一)需求说明 准备十条符合包含用户信息的文本文件,每行格式为 姓名,年龄,性别,需要清洗掉年龄为空或者非数字的行。 例如: 张三,25,男 李四,,女 王五,30,男 赵六,a,女 孙七,35,男 周八,40,女 吴九,abc,男 郑十,45,女…
需求说明

准备十条符合包含用户信息的文本文件,每行格式为 姓名,年龄,性别,需要清洗掉年龄为空或者非数字的行

例如:

张三,25,男

李四,,女

王五,30,男

赵六,a,女

孙七,35,男

周八,40,女

吴九,abc,男

郑十,45,女

王十,50,男

李二,55,女

思路分析

  1. 读入文件
  2. 对每一行数据进行分析
    1. 字段拆分,拆分出年龄这个字段
    2. 判断
      • 如果它不是数字或者缺失,则忽略这条数据
      • 否则保存

(三) 代码展示

import org.apache.spark.{SparkConf, SparkContext}

object DataCleaning {

  def main(args: Array[String]): Unit = {

    // 创建 SparkConf 对象

    val conf = new SparkConf().setAppName("DataCleaning").setMaster("local[*]")

    // 创建 SparkContext 对象

    val sc = new SparkContext(conf)

 

    // 读取文本文件,创建 RDD

    val inputFile = "input/file.txt"

    val lines = sc.textFile(inputFile)

 

    // 数据清洗操作

    val cleanedLines = lines.filter(line => { // 使用filter算子

      val fields = line.split(",")

      if (fields.length == 3) {

        val age = fields(1).trim

        age.matches("\\d+")

      } else {

        false

      }

    })
      // 输出清洗后的数据
       cleanedLines.collect().foreach(println)

 

    // 停止 SparkContext

    sc.stop()

  }

}

拓展:如何把清洗之后的数据保存到一个文件中。

可以使用coalesce(1)这个方法可以让结果全部保存在一个文件中。

代码如下:

val singlePartitionRDD = cleanedLines.coalesce(1)

    // 保存清洗后的数据到文件

    val outputPath = "path/to/your/output/file.txt"

    singlePartitionRDD.saveAsTextFile(outputPath)

    // 停止 SparkContext

    sc.stop()

http://www.dtcms.com/wzjs/302062.html

相关文章:

  • 做网站排名的公司有哪些seo外链推广平台
  • 交易网站开发合同上海网站seo策划
  • wordpress靶机下载网站惠州百度seo地址
  • 东莞网站建设dgjwzseo优化排名教程
  • 无锡正规网站建设市场调研报告怎么写范文
  • 阿里云备案 网站名称seo关键词分类
  • 网站建设业务员公司的网站
  • 两学一做专题网站介绍厦门百度关键词seo收费
  • 大连开发网站金花站长工具
  • 网站建设工程手机营销软件
  • 电子商务网站建设选择题深圳seo招聘
  • 巴中区建设局网站百度推广深圳分公司
  • 资中做网站多少钱优化大师使用心得
  • 深圳网站建设公司哪家比较好如何做谷歌优化
  • 网页设计结束语网络推广和seo
  • 直播app制作开发西安seo优化工作室
  • 数据分析师35岁以后怎么办360优化大师官网
  • 花18000去达内培训值吗南京网络优化培训
  • 电销系统哪家好河北网站seo外包
  • 济南做网站价格html静态网页制作
  • 门户网站做公众号的好处关键词排名工具
  • 网站开发工程师基础如何制作网址
  • 广州本地做网站线上推广的好处
  • 英语网站 php源码企业官方网站怎么申请
  • 南宁网站制作开发公司产品软文范例100字
  • 网站平台建设属于固定资产吗西安seo全网营销
  • 盐城企业做网站网络营销软件大全
  • 怎么样做自己的网站网站流量统计查询
  • 政务服务网站建设方案奇葩网站100个
  • 甘肃省专业做网站广州百度网站快速排名