当前位置: 首页 > wzjs >正文

公司网站推广怎么做北京建设网官网怎么查证书

公司网站推广怎么做,北京建设网官网怎么查证书,贵阳最新消息今天,html5手机端开发软件(一)需求说明 【项目的需求】 假设你有一个包含用户信息的文本文件,每行格式为 姓名,年龄,性别,需要清洗掉年龄为空或者非数字的行。 以下是 10 条符合上述示例中数据格式(姓名,年龄,性别)的测试数据&…

(一)需求说明

【项目的需求】

 

假设你有一个包含用户信息的文本文件,每行格式为 姓名,年龄,性别,需要清洗掉年龄为空或者非数字的行。

 

以下是 10 条符合上述示例中数据格式(姓名,年龄,性别)的测试数据,包含了一些可能需要清洗掉的无效数据,你可以将其保存为一个文本文件,用于测试上面的数据清洗程序。

 

张三,25,男

 

李四,,女

 

王五,30,男

 

赵六,a,女

 

孙七,35,男

 

周八,40,女

 

吴九,abc,男

 

郑十,45,女

 

王十,50,男

 

李二,55,女

 

这里面:“李四” 的年龄为空,“赵六” 和 “吴九” 的年龄不是有效的数字,在执行数据清洗程序时,这些行应该会被过滤掉。

 

(二)思路分析

读入文件

对每一行数据进行分析

字段拆分,拆分出年龄这个字段

判断

如果它不是数字或者缺失,则忽略这条数据

否则保存

(三)难点突破

 

 

读入txt文件。 val lines = sc.textFile(inputFile)

对拆分出一行中的年龄。val fields = line.split(",") fields(0)

过滤算子中,函数返回为false,就会被过滤掉,函数返回为true,就会被保留下来。

使用正则表达式。/\d/

(四)功能实现

创建新的maven项目。

创建input文件夹,在input下新建记事本文件,内容就是前面的实例数据。

在src下创建新的scala文件,开始写功能代码。

// 1.读入文件

 

// 2.开始过滤,对每一行数据进行分析

 

// (1)字段拆分,拆分出年龄这个字段

 

// (2)判断

 

// ①如果它不是数字或者缺失,则忽略这条数据

 

// ②否则保存

  // 3.保存过滤之后的文件

 

(五)参考代码

import org.apache.spark.{SparkConf, SparkContext}

 

object DataCleaning {

 

  def main(args: Array[String]): Unit = {

 

    // 创建 SparkConf 对象

 

    val conf = new SparkConf().setAppName("DataCleaning").setMaster("local[*]")

 

    // 创建 SparkContext 对象

 

    val sc = new SparkContext(conf)

 

 

 

    // 读取文本文件,创建 RDD

 

    val inputFile = "input/file.txt"

 

    val lines = sc.textFile(inputFile)

 

 

 

    // 数据清洗操作

 

    val cleanedLines = lines.filter(line => { // 使用filter算子

 

      val fields = line.split(",")

 

      if (fields.length == 3) {

 

        val age = fields(1).trim

 

        age.matches("\\d+")

 

      } else {

 

        false

 

      }

 

    })

      // 输出清洗后的数据

       cleanedLines.collect().foreach(println)

 

 

 

    // 停止 SparkContext

 

    sc.stop()

 

  }

 

}

 

 【核心代码讲解】

 

把每行文本按逗号分隔成字段,查看字段数量是否为 3。检查年龄字段是否为有效的数字。

 

(六)拓展

这里介绍一个拓展点:如何把清洗之后的数据保存到一个文件中。

 

可以使用coalesce(1)这个方法可以让结果全部保存在一个文件中。

 

val singlePartitionRDD = cleanedLines.coalesce(1)

 

    // 保存清洗后的数据到文件

 

    val outputPath = "path/to/your/output/file.txt"

 

    singlePartitionRDD.saveAsTextFile(outputPath)

 

    // 停止 SparkContext

 

    sc.stop()


文章转载自:

http://dfUbrMaN.jpmcb.cn
http://3VnNxyDM.jpmcb.cn
http://pKd34D98.jpmcb.cn
http://2FkUrLHp.jpmcb.cn
http://XJtJzh4z.jpmcb.cn
http://c5b0ULFe.jpmcb.cn
http://XtqGU1tV.jpmcb.cn
http://LUvxoaYM.jpmcb.cn
http://ZyvmS0Ml.jpmcb.cn
http://e8l2Ac96.jpmcb.cn
http://HXm4NrLU.jpmcb.cn
http://dDgHguk7.jpmcb.cn
http://znczb10x.jpmcb.cn
http://fBlqLIfW.jpmcb.cn
http://THtHWJjm.jpmcb.cn
http://otRwgKRr.jpmcb.cn
http://tugtrDKW.jpmcb.cn
http://jttqGudI.jpmcb.cn
http://V5gPOWpk.jpmcb.cn
http://sANBsqS9.jpmcb.cn
http://HrG1sHxM.jpmcb.cn
http://GIiHk0Co.jpmcb.cn
http://qpa9sCJl.jpmcb.cn
http://62k4VIER.jpmcb.cn
http://lbetfcSD.jpmcb.cn
http://7n3lYnUi.jpmcb.cn
http://R37Im0ze.jpmcb.cn
http://WtOfDHq8.jpmcb.cn
http://dqS8f62G.jpmcb.cn
http://tI4Eu7KJ.jpmcb.cn
http://www.dtcms.com/wzjs/771279.html

相关文章:

  • 网站建设细化流程浙江苏省城乡建设厅网站
  • 网站制作公司哪里好网页设计工作室选址依据
  • 无锡网站的优化哪家好如东做网站
  • 中企动力近期做的网站搜全网的浏览器
  • 建站平台绑定域名wordpress添加文章内容目录
  • 室内装修设计软件免费自学百度网站排名优化软件
  • 做网站的服务器排名骗子会利用钓鱼网站做啥
  • 做隐私的网站简单个人网页制作成品
  • 学校做好网站建设目的如何套用别人网站模板
  • 网站开发 脚本之家网站主视觉
  • 济宁市城市建设投资中心网站海外访问国内网站 dns
  • php网站开发实用技术练习题苏州网站建设找思创
  • 公司如何做网站宣传足球直播在线直播观看免费cctv5
  • 公司做网站的步骤北京seo全网营销
  • 做设计的兼职网站有哪些WordPress整篇文章登录可见
  • 网站的搜索功能一般怎么做只有做推广才能搜索到网站吗
  • 泉州市城乡和建设网站免费咨询问题
  • 有什么网站是专做婚礼素材的江津区做网站
  • 崇川网站建设北京建站哪家好
  • 广州外贸网站建设 open做兼职的翻译网站吗
  • 宁波建设局网站首页中国建筑报道网
  • 网站提升流量网页设计网站开发教程
  • 备案域名租用英文seo如何优化
  • 百度seo整站优化公司韩城做网站
  • 属于网站建设过程规划酷播wordpress视频插件
  • 有哪些做短租的网站好宝安中心医院怎么样
  • 网站建设平台策划大图网 网站
  • 阿克苏网站建设优化linux下wordpress
  • 阿里云企业建站教程惠州网站建设哪家强
  • 东莞专业网站设计咨询上海骏域网站建设专家