当前位置: 首页 > wzjs >正文

如何做直播做菜视频网站百度网址是多少 百度知道

如何做直播做菜视频网站,百度网址是多少 百度知道,css网站布局实例,潍坊专业网站建设哪家便宜(一)需求说明 【项目的需求】 假设你有一个包含用户信息的文本文件,每行格式为 姓名,年龄,性别,需要清洗掉年龄为空或者非数字的行。 以下是 10 条符合上述示例中数据格式(姓名,年龄,性别)的测试数据&…

(一)需求说明

【项目的需求】

 

假设你有一个包含用户信息的文本文件,每行格式为 姓名,年龄,性别,需要清洗掉年龄为空或者非数字的行。

 

以下是 10 条符合上述示例中数据格式(姓名,年龄,性别)的测试数据,包含了一些可能需要清洗掉的无效数据,你可以将其保存为一个文本文件,用于测试上面的数据清洗程序。

 

张三,25,男

 

李四,,女

 

王五,30,男

 

赵六,a,女

 

孙七,35,男

 

周八,40,女

 

吴九,abc,男

 

郑十,45,女

 

王十,50,男

 

李二,55,女

 

这里面:“李四” 的年龄为空,“赵六” 和 “吴九” 的年龄不是有效的数字,在执行数据清洗程序时,这些行应该会被过滤掉。

 

(二)思路分析

读入文件

对每一行数据进行分析

字段拆分,拆分出年龄这个字段

判断

如果它不是数字或者缺失,则忽略这条数据

否则保存

(三)难点突破

 

 

读入txt文件。 val lines = sc.textFile(inputFile)

对拆分出一行中的年龄。val fields = line.split(",") fields(0)

过滤算子中,函数返回为false,就会被过滤掉,函数返回为true,就会被保留下来。

使用正则表达式。/\d/

(四)功能实现

创建新的maven项目。

创建input文件夹,在input下新建记事本文件,内容就是前面的实例数据。

在src下创建新的scala文件,开始写功能代码。

// 1.读入文件

 

// 2.开始过滤,对每一行数据进行分析

 

// (1)字段拆分,拆分出年龄这个字段

 

// (2)判断

 

// ①如果它不是数字或者缺失,则忽略这条数据

 

// ②否则保存

  // 3.保存过滤之后的文件

 

(五)参考代码

import org.apache.spark.{SparkConf, SparkContext}

 

object DataCleaning {

 

  def main(args: Array[String]): Unit = {

 

    // 创建 SparkConf 对象

 

    val conf = new SparkConf().setAppName("DataCleaning").setMaster("local[*]")

 

    // 创建 SparkContext 对象

 

    val sc = new SparkContext(conf)

 

 

 

    // 读取文本文件,创建 RDD

 

    val inputFile = "input/file.txt"

 

    val lines = sc.textFile(inputFile)

 

 

 

    // 数据清洗操作

 

    val cleanedLines = lines.filter(line => { // 使用filter算子

 

      val fields = line.split(",")

 

      if (fields.length == 3) {

 

        val age = fields(1).trim

 

        age.matches("\\d+")

 

      } else {

 

        false

 

      }

 

    })

      // 输出清洗后的数据

       cleanedLines.collect().foreach(println)

 

 

 

    // 停止 SparkContext

 

    sc.stop()

 

  }

 

}

 

 【核心代码讲解】

 

把每行文本按逗号分隔成字段,查看字段数量是否为 3。检查年龄字段是否为有效的数字。

 

(六)拓展

这里介绍一个拓展点:如何把清洗之后的数据保存到一个文件中。

 

可以使用coalesce(1)这个方法可以让结果全部保存在一个文件中。

 

val singlePartitionRDD = cleanedLines.coalesce(1)

 

    // 保存清洗后的数据到文件

 

    val outputPath = "path/to/your/output/file.txt"

 

    singlePartitionRDD.saveAsTextFile(outputPath)

 

    // 停止 SparkContext

 

    sc.stop()

http://www.dtcms.com/wzjs/418501.html

相关文章:

  • 做图片网站会被百度收录查询工具
  • 怎么面试一个网站开发的人搜索引擎优化搜索优化
  • 值得做的网站全国seo搜索排名优化公司
  • 哪个网站做logo赚钱在线h5免费制作网站
  • wordpress默认邮件文件夹百度seo公司兴田德润
  • 模仿网站建设站建设十大网站排行榜
  • 人大网站信息化建设方案谷歌搜索引擎优化
  • 网站建设原则小程序开发软件
  • 网站模板建站如何快速提升自己
  • 中国装饰公司营销型网站建设中小企业管理培训课程
  • 无锡专业做网站建设谷歌自然排名优化
  • 网站建设贵阳条友网
  • 分销平台是什么意思朝阳区seo技术
  • wordpress用win还是Linux北京seo不到首页不扣费
  • 公司建设网站流程图长春关键词优化平台
  • 网站建设辶首先金手指十四手机优化助手下载
  • 优化合作平台排名优化方法
  • 以前自己做的网站怎么样删除甘肃百度推广电话
  • 网站后台模板 如何使用百度最新秒收录方法2021
  • 微信公众号的微网站开发在百度上做广告推广要多少钱
  • 学做网站需要java么广告策划书
  • 简述网站建设基本流程热门关键词
  • 购物网站界面设计互联网广告公司排名前十
  • 园林景观设计案例网站上海seo服务
  • 东莞模板建站平台友情链接是外链吗
  • 去哪找网站建设公司东莞搜索网络优化
  • 网站商务通js代码百度统计代码
  • 怎样做网站上更改文字深圳网站营销seo费用
  • 程序员是不是都是做网站的杭州网站优化多少钱
  • 网站建设 站内搜索百度关键词价格查询软件