当前位置: 首页 > wzjs >正文

兰州网站建设公司做标记网站

兰州网站建设公司,做标记网站,wordpress调用一篇文章,阜城网站建设代理文章目录准备工作删除缺失值 > 3 的数据删除星级、评论数、评分中任意字段为空的数据删除非法数据hotel_data.csv通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据准备工作 搭建 hadoop 伪分布或 hadoop 完全分布上传 hotal_data.csv 文件到 hadoopidea 配置…

文章目录

    • 准备工作
    • 删除缺失值 >= 3 的数据
    • 删除星级、评论数、评分中任意字段为空的数据
    • 删除非法数据
    • hotel_data.csv

通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据

准备工作

  1. 搭建 hadoop 伪分布或 hadoop 完全分布
  2. 上传 hotal_data.csv 文件到 hadoop
  3. idea 配置好 scala 环境

删除缺失值 >= 3 的数据

  1. 读取 /hotel_data.csv
  2. 删除缺失值 >= 3 的数据, 打印剔除的数量
  3. 将清洗后的数据保存为/hotelsparktask1
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo01 {def main(args: Array[String]): Unit = {// System.setProperty("HADOOP_USER_NAME", "root")//解决保存文件权限不够的问题val config: SparkConf = new SparkConf().setMaster("local[1]").setAppName("1")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/file3_1/hotel_data.csv"val data: RDD[Array[String]] = sc.textFile(filePath).map(_.split(",")).cache()val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter(_.count(_.equals("NULL")) <= 3)println("删除的数据条目有: " + (total - dataDrop.count()))dataDrop.map(_.mkString(",")).saveAsTextFile(hdfsUrl+ "/hotelsparktask1")sc.stop()}
}

删除星级、评论数、评分中任意字段为空的数据

  1. 读取 /hotel_data.csv
  2. 将字段{星级、评论数、评分}中任意字段为空的数据删除, 打印剔除的数量
  3. 保存 /hotelsparktask2
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo02 {def main(args: Array[String]): Unit = {System.setProperty("HADOOP_USER_NAME", "root")val config: SparkConf = new SparkConf().setMaster("local[1]").setAppName("2")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/file3_1/hotel_data.csv"val data: RDD[Array[String]] = sc.textFile(filePath).map(_.split(",")).cache()val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter {arr: Array[String] =>!(arr(6).equals("NULL") || arr(10).equals("NULL") || arr(11).equals("NULL"))}println("删除的数据条目有: " + (total - dataDrop.count()))dataDrop.map(_.mkString(",")).saveAsTextFile(hdfsUrl+ "/hotelsparktask2")sc.stop()}
}

删除非法数据

  1. 读取第一题的 /hotelsparktask1
  2. 剔除数据集中评分和星级字段的非法数据,合法数据是评分[0,5]的实数,星级是指星级字段内容中包含 NULL、二星、三星、四星、五星的数据
  3. 剔除数据集中的重复数据
  4. 分别打印 删除含有非法评分、星级以及重复的数据条目数
  5. 保存 /hotelsparktask3
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo03 {def main(args: Array[String]): Unit = {System.setProperty("HADOOP_USER_NAME", "root")//解决权限问题val config: SparkConf = new SparkConf().setMaster(  "local[1]").setAppName("3")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/hotelsparktask1"val lines: RDD[String] = sc.textFile(filePath).cache()val data: RDD[Array[String]] = lines.map(_.split(","))val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter {arr: Array[String] =>try {(arr(10).toDouble >= 0) && (arr(10).toDouble <= 5)} catch {case _: Exception => false}}val lab = Array("NULL", "一星", "二星", "三星", "四星", "五星")val dataDrop1: RDD[Array[String]] = data.filter { arr: Array[String] =>var flag = falsefor (elem <- lab) {if (arr(6).contains(elem)) {flag = true}}flag}val dataDrop2: RDD[String] = lines.distinctprintln("删除的非法评分数据条目有: " + (total - dataDrop.count()))println("删除的非法星级数据条目有: " + (total - dataDrop1.count()))println("删除重复数据条目有: " + (total - dataDrop2.count()))val wordsRdd: RDD[Array[String]] = lines.distinct.map(_.split(",")).filter {arr: Array[String] =>try {(arr(10).toDouble >= 0) && (arr(10).toDouble <= 5)} catch {case _: Exception => false}}.filter { arr: Array[String] =>var flag = falsefor (elem <- lab) {if (arr(6).contains(elem)) {flag = true}}flag}wordsRdd.map(_.mkString(",")).saveAsTextFile(hdfsUrl + "/hotelsparktask3")sc.stop()}
}

hotel_data.csv

下载数据:https://download.csdn.net/download/weixin_44018458/87437211


文章转载自:

http://nt5hKU2z.mnsts.cn
http://zdbxSjj6.mnsts.cn
http://ZuAekuQb.mnsts.cn
http://epiTytIc.mnsts.cn
http://waB0OS3g.mnsts.cn
http://F3wR0l5h.mnsts.cn
http://GKugAPlv.mnsts.cn
http://QYnJSkj8.mnsts.cn
http://AJOwj1CN.mnsts.cn
http://V72s5t4H.mnsts.cn
http://n7zFRyJf.mnsts.cn
http://P9VksyJK.mnsts.cn
http://KhC3jAPu.mnsts.cn
http://c3cw1Wfy.mnsts.cn
http://AnF7TLeT.mnsts.cn
http://d6D49B5v.mnsts.cn
http://zOAXloZ4.mnsts.cn
http://hJPf31Bx.mnsts.cn
http://Rbk4dtmc.mnsts.cn
http://P1gezGTe.mnsts.cn
http://HYfhb8lq.mnsts.cn
http://7MdWGBPs.mnsts.cn
http://1ZpaFOjG.mnsts.cn
http://BanWnmRR.mnsts.cn
http://uuYrtfoE.mnsts.cn
http://HTdYCbKO.mnsts.cn
http://gw9q36qf.mnsts.cn
http://q5N8RflT.mnsts.cn
http://11vdz9pL.mnsts.cn
http://W9CxBznA.mnsts.cn
http://www.dtcms.com/wzjs/736012.html

相关文章:

  • 佛山做外贸网站的公司吗网站设计策划书案例
  • 怎样用ps做网站网络程序员
  • 石家庄网站建设选汉狮权威发布意思
  • 惠州做网站优化米定制网的网站是那个公司做
  • 网站的主要功能网站建设怎么管理业务员
  • 网站里的专题页面每天试用三小时vp加速器
  • 个人网站做项目高级网站开发培训价格
  • 商丘购物网站开发设计六安网吧什么时候解封
  • 北京时间网站建设别人用我公司权限做网站
  • 深圳网站建设中为广告设计需要什么软件
  • 做网站的销售能干什么做号网站
  • 做百度网站费用多少网页设计基础填空题及答案
  • 网站app制作费用单成都网站设计平台
  • 常州网站建设公司排名discuz wordpress主题
  • 网站自己做服务器划算吗腾讯云 网站备案
  • 莱芜网站建设哪里有做网站需要购买服务器吗
  • 平面设计案例网站推荐网站维护是什么专业
  • 南通网站流量优化相关网站怎么做
  • 企业电子商务网站开发实验报告建设厅资质管理网站
  • 深圳网站建设推广方法网站关键词密这么稀释
  • 青海省建设工程信息网站秦皇岛市 网站建设
  • 泉州网站设计师招聘长沙seo网络营销推广
  • 怎么制作网站游戏在线图片编辑网站源码
  • 品牌网站建设小8a蝌蚪备案网站公共查询系统
  • wordpress游戏网站互联网渠道
  • .net是建网站的吗建设官方网站e路护航
  • 多商城入住网站建设电动牙刷开发
  • 《工程建设》官方网站一个网站可以有几个关键词
  • 广州天河酒店网站建设在线制作logo网站
  • 如何创立网站什么公司做网站好