当前位置: 首页 > wzjs >正文

兰州网站建设公司泉州网站建设培训机构

兰州网站建设公司,泉州网站建设培训机构,京东商城网站的搜索引擎营销做的案例分析,wordpress主题ent破解版文章目录准备工作删除缺失值 > 3 的数据删除星级、评论数、评分中任意字段为空的数据删除非法数据hotel_data.csv通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据准备工作 搭建 hadoop 伪分布或 hadoop 完全分布上传 hotal_data.csv 文件到 hadoopidea 配置…

文章目录

    • 准备工作
    • 删除缺失值 >= 3 的数据
    • 删除星级、评论数、评分中任意字段为空的数据
    • 删除非法数据
    • hotel_data.csv

通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据

准备工作

  1. 搭建 hadoop 伪分布或 hadoop 完全分布
  2. 上传 hotal_data.csv 文件到 hadoop
  3. idea 配置好 scala 环境

删除缺失值 >= 3 的数据

  1. 读取 /hotel_data.csv
  2. 删除缺失值 >= 3 的数据, 打印剔除的数量
  3. 将清洗后的数据保存为/hotelsparktask1
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo01 {def main(args: Array[String]): Unit = {// System.setProperty("HADOOP_USER_NAME", "root")//解决保存文件权限不够的问题val config: SparkConf = new SparkConf().setMaster("local[1]").setAppName("1")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/file3_1/hotel_data.csv"val data: RDD[Array[String]] = sc.textFile(filePath).map(_.split(",")).cache()val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter(_.count(_.equals("NULL")) <= 3)println("删除的数据条目有: " + (total - dataDrop.count()))dataDrop.map(_.mkString(",")).saveAsTextFile(hdfsUrl+ "/hotelsparktask1")sc.stop()}
}

删除星级、评论数、评分中任意字段为空的数据

  1. 读取 /hotel_data.csv
  2. 将字段{星级、评论数、评分}中任意字段为空的数据删除, 打印剔除的数量
  3. 保存 /hotelsparktask2
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo02 {def main(args: Array[String]): Unit = {System.setProperty("HADOOP_USER_NAME", "root")val config: SparkConf = new SparkConf().setMaster("local[1]").setAppName("2")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/file3_1/hotel_data.csv"val data: RDD[Array[String]] = sc.textFile(filePath).map(_.split(",")).cache()val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter {arr: Array[String] =>!(arr(6).equals("NULL") || arr(10).equals("NULL") || arr(11).equals("NULL"))}println("删除的数据条目有: " + (total - dataDrop.count()))dataDrop.map(_.mkString(",")).saveAsTextFile(hdfsUrl+ "/hotelsparktask2")sc.stop()}
}

删除非法数据

  1. 读取第一题的 /hotelsparktask1
  2. 剔除数据集中评分和星级字段的非法数据,合法数据是评分[0,5]的实数,星级是指星级字段内容中包含 NULL、二星、三星、四星、五星的数据
  3. 剔除数据集中的重复数据
  4. 分别打印 删除含有非法评分、星级以及重复的数据条目数
  5. 保存 /hotelsparktask3
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo03 {def main(args: Array[String]): Unit = {System.setProperty("HADOOP_USER_NAME", "root")//解决权限问题val config: SparkConf = new SparkConf().setMaster(  "local[1]").setAppName("3")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/hotelsparktask1"val lines: RDD[String] = sc.textFile(filePath).cache()val data: RDD[Array[String]] = lines.map(_.split(","))val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter {arr: Array[String] =>try {(arr(10).toDouble >= 0) && (arr(10).toDouble <= 5)} catch {case _: Exception => false}}val lab = Array("NULL", "一星", "二星", "三星", "四星", "五星")val dataDrop1: RDD[Array[String]] = data.filter { arr: Array[String] =>var flag = falsefor (elem <- lab) {if (arr(6).contains(elem)) {flag = true}}flag}val dataDrop2: RDD[String] = lines.distinctprintln("删除的非法评分数据条目有: " + (total - dataDrop.count()))println("删除的非法星级数据条目有: " + (total - dataDrop1.count()))println("删除重复数据条目有: " + (total - dataDrop2.count()))val wordsRdd: RDD[Array[String]] = lines.distinct.map(_.split(",")).filter {arr: Array[String] =>try {(arr(10).toDouble >= 0) && (arr(10).toDouble <= 5)} catch {case _: Exception => false}}.filter { arr: Array[String] =>var flag = falsefor (elem <- lab) {if (arr(6).contains(elem)) {flag = true}}flag}wordsRdd.map(_.mkString(",")).saveAsTextFile(hdfsUrl + "/hotelsparktask3")sc.stop()}
}

hotel_data.csv

下载数据:https://download.csdn.net/download/weixin_44018458/87437211


文章转载自:

http://N6DEJKrP.fhqnm.cn
http://mLikfc2p.fhqnm.cn
http://IIEUTvt5.fhqnm.cn
http://AkkldqCu.fhqnm.cn
http://HZNPGdv0.fhqnm.cn
http://VlpXTqMc.fhqnm.cn
http://CdeAdCFh.fhqnm.cn
http://HrMvV4ub.fhqnm.cn
http://EOHcwQ1S.fhqnm.cn
http://ecxA9xyI.fhqnm.cn
http://l2uDtXA1.fhqnm.cn
http://k5TwDHQR.fhqnm.cn
http://zk7omHeH.fhqnm.cn
http://J7I78g4e.fhqnm.cn
http://cCXuMPNc.fhqnm.cn
http://LJkfBdOS.fhqnm.cn
http://henfNDW3.fhqnm.cn
http://tyjeq3o9.fhqnm.cn
http://tKkbhOkH.fhqnm.cn
http://5kZpK8dn.fhqnm.cn
http://szDBMG4f.fhqnm.cn
http://8LympRgu.fhqnm.cn
http://9GnGZFqy.fhqnm.cn
http://kXJyyE9a.fhqnm.cn
http://TfAAp653.fhqnm.cn
http://aESISTW5.fhqnm.cn
http://4qYwcf1o.fhqnm.cn
http://zGzZs1cA.fhqnm.cn
http://pQ1Iaqv4.fhqnm.cn
http://lSRol47D.fhqnm.cn
http://www.dtcms.com/wzjs/751351.html

相关文章:

  • 毕设做系统与网站wordpress火箭加速
  • 佛山网站开发招聘一个网站开发环境是什么
  • 网站设计制作开发wordpress下载服务器文件
  • 网站建设哪里好点做p2p网站
  • 白云区做网站公司海宁做网站的公司
  • 西安专业的网站优化怎样在设计网站做图赚钱
  • 注册一个网站域名一年需要多少钱装潢设计培训中心
  • 服装行业网站模板网站建设流程心得
  • 网站怎么做的有创意网站seo优化服务
  • 专用车网站建设page编辑wordpress
  • 制作手机网站什么软件下载做网站的害处
  • 门户网站用途刷关键词的平台
  • 大朗做网站在家庭办厂3一8万项目
  • 让自己的电脑做网站的服务器做网站需要哪些东西和步骤
  • 石家庄做网站的公司有哪些禅城网站开发
  • 自助建网站市场如何建设企业电子商务网站
  • 为什么做手机网站网站没备案能访问吗
  • 电商网站合作网站被篡改怎样做
  • 可以做网站的语言建设局和住建局的区别
  • .net网站开发教程html5网页设计源代码
  • 南昌网站建设公司收费网站模板素材
  • 南京网站建设中企动力如何开发wap网站
  • 有创意的婚纱网站模板下载价格营销策略案例
  • 怎么更换网站图片上海网站制作智能 乐云践新
  • 自己建网站中国施工企业管理协会
  • 宜昌市建设信息网站广告设计公司服务方案
  • 制作商城版网站开发小程序开发哪家好
  • 大连网站建设佳熙科技公司衡阳网站建设公司地址
  • 洞口建设局网站网站建设报价新鸿儒
  • 湖南省新化县建设局网站开设计公司客源哪里找