当前位置: 首页 > wzjs >正文

如东网站建设WORDPRESS添加全屏幻灯片

如东网站建设,WORDPRESS添加全屏幻灯片,创建网站的流程有哪些,wordpress服务器文章目录准备工作删除缺失值 > 3 的数据删除星级、评论数、评分中任意字段为空的数据删除非法数据hotel_data.csv通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据准备工作 搭建 hadoop 伪分布或 hadoop 完全分布上传 hotal_data.csv 文件到 hadoopidea 配置…

文章目录

    • 准备工作
    • 删除缺失值 >= 3 的数据
    • 删除星级、评论数、评分中任意字段为空的数据
    • 删除非法数据
    • hotel_data.csv

通过编写Spark程序清洗酒店数据里的缺失数据、非法数据、重复数据

准备工作

  1. 搭建 hadoop 伪分布或 hadoop 完全分布
  2. 上传 hotal_data.csv 文件到 hadoop
  3. idea 配置好 scala 环境

删除缺失值 >= 3 的数据

  1. 读取 /hotel_data.csv
  2. 删除缺失值 >= 3 的数据, 打印剔除的数量
  3. 将清洗后的数据保存为/hotelsparktask1
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo01 {def main(args: Array[String]): Unit = {// System.setProperty("HADOOP_USER_NAME", "root")//解决保存文件权限不够的问题val config: SparkConf = new SparkConf().setMaster("local[1]").setAppName("1")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/file3_1/hotel_data.csv"val data: RDD[Array[String]] = sc.textFile(filePath).map(_.split(",")).cache()val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter(_.count(_.equals("NULL")) <= 3)println("删除的数据条目有: " + (total - dataDrop.count()))dataDrop.map(_.mkString(",")).saveAsTextFile(hdfsUrl+ "/hotelsparktask1")sc.stop()}
}

删除星级、评论数、评分中任意字段为空的数据

  1. 读取 /hotel_data.csv
  2. 将字段{星级、评论数、评分}中任意字段为空的数据删除, 打印剔除的数量
  3. 保存 /hotelsparktask2
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo02 {def main(args: Array[String]): Unit = {System.setProperty("HADOOP_USER_NAME", "root")val config: SparkConf = new SparkConf().setMaster("local[1]").setAppName("2")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/file3_1/hotel_data.csv"val data: RDD[Array[String]] = sc.textFile(filePath).map(_.split(",")).cache()val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter {arr: Array[String] =>!(arr(6).equals("NULL") || arr(10).equals("NULL") || arr(11).equals("NULL"))}println("删除的数据条目有: " + (total - dataDrop.count()))dataDrop.map(_.mkString(",")).saveAsTextFile(hdfsUrl+ "/hotelsparktask2")sc.stop()}
}

删除非法数据

  1. 读取第一题的 /hotelsparktask1
  2. 剔除数据集中评分和星级字段的非法数据,合法数据是评分[0,5]的实数,星级是指星级字段内容中包含 NULL、二星、三星、四星、五星的数据
  3. 剔除数据集中的重复数据
  4. 分别打印 删除含有非法评分、星级以及重复的数据条目数
  5. 保存 /hotelsparktask3
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object Demo03 {def main(args: Array[String]): Unit = {System.setProperty("HADOOP_USER_NAME", "root")//解决权限问题val config: SparkConf = new SparkConf().setMaster(  "local[1]").setAppName("3")val sc = new SparkContext(config)val hdfsUrl ="hdfs://192.168.226.129:9000"val filePath: String = hdfsUrl+"/hotelsparktask1"val lines: RDD[String] = sc.textFile(filePath).cache()val data: RDD[Array[String]] = lines.map(_.split(","))val total: Long = data.count()val dataDrop: RDD[Array[String]] = data.filter {arr: Array[String] =>try {(arr(10).toDouble >= 0) && (arr(10).toDouble <= 5)} catch {case _: Exception => false}}val lab = Array("NULL", "一星", "二星", "三星", "四星", "五星")val dataDrop1: RDD[Array[String]] = data.filter { arr: Array[String] =>var flag = falsefor (elem <- lab) {if (arr(6).contains(elem)) {flag = true}}flag}val dataDrop2: RDD[String] = lines.distinctprintln("删除的非法评分数据条目有: " + (total - dataDrop.count()))println("删除的非法星级数据条目有: " + (total - dataDrop1.count()))println("删除重复数据条目有: " + (total - dataDrop2.count()))val wordsRdd: RDD[Array[String]] = lines.distinct.map(_.split(",")).filter {arr: Array[String] =>try {(arr(10).toDouble >= 0) && (arr(10).toDouble <= 5)} catch {case _: Exception => false}}.filter { arr: Array[String] =>var flag = falsefor (elem <- lab) {if (arr(6).contains(elem)) {flag = true}}flag}wordsRdd.map(_.mkString(",")).saveAsTextFile(hdfsUrl + "/hotelsparktask3")sc.stop()}
}

hotel_data.csv

下载数据:https://download.csdn.net/download/weixin_44018458/87437211


文章转载自:

http://BrlBo2NU.dqzcf.cn
http://uH8LRvnW.dqzcf.cn
http://ODvnAzrj.dqzcf.cn
http://gUaQYjHP.dqzcf.cn
http://0G3AIde5.dqzcf.cn
http://nvBe6Puo.dqzcf.cn
http://jOFfhQmC.dqzcf.cn
http://eQGjn9ll.dqzcf.cn
http://KmoumOnX.dqzcf.cn
http://ONRH0pyj.dqzcf.cn
http://7Wz3OgtQ.dqzcf.cn
http://FAZrbZme.dqzcf.cn
http://0hdC5Pys.dqzcf.cn
http://QiNMjaqi.dqzcf.cn
http://iOxxrKpz.dqzcf.cn
http://0o2gH7mZ.dqzcf.cn
http://zKiCWavG.dqzcf.cn
http://FcTurpLl.dqzcf.cn
http://XUku6MQZ.dqzcf.cn
http://REfrVjLK.dqzcf.cn
http://sce3q2S3.dqzcf.cn
http://LXfxi7My.dqzcf.cn
http://hzAePS2Z.dqzcf.cn
http://TiyFcbPv.dqzcf.cn
http://74YMbKl2.dqzcf.cn
http://RNpNc0cG.dqzcf.cn
http://fjdx16GJ.dqzcf.cn
http://j293o2dH.dqzcf.cn
http://yja2RRAV.dqzcf.cn
http://5rApnYxn.dqzcf.cn
http://www.dtcms.com/wzjs/690127.html

相关文章:

  • 建设京东物流网站的目标是什么做室内意向图的网站
  • 网站制作洋网络电销系统线路
  • 贵阳百度公司建网站电话访问 wordpress
  • 怎么做买东西的网站免费发布软文广告推广平台
  • 用nas做网站服务器陕西网站建设优化技术
  • 欧美男女直接做的视频网站网站建设在哪里
  • 网站公司开发哪有个人免费云服务器
  • 做营销的有那么网站网站基本要素
  • 单页网站技术wordpress字体编辑插件下载
  • 建立网站站点的过程怎么简化Wordpress欢迎页面
  • 做自己的网站可以赚钱吗北京做网站好的网站建设公司
  • 建邺区住房 建设 网站企业名录搜索网站
  • 企业网站的劣势大学生创新创业大赛ppt
  • 免费行情软件网站大全网页版昆明做网站建设怎么样
  • qq教程网站源码网站开发公司宣传语
  • 郑州修了你官方网站酒泉网站建设费用
  • wordpress可视化建站wordpress表单修改
  • 图片背景在网站建设中小米手机做网站服务器吗
  • 东莞住房和城乡建设厅网站公司彩页设计制作
  • 房产销售网站开发文档手游传奇发布网站999
  • 门户网站是什么wordpress维护费用
  • 建站快车产品介绍网站网站怎么定位
  • 自己有服务器怎么做网站网站如何看是哪家公司做的
  • 公司网站的服务器wordpress 3.8.1 中文
  • 网站数据库空间大小哈尔滨做网站建设
  • 自己做网站投放有流量么百度短网址生成器
  • 单位网站建设要记入无形资产吗app开发定制软件公司
  • 郑州工程建设信息网站网站定位分析
  • 凡科建设网站安全吗加速网站的加速器
  • 湘西建网站饭店品牌建设