当前位置: 首页 > news >正文

湘潭网站建设 就找磐石网络wordpress大学主题教程

湘潭网站建设 就找磐石网络,wordpress大学主题教程,wordpress猫咪主题,宁波自助建站系统实验项目: 找出所有有效数据,要求电话号码为11位,但只要列中没有空值就算有效数据。 按地址分类,输出条数最多的前20个地址及其数据。 代码讲解: 导包和声明对象,设置Spark配置对象和SparkContext对象。 使用Spark S…

实验项目:

找出所有有效数据,要求电话号码为11位,但只要列中没有空值就算有效数据。 按地址分类,输出条数最多的前20个地址及其数据。

代码讲解: 导包和声明对象,设置Spark配置对象和SparkContext对象。 使用Spark SQL语言进行数据处理,包括创建数据库、数据表,导入数据文件,进行数据转换。 筛选有效数据并存储到新表中。 按地址分组并统计出现次数,排序并输出前20个地址。 代码如下 import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object Demo { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Demo") val spark = SparkSession.builder().enableHiveSupport() .config("spark.sql.warehouse.dir", "hdfs://node01:9000/user/hive/warehouse").config(sparkConf).getOrCreate() spark.sql(sqlText = "create database spark_sql_2") spark.sql(sqlText = "use spark_sql_2") //创建存放原始数据的表 spark.sql( """ |create table user_login_info(data string |row format delimited |""".stripMargin) spark.sql(sqlText = "load data local inpath 'Spark-SQL/input/user_login_info.json' into table user_login_info") //利用get_json_object将数据做转换 spark.sql( """ |create table user_login_info_1 |as |select get_json_object(data,'$.uid') as uid, |get_json_object(data,'$.phone') as phone, |get_json_object(data,'$.addr') as addr from user_login_info |""".stripMargin) spark.sql(sqlText = "select count(*) count from user_login_info_1").show() //获取有效数据 spark.sql( """ |create table user_login_info_2 |as |select * from user_login_info_1 |where uid != ' ' and phone != ' ' and addr != ' ' |""".stripMargin) spark.sql(sqlText = "select count(*) count from user_login_info_2").show() //获取前20个地址 spark.sql( """ |create table hot_addr |as |select addr,count(addr) count from user_login_info_2 |group by addr order by count desc limit 20 |""".stripMargin) spark.sql(sqlText = "select * from hot_addr").show() spark.stop() } }

 

Spark Streaming介绍 Spark Streaming概述: 用于流式计算,处理实时数据流。 支持多种数据输入源(如Kafka、Flume、Twitter、TCP套接字等)和输出存储位置(如HDFS、数据库等)。

Spark Streaming特点: 易用性:支持Java、Python、Scala等编程语言,编写实时计算程序如同编写批处理程序。 容错性:无需额外代码和配置即可恢复丢失的数据,确保实时计算的可靠性。 整合性:可以在Spark上运行,允许重复使用相关代码进行批处理,实现交互式查询操作。

Spark Streaming架构: 驱动程序(StreamingContext)处理数据并传给SparkContext。 工作节点接收和处理数据,执行任务并备份数据到其他节点。 背压机制协调数据接收能力和资源处理能力,避免数据堆积和资源浪费。 Spark Streaming实操 词频统计案例: 使用ipad工具向999端口发送数据,Spark Streaming读取端口数据并统计单词出现次数。 代码配置包括设置关键对象、接收TCP套接字数据、扁平化处理、累加相同键值对、分组统计词频。 启动和运行: 启动netpad发送数据,Spark Streaming每隔三秒收集和处理数据。 代码中没有显式关闭状态,流式计算默认持续运行,确保数据处理不间断。 DStream创建 DStream创建方式: RDD队列:通过SSC创建RDD队列,将RDD推送到队列中作为DStream处理。 自定义数据源:下节课详细讲解。

RDD队列案例: 循环创建多个RDD并推送到队列中,使用Spark Streaming处理RDD队列进行词频统计。 代码包括配置对象、创建可变队列、转换RDD为DStream、累加和分组统计词频。 代码如下 import org.apache.spark.SparkConf object WordCount { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("streaming") val ssc = new StreamingContext(sparkConf,Seconds(3)) val lineStreams = ssc.socketTextStream("node01",9999) val wordStreams = lineStreams.flatMap(_.split(" ")) val wordAndOneStreams = wordStreams.map((_,1)) val wordAndCountStreams = wordAndOneStreams.reduceByKey(_+_) wordAndCountStreams.print() ssc.start() ssc.awaitTermination() } }

 

结果展示: 展示了词频统计的结果,验证了Spark Streaming的正确性和有效性。 自定义数据源的实现 需要导入新的函数并继承现有的函数。 创建数据源时需选择class而不是object。 在class中定义on start和on stop方法,并在这些方法中实现具体的功能。 类的定义和初始化 类的定义包括数据类型的设定,如端口号和TCP名称。 使用extends关键字继承父类的方法。 数据存储类型设定为内存中保存。 数据接收和处理 在on start方法中创建新线程并调用接收数据的方法。 连接到指定的主机和端口号,创建输入流并转换为字符流。 逐行读取数据并写入到spark stream中,进行词频统计。 数据扁平化和词频统计 使用block map进行数据扁平化处理。 将原始数据转换为键值对形式,并根据相同键进行分组和累加。 输出词频统计结果。 程序终止条件 设定手动终止和程序异常时的终止条件。 在满足终止条件时输出结果并终止程序。

http://www.dtcms.com/a/568113.html

相关文章:

  • 做兼职的设计网站百度域名注册官网
  • 网上哪个网站做的系统好用吗wordpress安装后删除
  • 做网站怎么调用栏目山西省城乡住房建设厅网站
  • 网站的建设意见邯郸教育行业网站建设
  • dw做网站怎么让文字移动wordpress电商主题数据
  • 小程序网站app定制开发公司品牌logo设计商标设计
  • 个人如何建网站最近时政新闻10条
  • 上海黄浦网站建设dw做的网站乱码
  • 推广网站站群烟台房产网站建设
  • 有没有网站建设的兼职建网站有什么用
  • 网站项目需求说明书青岛专业网站建设价格
  • 洛阳网站建设网站建设备案期间关网站吗
  • 网站建设所需要的软件设计素材网站那个好
  • 苏州网站推帝国cms做淘宝客网站
  • 合肥网站开发外包宁波网站建设首选品牌
  • 徐州市云龙区建设局网站识图找图
  • 外网视频网站做泥声控华星建设集团网站
  • 代理商加盟项目网站新闻头条最新消息
  • 做房地产网站广告销售网站数据库名称怎么改
  • 自贡建设机械网站o2o网站线上
  • 江苏网站建设多少钱二级网站如何一级域名
  • 建设银行杭州分行网站丰都县网站
  • 模版营销型网站怎么做wordpress的优势
  • 上海专业网站建站公百度站长资源管理
  • 国外的网站叫什么wordpress网站同步插件
  • 莆田网站建设哪家好建设网站多少钱 郑州
  • 成都那家做网站好儋州网站设计公司
  • 做外贸网站基本流程支付公司网站建设会计分录
  • 数据库 搭建 网站番禺网站制作 优帮云
  • 国内网站设计案例wordpress网页加速