当前位置: 首页 > wzjs >正文

做网站的优势有哪些西安seo外包行者seo06

做网站的优势有哪些,西安seo外包行者seo06,响应式衣柜网站,全球排名前十网站一.有状态转化操作 1. UpdateStateByKey UpdateStateByKey 原语用于记录历史记录,有时,我们需要在 DStream 中跨批次维护状态(例如流计算中累加 wordcount)。针对这种情况,updateStateByKey()为我们提供了对一个状态变量的访问&…

一.有状态转化操作

1. UpdateStateByKey

UpdateStateByKey 原语用于记录历史记录,有时,我们需要在 DStream 中跨批次维护状态(例如流计算中累加 wordcount)。针对这种情况,updateStateByKey()为我们提供了对一个状态变量的访问,用于键值对形式的 DStream。给定一个由(键,事件)对构成的 DStream,并传递一个指定如何根据新的事件更新每个键对应状态的函数,它可以构建出一个新的 DStream,其内部数据为(键,状态) 对。

updateStateByKey() 的结果会是一个新的 DStream,其内部的 RDD 序列是由每个时间区间对应的(键,状态)对组成的。

updateStateByKey 操作使得我们可以在用新信息进行更新时保持任意的状态。为使用这个功能,需要做下面两步:

1. 定义状态,状态可以是一个任意的数据类型。

2. 定义状态更新函数,用此函数阐明如何使用之前的状态和来自输入流的新值对状态进行更新。

使用 updateStateByKey 需要对检查点目录进行配置,会使用检查点来保存状态。

val updateFunc = (values:Seq[Int],state:Option[Int])=>{

  val currentCount = values.foldLeft(0)(_+_)

  val previousCount = state.getOrElse(0)

  Some(currentCount+previousCount)

}

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("update")

val ssc = new StreamingContext(sparkConf,Seconds(5))

ssc.checkpoint("./ck")

 

val lines = ssc.socketTextStream("node01",9999)

val words = lines.flatMap(_.split(" "))

val pairs = words.map((_,1))

val stateDStream = pairs.updateStateByKey[Int](updateFunc)

stateDStream.print()

 

ssc.start()

ssc.awaitTermination()

 

2.WindowOperations

Window Operations 可以设置窗口的大小和滑动窗口的间隔来动态的获取当前 Steaming 的允许状态。所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长。

窗口时长:计算内容的时间范围;

滑动步长:隔多久触发一次计算。

注意:这两者都必须为采集周期大小的整数倍。

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("window")

val ssc = new StreamingContext(sparkConf,Seconds(3))

ssc.checkpoint("./ck")

 

val lines = ssc.socketTextStream("node01",9999)

val words = lines.flatMap(_.split(" "))

val pairs = words.map((_,1))

val wordCounts = pairs.reduceByKeyAndWindow((a:Int,b:Int)=>(a+b),Seconds(12),Seconds(6))

wordCounts.print()

 

ssc.start()

ssc.awaitTermination()

3.DStream输出

输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。与 RDD 中的惰性求值类似,如果一个 DStream 及其派生出的 DStream 都没有被执行输出操作,那么这些 DStream 就都不会被求值。如果 StreamingContext 中没有设定输出操作,整个 context 就都不会启动。

输出操作如下:

print():在运行流程序的驱动结点上打印 DStream 中每一批次数据的最开始 10 个元素。这用于开发和调试。

saveAsTextFiles(prefix, [suffix]):以 text 文件形式存储这个 DStream 的内容。每一批次的存储文件名基于参数中的 prefix 和 suffix。”prefix-Time_IN_MS[.suffix]”。

saveAsObjectFiles(prefix, [suffix]):以 Java 对象序列化的方式将 Stream 中的数据保存为SequenceFiles . 每一批次的存储文件名基于参数中的为"prefix-TIME_IN_MS[.suffix]". 

saveAsHadoopFiles(prefix, [suffix]):将 Stream 中的数据保存为 Hadoop files. 每一批次的存储文件名基于参数中的为"prefix-TIME_IN_MS[.suffix]"。

foreachRDD(func):这是最通用的输出操作,即将函数 func 用于产生于 stream 的每一个RDD。其中参数传入的函数 func 应该实现将每一个 RDD 中数据推送到外部系统,如将

RDD 存入文件或者通过网络将其写入数据库。

通用的输出操作 foreachRDD(),它用来对 DStream 中的 RDD 运行任意计算。这和 transform() 有些类似,都可以让我们访问任意 RDD。在 foreachRDD()中,可以重用我们在 Spark 中实现的所有行动操作。比如,常见的用例之一是把数据写到诸如 MySQL 的外部数据库中。

注意:

1) 连接不能写在 driver 层面(序列化)

2) 如果写在 foreach 则每个 RDD 中的每一条数据都创建,得不偿失;

3) 增加 foreachPartition,在分区创建(获取)。

 

http://www.dtcms.com/wzjs/177316.html

相关文章:

  • wordpress整合百度站内搜索域名检测工具
  • 浙江新地标建设集团网站网络营销案例100例
  • 重庆巴南区网站建设网站seo排名免费咨询
  • 四川省住房和城乡建设厅网站永久8x的最新域名
  • 上街区网站建设优化网站排名的方法
  • 网站建设公司擅自关闭客户网络自己怎么制作网页
  • 西安网站挂标电商网站制作
  • 怎样建网站赚钱成都网站推广哪家专业
  • 网站制作协议宁德市住房和城乡建设局
  • 什么样的网站才是好网站seo新手教程
  • 莘县网站开发优化营商环境心得体会个人
  • 网站有什么阿里域名注册官网
  • 网站制作专业的公司哪家好企业网站托管
  • 湖北省建设工程网站网站seo关键词优化技巧
  • 如何 套用模板做网站百度一下官网搜索引擎
  • 广州购物网站建设互联网推广是什么工作内容
  • 开发建设网站百度排名点击软件
  • 网站制作中心域名注册平台哪个好
  • 抖音优化排名吉安seo
  • 给小孩做辅食的网站排名优化哪家好
  • 乡镇中心小学校园网站建设指南促销方案
  • 真正免费申请一级域名成都seo优化公司
  • 外包网站建设公司网站前期推广
  • 深圳市南山区做网站的小公司农业推广
  • 昆山玉山网站建设seo百度快速排名
  • 网站建设 上海网站今日的最新新闻
  • 西安营销型网站制作价格石家庄头条今日头条新闻
  • 做盗版网站 国外服务器seo公司上海牛巨微
  • 建设官方网站e路护航成都最新疫情
  • 网站后台无法更新缓存石家庄百度搜索引擎优化