当前位置: 首页 > wzjs >正文

建站公司有哪些服务营销战略

建站公司有哪些服务,营销战略,wordpress get_the_date,做网站增加流量Key-Value类型: foldByKey 当分区内计算规则和分区间计算规则相同时,aggregateByKey 就可以简化为 foldByKey combineByKey 最通用的对 key-value 型 rdd 进行聚集操作的聚集函数(aggregation function)。类似于aggregate()&…

Key-Value类型:

foldByKey

        当分区内计算规则和分区间计算规则相同时,aggregateByKey 就可以简化为 foldByKey

 

combineByKey

        最通用的对 key-value 型 rdd 进行聚集操作的聚集函数(aggregation function)。类似于aggregate(),combineByKey()允许用户返回值的类型与输入不一致。

        示例:现有数据 List(("a", 88), ("b", 95), ("a", 91), ("b", 93), ("a", 95), ("b", 98)),求每个key的总值及每个key对应键值对的个数

reduceByKey、foldByKey、aggregateByKey、combineByKey 的区别:

        reduceByKey: 相同 key 的第一个数据不进行任何计算,分区内和分区间计算规则相同

        FoldByKey: 每一个key 对应的数据和初始值进行分区内计算,分区内和分区间计算规则相同

        AggregateByKey:每一个 key 对应的数据和初始值进行分区内计算,分区内和分区间计算规则可以不相同

        CombineByKey:当计算时,发现数据结构不满足要求时,可以让第一个数据转换结构。分区

内和分区间计算规则不相同。

 

sortByKey

根据键值对中的键进行排序,支持升序和降序排列。(布尔值决定升序(true)或降序(false)。)

 

join

        join操作:返回两个RDD中相同键对应的所有元素连接在一起,结果以键开头,右边是嵌套的值。

 

leftOuterJoin

类似于 SQL 语句的左外连接

左外连接和右外连接:

        leftOuterJoin操作:类似于SQL中的左外连接,以元RDD为主。
        rightOuterJoin操作:类似于SQL中的右外连接,以参数RDD为主。

 

cogroup

        在类型为(K,V)和(K,W)的 RDD 上调用,返回一个(K,(Iterable<V>,Iterable<W>))类型的 RDD

 

RDD行动算子

        行动算子就是会触发action的算子,触发action的含义就是真正的计算数据。

转换算子与行动算子的区别:

转换算子:不立即执行,只有在遇到行动算子时才会触发计算。

行动算子:立即执行计算,返回具体值或触发实际的计算过程

 

reduce

        聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据

 

 collect

        函数签名

                def collect(): Array[T]

        函数说明

                在驱动程序中,以数组 Array 的形式返回数据集的所有元素

 

foreach

        分布式遍历 RDD 中的每一个元素,调用指定函数

 

count

        返回 RDD 中元素的个数

 

first

        返回 RDD 中的第一个元素

 

take

        返回一个由 RDD 的前 n 个元素组成的数组

 

takeOrdered

        返回该 RDD 排序后的前 n 个元素组成的数组

 

aggregate

        分区的数据通过初始值和分区内的数据进行聚合,然后再和初始值进行分区间的数据聚合

如果图片中rdd中numSlices那个地方不写数字的话,是根据CPU来算的,如下图所示

        (分区计算与CPU核数的关系。
                通过任务管理器查看CPU核数,并以此为基础进行分区计算。)

 

fold

        折叠操作,aggregate 的简化版操作

 

countByKey

        统计每种 key 的个数

 

save 相关算子

        将数据保存到不同格式的文件中

 

Spark的三大数据结构

1. RDD

        转换算子和行动算子

2.累加器

        用于将executor端的变量信息聚合到driver端。

        每个task得到变量副本并更新,传回driver端。

        展示了相关代码,强调可自定义创建和调用。

3.广播变量        

        用于高效分发较大只读值。

        是只读变量,在多个并行操作中使用同一变量。

        展示了与RDD进行数据关联操作的代码

 

http://www.dtcms.com/wzjs/491306.html

相关文章:

  • 龙岗网站设计案例seo培训网
  • 安徽网站开发项目和业务多一样的平台
  • 丹东网站制作小程序seo
  • 网站建设山东聚搜网络一xseo网络推广培训班
  • 爬黄山旅游攻略游览路线上海关键词优化按天计费
  • 自己买空间做网站怎么推广销售
  • 南冒网站建设制作推广公司企业网站营销优缺点
  • 东莞做网站的长沙网站seo方法
  • 北京市城乡和建设规委官方网站百度竞价项目
  • wordpress ie兼容插件优化网站的目的
  • 网站怎么做认证东营网站建设哪家更好
  • 为什么要给大夫做网站seo查询平台
  • 网站编辑怎么赚钱百度推广账户怎么开
  • 织梦的网站数据还原怎么做百度网盘怎么提取别人资源
  • 企业管理培训课程班德州seo整站优化
  • 网站开发+演讲网络营销推广专员
  • 上海公司法人变更seo快速排名点击
  • 微商城网站建设新闻网络营销咨询服务
  • 吴桥网站建设价格最近军事新闻热点大事件
  • 国家对地理信息网站建设的重视推广链接点击器app
  • 网站申请腾讯绿标认证yande搜索引擎官网入口
  • 网站开发日志模版cps广告联盟
  • 网站商城开发磁力搜索器 磁力猫
  • 51建模网官方网站百度新版本更新下载
  • 玉环做网站有哪些发稿媒体平台
  • 网站建设怎么赚钱360外链
  • 做门户网站需要具备什么苏州关键词排名提升
  • asp漂亮的个人网站模板星乐seo网站关键词排名优化
  • 吉安做网站中国关键词
  • 做模板网站赚钱吗影视后期哪个培训靠谱