当前位置: 首页 > wzjs >正文

淘宝客网站用什么软件做网站制作公司怎么找

淘宝客网站用什么软件做,网站制作公司怎么找,网站广告销售怎们做,网站建设公司新报价(一)Shuffle MapReduce中的Shuffle过程指的是在Map方法执行后、Reduce方法执行前对数据进行分区排序的阶段 (二)处理流程 1. 首先MapReduce会将处理的数据集划分成多个split,split划分是逻辑上进行划分,…

(一)Shuffle

MapReduce中的Shuffle过程指的是在Map方法执行后、Reduce方法执行前对数据进行分区排序的阶段

(二)处理流程

1. 首先MapReduce会将处理的数据集划分成多个split,split划分是逻辑上进行划分,而非物理上的切分,每个split默认与Block块大小相同,每个split由1个map task进行处理


2. map task以为单位读取split中的数据,将数据转换成K,V格式数据,调用一次map方法执行处理逻辑。Map Task处理完的数据首先写入到默认100M的环形缓冲区,当环形缓冲区中的空间被使用到80%时数据会发生溢写。

溢写的数据会经过分区、快速排序形成小文件数据。(根据Key计算出本条数据应该写出的分区号,最终在内部得到(K,V,P)格式数据 写入到当前map task 所在的物理节点磁盘,便于后续reduce task的处理)


3. 为了避免每条数据都产生一次IO,根据split大小不同,可能会发生多次溢写磁盘过程


4. 每次溢写磁盘时会对数据进行二次排序:按照数据(K,V,P)中的P(分区)进行排序并在每个P(分区)中按照K进行排序,这样能保证相同的分区数据放在一起并能保证每个分区内的数据按照key有序。


5. 最终多次溢写的磁盘文件(多个小文件) 数据会根据归并排序算法合并成一个完整的磁盘文件,此刻,该磁盘文件特点是分区有序且分区内部数据按照key有序


6. Reduce端每个Reduce task会从每个map task所在的节点上拷贝落地的磁盘文件对应的分区数据,对于每个Reduce task来说,从各个节点上拉取到多个分区数据后,每个分区内的数据按照key分组有序,但是总体来看这些分区文件中key数据不是全局有序状态(分区数据内部有序,外部无序)。


7. 每个Reduce task需要再通过一次归并排序,将拷贝过来的所有同一分区数据进行merge,这样每个分区内的数据变成分区内按照key有序状态,然后通过Reduce task处理将结果写出。

(三)HASH分区算法

MapReduce处理数据过程中,map端将数据转换成K,V格式数据并写入对应的分区,根据key进行hashcode取值然后与Reduce Task个数取模得到该条数据写出的分区号。

public class HashPartitioner<K, V> extends Partitioner<K, V> {/** Use {@link Object#hashCode()} to partition. */public int getPartition(K key, V value, int numReduceTasks) {return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;}}
  • hashCode值可能是负数,为了保证key的hashCode非负,所以使用key.hashCode() & Integer.MAX_VALUE 按位与操作
  •  Map端写入的分区数默认与Reduce task个数相等

(四)压缩

在MapReduce中,压缩是一项常见的优化技术,用于减少数据在存储和传输过程中所占用的空间。通过对输入、中间和输出数据进行压缩,可以有效降低存储成本、减少网络传输开销。


•  压缩比率对比: bzip2 > gzip > snappy > lzo > lz4,bzip2压缩比可以达到8:1;gzip压缩比可以达到5比1;lzo可以达到3:1。
• 压缩性能对比:lz4 > lzo > snappy > gzip>bzip2 ,lzo压缩速度可达约50M/s,解压速度可达约70M/s;gzip速度约为20M/s,解压速度约为60M/s;bzip2压缩速度约为2.5M/s,解压速度约为9.5M/s。

http://www.dtcms.com/wzjs/461163.html

相关文章:

  • 一级a做爰片免费网站瑜伽竞价软件哪个好
  • 两学一做专题教育网站公司网站营销
  • 网站建设案例代理商社群营销的方法和技巧
  • 免费营销软件网站建设站长字体
  • 溧阳市住房和城乡建设局网站百度统计数据分析
  • 医疗器械公司湖南关键词优化排名推广
  • 58网站开发要多少钱阿里指数怎么没有了
  • 一定要用c 做网站吗苏州首页关键词优化
  • 创业过程中网站建设灰色行业推广渠道
  • 网站开发 哪些文档网络营销师工作内容
  • 河南郑州哪里可以做公司网站网站运营培训
  • 天水营销型网站建设网页设计制作网站素材
  • 广州免费孕检seo怎么优化关键词排名
  • 网站微信支付申请流程搜索引擎优化入门
  • 网站域名如何备案信息怎么建立一个网站
  • 地方网站优势企业建站公司热线电话
  • 镜像网站做优化网络推广专家
  • 老薛主机做两个网站优秀网页设计
  • 哪些网站可以找到兼职做报表的千锋培训学费多少钱
  • wordpress手机端插件下载河南seo优化
  • 疫情最新数据消息广西网络优化工程师简历
  • 做dj网站用什么建站系统比较好汕头网站建设方案优化
  • 个人做电商网站icp疫情最新数据
  • 万年历网站做百度商家
  • 做日本外贸网站有哪些资料申请网站域名要多少钱
  • 道滘镇网站建设公司重大新闻事件
  • 微信公众号里的网站怎么做的游戏加盟
  • 网站套餐宣传网站站点最有效的方式是
  • wordpress哪些插件厦门seo排名扣费
  • 访问国外网站速度慢重庆网站seo诊断