当前位置: 首页 > news >正文

Hadoop3教程(九):MapReduce框架原理概述

文章目录

  • 简介
  • 参考文献

简介

这属于整个MR中最核心的一块,后续小节会展开描述。

整个MR处理流程,是分为Map阶段和Reduce阶段。

一般,我们称Map阶段的进程是MapTask,称Reduce阶段是ReduceTask。

其完整的工作流程如图:

在这里插入图片描述

Map阶段具体的工作任务是啥呢?

1) map阶段决定,根据数据源,可以选择根据什么方式来读取数据;

默认情况下,map阶段读数据,是按行读,读取到的KV里,K是偏移量(可以理解成行数),V是这一行的内容。那map阶段是不是只能这么行读呢?

不是。

这里就要介绍一个组件,叫做InputFormat,它就是用来控制数据的读取形式。

Hadoop中的InputFormat有好几种实现,如FileInputFormat、TextInputFormat和CombineTextInputFormat等。

2) 数据在被读进来之后,就会交给Mapper来进行自定义业务逻辑的处理;

3)接着进行shuffle,这是一个非常复杂的过程,可以在这里进行排序、分区、压缩、合并等等, 堪称MapReduce中最核心的环节

最后进入reduce阶段,也有一个组件,叫做OutputFormat,用来控制数据的输出形式。同样的,它也有好几种实现,默认的OutputFormat是把数据写进文件里,那我想写进数据库里,可不可以呢?

当然可以,自定义OutputFormat就可以。

接下来的几节就会围绕这个流程做展开讲述:

  • InputFormat
  • Shuffle机制
  • OutputFormat
  • Join应用

参考文献

  1. 【尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放】

相关文章:

  • Web自动化测试入门 : 前端页面的组成分析详解
  • 《机器学习》第5章 神经网络
  • python selenium下载一个合适的chromedriver.exe(稳定版本)
  • 【数据结构】:二叉树与堆排序的实现
  • acwing算法基础之基础算法--整数离散化算法
  • vue打包压缩
  • Go语言入门心法(三): 接口
  • 端到端的机器学习项目(Machine Learning 研习之六)
  • 深入了解 JavaScript 中的构造函数和对象创建
  • 最新ai创作系统CHATGPT系统源码+支持GPT4.0+支持ai绘画(Midjourney)
  • 海康威视、大华、宇视rtsp实时读取网络摄像头
  • c++string类的赋值问题
  • Android Handler/Looper视角看UI线程的原理
  • 1.12.C++项目:仿muduo库实现并发服务器之LoopThreadPool模块的设计
  • PCL点云处理之从两片点云中获取具有匹配关系的同名点对 (二百一十八)
  • 【音视频|ALSA】SS528开发板编译Linux内核ALSA驱动、移植alsa-lib、采集与播放usb耳机声音
  • vsc连接wsl安装vsc时遇到权限问题的解决方案
  • 如何使用ChatPPT生成PPT文档
  • SpringCloud-Gateway
  • LENOVO联想笔记本小新 Pro-14 2021AMD处理器ACH版(82MS)原厂Win10系统
  • 追光|铁皮房、土操场,这有一座“筑梦”摔跤馆
  • 习近平同俄罗斯总统普京会谈
  • 现场丨“影像上海”启幕:串联摄影、电影与当代艺术
  • 中国海警依法驱离日非法进入我钓鱼岛领海船只
  • 两部门发布外汇领域行刑反向衔接案例,织密金融安全“防护网”
  • 首家股份行旗下AIC来了,兴银金融资产投资有限公司获批筹建