当前位置：首页 > news >正文

MapReduce架构-打包运行

news 2025/11/5 17:43:43

（一）maven打包

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序（例如：jar包），并发运行在一个Hadoop集群上。

在pom.xml中，补充如下配置，它用来设置打包的java 版本。

打包成功之后的效果如下：

（二）设置编译版本

我们集群上安装的java环境是1.8的，那么我们生成的代码也必须是这个版本的，否则，就会无法运行。

关于java版本的说明如下：

在 Java 7 之前，Java 的版本命名一直是 1.x 的形式，例如 1.6、1.7。从 Java 7 开始，为了简化版本号的表示，Oracle 开始采用新的命名方式，将 1.x 改为 x。所以Java 8 和 1.8 是同一个版本，只是命名方式不同。

从 Java 9 开始，版本号的命名方式完全统一为 x，例如 Java 9、Java 11、Java 17 等，不再使用 1.x 的形式。

如果你看到 Java 8 或 1.8，它们指的是同一个版本，没有任何区别。

（三）修改代码，设置执行环境和文件路径

我们集群上安装的java环境是1.8的，那么我们生成的代码也必须是这个版本的，否则，就会无法运行。

打开代码，找到driver类，并修改如下：

conf.set("fs.defaultFS", "hdfs://hadoop100:8020"); // 新增加一句

FileInputFormat.setInputPaths(job, new Path("/wcinput")); // 修改
FileOutputFormat.setOutputPath(job, new Path("/output1"));

确保集群中有/wcinput目录，并且下面有记事本文件中的单词。

确保集群中没有output1这个目录，因为它应该是要被动态创建出来的。

（四）上传到节点运行

使用finalshell上到任意节点，例如hadoop100上的/opt下，。

然后通过命令来执行执行WordCount程序，注意要写Driver类的全名

$ hadoop jar /opt/wc.jarcom.root.mapreduce.wordcount.WordCountDriver

运行结束之后，在ui中查看yarn运行效果。

第二课时

（五）修改执行参数

在上面的代码中，我们的程序只能完成固定目录下的功能。现在希望它能处理不同的目录。

修改代码，让程序能指定要执行的输入目录和要保存结果的输出目录。

修改driver类的代码，更新输入和输入路径。

// 6. 设置输入和输出路径
        路径为程序的第一个参数，第二个参数
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

这里的args[0]和args[1]是程序运行时的两个参数。

改完代码之后，要重新打包，并上传到某台节点上运行。

查看全文

http://www.dtcms.com/a/176034.html

【计算机架构】RISC（精简指令集计算机）架构

powershell批处理——io校验

iOS蓝牙技术实现及优化

第5讲、Transformer 编码器（Encoder）处理过程详解

mint系统详解详细解释

Materials studio计算介电常数

springboot使用阿里云OSS实现文件上传

如何理解k8s中的controller

技术视界 | 青龙机器人训练地形详解（一）：如何创建一个地形

探索 C++ 语言标准演进：从 C++23 到 C++26 的飞跃

【FreeRTOS-消息队列】

阿里云服务器-centos部署定时同步数据库数据-dbswitch

Microsoft Azure 在印度尼西亚区域正式上线

三菱 FX 系列 PLC 转网口模块SG-FX-210

英伟达开源Llama-Nemotron系列模型：14万H100小时训练细节全解析

centos8.5.2111安装python3.11.12

华为昇腾在智慧矿山机器人的应用及其技术解决方案

Milvus（16）：索引解释

ROS-仿真实验平台

【PostgreSQL数据分析实战：从数据清洗到可视化全流程】8.1 基础图表绘制（折线图/柱状图/散点图）

手动写一个vuex的可持续化插件

html css js网页制作成品——HTML+CSS珠海网页设计网页设计（4页）附源码

基于RT-Thread的STM32G4开发第二讲第二篇——ADC

MCU怎么运行深度学习模型

TB6600HG是一款PWM（脉宽调制）斩波型单芯片双极性正弦波微步进电机驱动集成电路。

如何让大脑保持长时间清醒状态

阿维塔汽车CAN总线数据适配技术解析与免破线数据采集实践

创建需求跟踪矩阵5大常见步骤（附注意事项）

浏览器跨标签通信的实现原理

小数的二进制表示

相关文章：