当前位置: 首页 > news >正文

Hadoop Windows客户端配置与实践指南

目录

第1步:准备Hadoop Windows安装包

第2步:获取并放置集群配置文件

第3步:配置Windows环境变量

第4步:解决Windows本地依赖问题

第5步:验证配置

四、 实践操作:使用客户端

1. 操作HDFS

2. 提交MapReduce作业


第1步:准备Hadoop Windows安装包
  1. 从老师提供的地址或上述GitHub仓库下载与你集群版本一致的Hadoop Windows包(例如:hadoop-3.3.0)。

  2. 将其解压到一个没有中文和空格的目录下,例如:D:\BigData\hadoop-3.3.0。这个目录就是你的 HADOOP_HOME

第2步:获取并放置集群配置文件
  1. 从老师那里获取集群的四个核心配置文件:

    • core-site.xml (包含NameNode地址)

    • hdfs-site.xml (包含HDFS副本数等配置)

    • yarn-site.xml (包含ResourceManager地址)

    • mapred-site.xml (包含MapReduce框架配置)

  2. 用这些文件覆盖你本地HADOOP_HOME\etc\hadoop\目录下的同名文件。

    • 例如,覆盖 D:\BigData\hadoop-3.3.0\etc\hadoop\ 下的文件。

    为什么? 这样你的客户端才知道NameNode、ResourceManager等关键服务在哪里,才能正确连接到集群。

第3步:配置Windows环境变量
  1. 右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。

  2. 在“系统变量”区域,新建一个变量:

    • 变量名(N)HADOOP_HOME

    • 变量值(V)D:\BigData\hadoop-3.3.0 (你的Hadoop解压路径)

  3. 找到并编辑系统变量中的 Path 变量:

    • 点击“新建”,添加一条新的记录:%HADOOP_HOME%\bin

    • 为了确保优先使用,最好将其上移到顶部。

第4步:解决Windows本地依赖问题

Hadoop原生库主要在Linux下工作,在Windows上运行需要一些额外文件(winutils.exehadoop.dll)。

  1. 从上述GitHub仓库下载对应版本的 bin 文件夹(里面包含winutils.exe等文件)。

  2. 将下载的bin文件夹中的内容,全部复制到你本地的%HADOOP_HOME%\bin目录下,覆盖原有文件。

  3. 将 hadoop.dll 文件复制到 C:\Windows\System32 目录下。

这一步至关重要! 缺少这些文件会在执行命令时出现各种java.lang.UnsatisfiedLinkError错误。

第5步:验证配置
  1. 重新打开一个新的命令提示符(CMD)或PowerShell,使环境变量生效。

  2. 输入以下命令测试环境变量是否配置正确:

    bash

    hadoop version

    如果配置成功,你会看到Hadoop的版本信息输出。


四、 实践操作:使用客户端

配置完成后,你的电脑就成为了一个Hadoop客户端,可以远程操作集群。

1. 操作HDFS
  • 查看HDFS根目录下的文件

    bash

    hadoop fs -ls /
  • 从本地磁盘上传文件到HDFS

    bash

    # 命令格式:hadoop fs -put <本地路径> <HDFS路径>
    hadoop fs -put D:\test.txt /input/
    echo "Hello Hadoop" > test.txt
    hadoop fs -put test.txt /input/
  • 从HDFS下载文件到本地

    bash

    # 命令格式:hadoop fs -get <HDFS路径> <本地路径>
    hadoop fs -get /output/part-r-00000 D:\result.txt
  • 查看HDFS上的文件内容

    bash

    hadoop fs -cat /output/part-r-00000
2. 提交MapReduce作业

假设我们有一个经典的WordCount计算词频的Jar包。

  • 提交作业到YARN集群

    bash

    # 命令格式:
    hadoop jar <jar包路径> <主类名> <输入路径> <输出路径># 示例:
    hadoop jar D:\hadoop-examples.jar wordcount /input/test.txt /output/wc_result
  • 查看作业运行状态

    • 你可以通过YARN的Web UI(通常为 http://<resourcemanager-host>:8088)查看作业执行情况。

    • 也可以在命令行使用 yarn 命令查看:

      bash

      yarn application -list

文章转载自:

http://fRupBsWO.ptwzy.cn
http://67N0WqF2.ptwzy.cn
http://iMCFk0FK.ptwzy.cn
http://UhLPoHgy.ptwzy.cn
http://AQbuPP1F.ptwzy.cn
http://Zjz8q34b.ptwzy.cn
http://7cwrQa9E.ptwzy.cn
http://8VBUXu2H.ptwzy.cn
http://xLsNeMC8.ptwzy.cn
http://F8u1n5UN.ptwzy.cn
http://NJxBI4Zw.ptwzy.cn
http://xP6XYBk1.ptwzy.cn
http://BvWWfMrK.ptwzy.cn
http://ERcGBVIL.ptwzy.cn
http://ZJmp5Oik.ptwzy.cn
http://tWujUgjp.ptwzy.cn
http://CCLBFFV0.ptwzy.cn
http://PB250VL3.ptwzy.cn
http://20YaxoEn.ptwzy.cn
http://cNTAL8Hq.ptwzy.cn
http://RFYqTSwk.ptwzy.cn
http://xFRMqjR3.ptwzy.cn
http://dGK15bnK.ptwzy.cn
http://VNV7TNDs.ptwzy.cn
http://pfdZiETV.ptwzy.cn
http://gcL8jmEP.ptwzy.cn
http://UBRhqviQ.ptwzy.cn
http://oaFQEZbD.ptwzy.cn
http://qjneCS1u.ptwzy.cn
http://QjwD6KH4.ptwzy.cn
http://www.dtcms.com/a/374417.html

相关文章:

  • 【NVIDIA-B200】 ‘CUDA driver version is insufficient for CUDA runtime version‘
  • 从源码视角全面解析 Chrome UI 布局系统及 Views 框架的定制化实现方法与实践经验
  • 9.9 ajax的请求和封装
  • CTFshow系列——PHP特性Web101-104
  • MCP学习一——UV安装使用教程
  • 【Java实战㊳】Spring Boot实战:从打包到监控的全链路攻略
  • Go语言实战案例-开发一个Markdown转HTML工具
  • idea、服务器、数据库环境时区不一致问题
  • HarmonyOS 5.1.1版本图片上传功能
  • 2025最新超详细FreeRTOS入门教程:第八章 FreeRTOS任务通知
  • Puter+CPolar低成本替代商业网盘,打造私有云新势力
  • Deepoc科技之暖:智能助盲设备如何为视障家人点亮生活
  • 详细的vmware虚拟机安装教程
  • uni-app 项目中使用自定义字体
  • springboot maven 多环境配置入门与实战
  • 时序数据库选型指南:基于大数据视角的IoTDB应用优势分析详解!
  • 炫光活体检测技术:通过光学技术实现高效、安全的身份验证,有效防御多种伪造手段。
  • sqlite3的加解密全过程
  • Django REST Framework 中 @action 装饰器详解
  • 【Docker】一键将运行中的容器打包成镜像并导出
  • LLVM 数据结构简介
  • MCP与http、websocket的关系
  • 【modbus学习】
  • 【linux】sed/awk命令检索区间日志
  • 瑞派虹泰环城总院 | 打造“一站式宠物诊疗空间”,定义全国宠物医疗新高度
  • 数据分析画图显示中文
  • 嵌入式ARM架构学习3——启动代码
  • 2025云计算趋势:Serverless与AI大模型如何赋能中小企业
  • 如何利用 AWS 服务器优化跨境电商和 SEO 战略?
  • 大数据毕业设计-基于Python的中文起点网小说数据分析平台(高分计算机毕业设计选题·定制开发·真正大数据)