当前位置: 首页 > news >正文

1. hadoop 集群的常用命令

Hadoop集群的常用命令主要分为**HDFS文件操作**、**YARN资源管理**、**集群管理**和**维护工具**四大类。以下是常用命令及说明:

 

---

 

### 一、HDFS 文件操作命令

1. **查看目录/文件列表**  

   ```bash

   hdfs dfs -ls <HDFS路径> # 例如:hdfs dfs -ls /user

   ```

 

2. **上传文件到HDFS**  

   ```bash

   hdfs dfs -put <本地路径> <HDFS路径> # 等价于 -copyFromLocal

   hdfs dfs -copyFromLocal <本地路径> <HDFS路径>

   ```

 

3. **从HDFS下载文件**  

   ```bash

   hdfs dfs -get <HDFS路径> <本地路径> # 等价于 -copyToLocal

   hdfs dfs -copyToLocal <HDFS路径> <本地路径>

   ```

 

4. **创建目录**  

   ```bash

   hdfs dfs -mkdir -p <HDFS路径> # -p 自动创建父目录

   ```

 

5. **删除文件/目录**  

   ```bash

   hdfs dfs -rm <HDFS文件路径> # 删除文件

   hdfs dfs -rm -r <HDFS目录路径> # 递归删除目录

   ```

 

6. **查看文件内容**  

   ```bash

   hdfs dfs -cat <HDFS文件路径> # 查看全部内容

   hdfs dfs -tail <HDFS文件路径> # 查看末尾内容

   ```

 

7. **文件操作**  

   ```bash

   hdfs dfs -cp <源路径> <目标路径> # 复制

   hdfs dfs -mv <源路径> <目标路径> # 移动

   hdfs dfs -touchz <HDFS文件路径> # 创建空文件

   ```

 

8. **查看空间使用**  

   ```bash

   hdfs dfs -du -h <HDFS路径> # 显示文件/目录大小(人类可读)

   hdfs dfs -df -h # 查看HDFS总空间

   ```

 

9. **权限管理**  

   ```bash

   hdfs dfs -chmod <权限> <HDFS路径> # 修改权限(如 755)

   hdfs dfs -chown <用户:组> <HDFS路径> # 修改所有者

   ```

 

---

 

### 二、YARN 资源管理命令

1. **提交MapReduce作业**  

   ```bash

   hadoop jar <jar包路径> <主类名> [参数]

   ```

 

2. **查看运行中的任务**  

   ```bash

   yarn application -list # 列出所有应用

   ```

 

3. **终止任务**  

   ```bash

   yarn application -kill <ApplicationID> # 根据ID终止任务

   ```

 

4. **查看节点状态**  

   ```bash

   yarn node -list # 显示集群节点信息

   ```

 

5. **查看任务日志**  

   ```bash

   yarn logs -applicationId <ApplicationID> # 查看指定任务的日志

   ```

 

---

 

### 三、集群管理命令

1. **启动/停止HDFS和YARN**  

   ```bash

   start-dfs.sh # 启动HDFS

   start-yarn.sh # 启动YARN

   stop-dfs.sh # 停止HDFS

   stop-yarn.sh # 停止YARN

   ```

 

2. **检查HDFS健康状态**  

   ```bash

   hdfs dfsadmin -report # 显示DataNode状态

   hdfs fsck / # 检查文件系统完整性

   ```

 

3. **进入/退出安全模式**  

   ```bash

   hdfs dfsadmin -safemode enter # 进入安全模式(只读)

   hdfs dfsadmin -safemode leave # 退出安全模式

   ```

 

4. **数据平衡**  

   ```bash

   hdfs balancer # 启动数据均衡(调整DataNode负载)

   ```

 

---

 

### 四、维护与工具命令

1. **跨集群复制数据(DistCp)**  

   ```bash

   hadoop distcp <源集群路径> <目标集群路径> # 大规模数据迁移

   ```

 

2. **合并小文件**  

   ```bash

   hdfs dfs -getmerge <HDFS目录> <本地文件> # 合并下载到本地

   ```

 

3. **创建HAR归档文件**  

   ```bash

   hadoop archive -archiveName <名称>.har -p <输入路径> <输出路径>

   ```

 

4. **格式化NameNode(谨慎!)**  

   ```bash

   hdfs namenode -format # 初始化集群时使用,会清空数据!

   ```

 

---

 

### 注意事项

- **权限问题**:部分命令需要管理员权限(如`dfsadmin`)。

- **版本差异**:不同Hadoop版本命令可能略有不同。

- **安全模式**:在安全模式下无法写入数据,需通过`dfsadmin`退出。

 

 

相关文章:

  • 工商业储能要关注的核心能力与未来发展方向
  • CMDB平台(进阶篇):3D机房大屏全景解析
  • CentOS7 安装 LLaMA-Factory
  • Spring Boot 定时任务的多种实现方式
  • SQLark:一款国产免费数据库开发和管理工具
  • SpringCloud快速认识
  • 进行性核上性麻痹护理指南,助患者安稳生活
  • 中国工厂出海新机遇:壹起航助力企业高效获客与品牌全球化
  • TypeScript 装饰器类型详解
  • Vulkan进阶系列1 - Vulkan应用程序结构(完整代码)
  • 使用PyTorch实现ResNet:从残差块到完整模型训练
  • Java项目之基于ssm的酒店客房管理系统(源码+文档)
  • AI 数字短视频数字人源码开发:开启虚拟内容创作新纪元​
  • 【UE5 C++课程系列笔记】33——商业化Json读写
  • 【2025年最新!软考中级】软件设计师考证知识点总结,串讲及真题合集
  • DeepSeek与ChatGPT的优势对比:选择合适的工具来提升工作效率
  • 为什么函数对象作为函数参数时,一般使用值类型形式?-番外篇
  • 企业数据危机频发,该如何提前预防数据泄露发生?
  • Java 集合 Map Stream流
  • [Linux]从零开始的vs code交叉调试arm Linux程序教程