hadoop集群的常用命令
1. HDFS 文件系统操作
-查看目录/文件列表
hdfs dfs -ls /path/to/directory
创建目录
hdfs dfs -mkdir /path/to/new_directory
上传文件到 HDFS
hdfs dfs -put local_file /hdfs/path/
- 下载文件到本地
hdfs dfs -get /hdfs/path/file local_path
- 删除文件或目录
hdfs dfs -rm /hdfs/path/file # 删除文件
hdfs dfs -rm -r /hdfs/path/directory # 递归删除目录
- **查看文件内容**
hdfs dfs -cat /hdfs/path/file
hdfs dfs -tail /hdfs/path/file
- **复制/移动文件**
hdfs dfs -cp /source /destination
hdfs dfs -mv /source /destination
- **检查 HDFS 空间使用**
hdfs dfs -df -h # 查看整体空间
hdfs dfs -du -h /path # 查看目录大小
---
2. YARN 资源管理
- 提交 MapReduce 作业
hadoop jar example.jar MainClass -input /input -output /output
- **查看运行中的应用列表**
yarn application -list
- **终止应用**
yarn application -kill application_id
- **查看节点状态**
yarn node -list
- **查看容器日志**
yarn logs -applicationId application_id
---
3. 集群管理命令
- 检查 HDFS 健康状态
hdfs dfsadmin -report # 显示 DataNode 状态
hdfs fsck / # 检查文件系统完整性
- 进入/退出安全模式
hdfs dfsadmin -safemode enter # 进入安全模式(维护时使用)
hdfs dfsadmin -safemode leave # 退出安全模式
- 平衡 DataNode 磁盘数据
hdfs balancer -threshold 10 # 阈值 10% 的磁盘差异
- 查看 NameNode 日志
tail -f $HADOOP_HOME/logs/hadoop-*-namenode-*.log
---
4. 高级工具
- 跨集群复制数据 (DistCp)
hadoop distcp hdfs://source-cluster/path hdfs://target-cluster/path
- 合并小文件为 HAR 归档
hadoop archive -archiveName myhar.har -p /input/path /output/path
- 检查 HDFS 副本数
hdfs dfs -setrep -w 3 /path/file # 修改副本数为 3
---
5. 常用快捷命令
- 查看 HDFS 根目录
hdfs dfs -ls /
- 查看集群版本**
hadoop version
- 格式化 NameNode (谨慎使用)
hdfs namenode -format # 仅初始化新集群时使用