当前位置: 首页 > wzjs >正文

做电影网站还能赚钱深圳市文化广电旅游体育局

做电影网站还能赚钱,深圳市文化广电旅游体育局,h5怎么弄到微信公众号,一份完整的项目计划书基于Docker和YARN的大数据环境部署实践 目的 本操作手册旨在指导用户通过Docker容器技术,快速搭建一个完整的大数据环境。该环境包含以下核心组件: Hadoop HDFS/YARN(分布式存储与资源调度)Spark on YARN(分布式计算…

基于Docker和YARN的大数据环境部署实践

目的

本操作手册旨在指导用户通过Docker容器技术,快速搭建一个完整的大数据环境。该环境包含以下核心组件:

  • Hadoop HDFS/YARN(分布式存储与资源调度)
  • Spark on YARN(分布式计算)
  • Kafka(消息队列)
  • Hive(数据仓库)
  • JupyterLab(交互式开发环境)

通过清晰的步骤说明和验证方法,读者将掌握:

  1. 容器网络的搭建(Weave)
  2. Docker Compose编排文件编写技巧
  3. 多组件协同工作的配置要点
  4. 集群扩展与验证方法

整体架构

spark-submit
资源分配
执行任务
生产/消费
读写数据
元数据查询
Jupyter
RM
NM1
DN1
Kafka
Spark
HDFS
Hive
MySQL

组件功能表

组件名称功能描述依赖服务端口配置数据存储
Hadoop NameNodeHDFS元数据管理9870 (Web UI), 8020Docker卷: hadoop_namenode
Hadoop DataNodeHDFS数据存储节点NameNode9864 (数据传输)本地卷或Docker卷
YARN ResourceManager资源调度与管理NameNode8088 (Web UI), 8032
YARN NodeManager单个节点资源管理ResourceManager8042 (Web UI)
Spark (YARN模式)分布式计算框架YARN ResourceManager集成在YARN中
JupyterLab交互式开发环境Spark, YARN8888 (Web UI)本地目录挂载
Kafka分布式消息队列ZooKeeper9092 (Broker)Docker卷:kafka_data、kafka_logs
Hive数据仓库服务HDFS, MySQL10000 (HiveServer2)MySQL存储元数据
MySQL存储Hive元数据3306Docker卷: mysql_data
ZooKeeper分布式协调服务(Kafka依赖)2181Docker卷:zookeeper_data

关键交互流程

  1. 数据存储

    • HDFS通过NameNode管理元数据,DataNode存储实际数据。
    • JupyterLab通过挂载本地目录访问数据,同时可读写HDFS。
  2. 资源调度

    • Spark作业通过YARN ResourceManager申请资源,由NodeManager执行任务。
  3. 数据处理

    • Kafka接收实时数据流,Spark消费后进行实时计算。
    • Hive通过HDFS存储表数据,元数据存储在MySQL。

环境搭建步骤

1. 容器网络准备(Weave)

# 安装Weave网络插件
sudo curl -L git.io/weave -o /usr/local/bin/weave
sudo chmod +x /usr/local/bin/weave
# 启动Weave网络
weave launch
# 验证网络状态
weave status
#在其他节点上运行
weave launch 主节点IP

2. Docker Compose编排文件

创建 docker-compose.yml,核心配置如下:

version: "3.8"services:# ZooKeeperzookeeper-1:image: bitnami/zookeeper:3.8.0privileged: true  #使用二进制文件安装的docker需要开启特权模式,每个容器都需要开启该模式container_name: zookeeper-1hostname: zookeeper-1ports:- "2181:2181"environment:- ALLOW_ANONYMOUS_LOGIN=yes- TZ=Asia/Shanghaivolumes:- zookeeper_data:/bitnami/zookeepernetworks:- bigdata-netdns:- 172.17.0.1restart: alwayslogging:driver: "json-file"options:max-size: "100m"max-file: "7"# Kafkakafka-1:image: bitnami/kafka:3.3.1container_name: kafka-1hostname: kafka-1environment:- KAFKA_BROKER_ID=1- KAFKA_CFG_ZOOKEEPER_CONNECT=zookeeper-1:2181- ALLOW_PLAINTEXT_LISTENER=yes- TZ=Asia/Shanghaiports:- "9092:9092"volumes:- kafka_data:/bitnami/kafka    # Kafka数据持久化- kafka_logs:/kafka-logs  # 独立日志目录depends_on:- zookeeper-1networks:- bigdata-netdns:- 172.17.0.1restart: alwayslogging:driver: "json-file"options:max-size: "100m"max-file: "7"# Hadoop HDFShadoop-namenode:image: bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8container_name: hadoop-namenodehostname: hadoop-namenodeenvironment:- CLUSTER_NAME=bigdata- CORE_CONF_fs_defaultFS=hdfs://hadoop-namenode:8020- HDFS_CONF_dfs_replication=2- TZ=Asia/Shanghaiports:- "9870:9870"- "8020:8020"networks:- bigdata-netdns:- 172.17.0.1volumes:- hadoop_namenode:/hadoop/dfs/namerestart: alwayshadoop-datanode:image: bde2020/hadoop-datanode:2.0.0-hadoop3.2.1-java8container_name: hadoop-datanodehostname: hadoop-datanodeenvironment:- CORE_CONF_fs_defaultFS=hdfs://hadoop-namenode:8020- HDFS_CONF_dfs_replication=2- TZ=Asia/Shanghaidepends_on:- hadoop-namenodenetworks:- bigdata-netdns:- 172.17.0.1restart: alwayslogging:driver: "json-file"options:max-size: "100m"max-file: "7"# YARNhadoop-resourcemanager:image: bde2020/hadoop-resourcemanager:2.0.0-hadoop3.2.1-java8container_name: hadoop-resourcemanagerhostname: hadoop-resourcemanagerports:- "8088:8088"  # YARN Web UIenvironment:- CORE_CONF_fs_defaultFS=hdfs://hadoop-namenode:8020- YARN_CONF_yarn_resourcemanager_hostname=hadoop-resourcemanager- TZ=Asia/Shanghaidepends_on:- hadoop-namenodenetworks:- bigdata-netdns:- 172.17.0.1restart: alwayslogging:driver: "json-file"options:max-size: "100m"max-file: "7"hadoop-nodemanager:image: bde2020/hadoop-nodemanager:2.0.0-hadoop3.2.1-java8container_name: hadoop-nodemanagerhostname: hadoop-nodemanagerenvironment:- CORE_CONF_fs_defaultFS=hdfs://hadoop-namenode:8020- YARN_CONF_yarn_resourcemanager_hostname=hadoop-resourcemanager- TZ=Asia/Shanghaidepends_on:- hadoop-resourcemanagernetworks:- bigdata-netdns:- 172.17.0.1volumes:- ./hadoop-conf/yarn-site.xml:/etc/hadoop/yarn-site.xml  # 挂载主节点的Hadoop配置文件,用于上报内存与cpu核心数restart: alwayslogging:driver: "json-file"options:max-size: "100m"max-file: "7"# Hivehive:image: bde2020/hive:2.3.2container_name: hivehostname: hiveenvironment:- HIVE_METASTORE_URI=thrift://hive:9083- SERVICE_PRECONDITION=hadoop-namenode:8020,mysql:3306- TZ=Asia/Shanghaiports:- "10000:10000"- "9083:9083"depends_on:- hadoop-namenode- mysqlnetworks:- bigdata-netdns:- 172.17.0.1restart: alwayslogging:driver: "json-file"options:max-size: "100m"max-file: "7"# MySQLmysql:image: mysql:8.0container_name: mysqlenvironment:- MYSQL_ROOT_PASSWORD=root- MYSQL_DATABASE=metastore- TZ=Asia/Shanghaiports:- "3306:3306"networks:- bigdata-netdns:- 172.17.0.1volumes:- mysql_data:/var/lib/mysqlrestart: alwayslogging:driver: "json-file"options:max-size: "100m"max-file: "7"# JupyterLab(集成Spark on YARN)jupyter:image: jupyter/all-spark-notebook:latestcontainer_name: jupyter-labenvironment:- JUPYTER_ENABLE_LAB=yes- TZ=Asia/Shanghai- SPARK_OPTS="--master yarn --deploy-mode client"  # 默认使用YARN模式- HADOOP_CONF_DIR=/etc/hadoop/conf  # 必须定义- YARN_CONF_DIR=/etc/hadoop/conf    # 必须定义ports:- "8888:8888"volumes:- ./notebooks:/home/jovyan/work- /path/to/local/data:/data- ./hadoop-conf:/etc/hadoop/conf  # 挂载Hadoop配置文件,./hadoop-conf代表在docker-compose.yml同目录下的hadoop-confnetworks:- bigdata-netdns:- 172.17.0.1depends_on:- hadoop-resourcemanager- hadoop-namenoderestart: alwayslogging:driver: "json-file"options:max-size: "100m"max-file: "7"volumes:hadoop_namenode:mysql_data:zookeeper_data:kafka_data:kafka_logs:hadoop-nodemanager:networks:bigdata-net:external: truename: weave

Hadoop配置文件

yarn-site.xml:

<configuration><property><name>yarn.resourcemanager.hostname</name><value>hadoop-resourcemanager</value></property><property><name>yarn.resourcemanager.address</name><value>hadoop-resourcemanager:8032</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>

core-site.xml:

<configuration><property><name>fs.defaultFS</name><value>hdfs://hadoop-namenode:8020</value></property>
</configuration>

将这两个文件放置到hadoop-conf目录下。

3. 启动服务

# 启动容器
docker-compose up -d# 查看容器状态
docker-compose ps

4. 验证服务是否可用

验证HDFS
(1) 访问HDFS Web UI
  • 操作:浏览器打开 http://localhost:9870

  • 预期结果

    Overview 页面显示HDFS总容量。

    Datanodes 显示至少1个活跃节点(对应 hadoop-datanode 容器)。

(2) 命令行操作HDFS
docker exec -it hadoop-namenode bash
# 创建测试目录
hdfs dfs -mkdir /test
# 上传本地文件
echo "hello hdfs" > test.txt
hdfs dfs -put test.txt /test/
# 查看文件
hdfs dfs -ls /test
#解除安全模式
hdfs dfsadmin -safemode leave
  • 预期结果:成功创建目录、上传文件并列出文件。

如图所示:
在这里插入图片描述


** 验证YARN**
(1) 访问YARN ResourceManager Web UI
  • 操作:浏览器打开 http://localhost:8088
  • 预期结果
    • Cluster Metrics 显示总资源(如内存、CPU)。
    • Nodes 显示至少1个NodeManager(对应 hadoop-nodemanager 容器)。
(2) 提交测试作业到YARN
# 进入Jupyter容器提交Spark作业
docker exec -it jupyter-lab bash
# 提交Spark Pi示例作业
spark-submit --master yarn --deploy-mode client --class org.apache.spark.examples.SparkPi /usr/local/spark/examples/jars/spark-examples_*.jar 10
  • 预期结果
    • 作业输出中包含 Pi is roughly 3.14
    • 在YARN Web UI (http://localhost:8088) 中看到作业状态为 SUCCEEDED

如图所示:
在这里插入图片描述

若是出现报错:Permission denied: user=jovyan, access=WRITE, inode=“/user”:root:supergroup:drwxr-xr-x

报错原因:

当前运行 Spark 的用户是:jovyan(Jupyter 默认用户);

Spark 提交任务后,会自动尝试在 HDFS 上创建目录 /user/jovyan

但是:这个目录不存在,或者 /user 目录不允许 jovyan 写入;

所以 HDFS 拒绝创建临时目录,导致整个作业提交失败;

解决方法

创建目录并赋权

进入NameNode 容器:

docker exec -it hadoop-namenode bash

然后执行 HDFS 命令:

hdfs dfs -mkdir -p /user/jovyan
hdfs dfs -chown jovyan:supergroup /user/jovyan

这一步允许 jovyan 用户有权写入自己的临时目录。

提示:可以先执行 hdfs dfs -ls /user 看是否有 jovyan 子目录。


最后:再次执行 spark-submit 后,可以看到

  1. 控制台打印:

    Submitting application application_xxx to ResourceManager
    
  2. YARN 8088 页面:

    • 出现作业记录;
    • 状态为 RUNNINGFINISHED
验证Spark on YARN(通过JupyterLab)
(1) 访问JupyterLab
  • 操作:浏览器打开 http://localhost:8888,使用Token登录(通过 docker logs jupyter-lab 获取Token)。
  • 预期结果:成功进入JupyterLab界面。
(2) 运行PySpark代码

在Jupyter中新建Notebook,执行以下代码:

from pyspark.sql import SparkSession
spark = SparkSession.builder \.appName("jupyter-yarn-test") \.getOrCreate()# 测试Spark Context
print("Spark Version:", spark.version)
print("YARN Cluster Mode:", spark.sparkContext.master)# 读取HDFS文件
df = spark.read.text("hdfs://hadoop-namenode:8020/test/test.txt")
df.show()# 读取数据
local_df = spark.read.csv("/data/example.csv", header=True)  # 替换为实际文件路径
local_df.show()
  • 预期结果
    • 输出Spark版本和YARN模式(如 yarn)。
    • 成功读取HDFS文件并显示内容 hello hdfs
    • 成功读取CSV文件(需提前放置测试文件)。

如图所示:
在这里插入图片描述

验证Hive
(1) 创建Hive表并查询
#使用docker cp命令将jdbc驱动放入容器内部,示例:
docker cp mysql-connector-java-8.0.12.jar 容器ID或容器名称:/opt/hive/lib
docker exec -it hive bash
#重新初始化 Hive Metastore
schematool -dbType mysql -initSchema --verbose
#查询MetaStore运行状态
ps -ef | grep MetaStore
# 启动Hive Beeline客户端
beeline -u jdbc:hive2://localhost:10000 -n root

//驱动下载链接:https://downloads.mysql.com/archives/c-j/

若是执行上述命令报错,可以按照以下步骤来进行更改

1、配置hive-site.xml文件:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!--Licensed to the Apache Software Foundation (ASF) under one or morecontributor license agreements.  See the NOTICE file distributed withthis work for additional information regarding copyright ownership.The ASF licenses this file to You under the Apache License, Version 2.0(the "License"); you may not use this file except in compliance withthe License.  You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License.
--><configuration>
<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://192.168.0.78:3306/metastore_db?createDatabaseIfNotExist=true</value><description>JDBC connect string for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.cj.jdbc.Driver</value></property> <property><name>javax.jdo.option.ConnectionUserName</name><value>root</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>root</value></property><!-- Metastor-->rash<property> <name>hive.metastore.uris</name><value>thrift://localhost:9083</value></property><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property><property><name>hive.server2.thrift.bind.host</name><value>0.0.0.0</value></property><property><name>hive.server2.thrift.port</name><value>10000</value></property></configuration>

//将此配置使用docker cp命令拷贝至hive容器内的/opt/hive/conf目录下。

2、配置core-site.xml文件:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
--><!-- Put site-specific property overrides in this file. --><configuration>
<property><name>fs.defaultFS</name><value>hdfs://hadoop-namenode:8020</value></property>
</configuration>

//hadoop-namenode容器IP可以在宿主机执行weave ps 命令获取,配置文件修改完毕后通过docker cp命令将文件拷贝至hive容器内的/opt/hadoop-2.7.4/etc/hadoop目录与/opt/hive/conf目录。

启动metastore

#在hive容器内部执行
hive --service metastore &

启动hiveserver2

#在hive容器内部执行(执行此命令需要先关闭hadoo-namenode的安全模式)
hive --service hiveserver2 --hiveconf hive.root.logger=DEBUG,console

执行HQL:

CREATE TABLE test_hive (id INT, name STRING);
INSERT INTO test_hive VALUES (1, 'hive-test');
SELECT * FROM test_hive;
  • 预期结果:输出 1, hive-test
(2) 验证MySQL元数据
docker exec -it mysql mysql -uroot -proot
use metastore_db;
SELECT TBL_NAME FROM TBLS;
  • 预期结果:显示 test_hive 表名。

如图所示:
在这里插入图片描述

验证Kafka
(1) 生产与消费消息
docker exec -it kafka-1 bash
# 创建主题
kafka-topics.sh --create --topic test-topic --bootstrap-server localhost:9092
# 生产消息
echo "hello kafka" | kafka-console-producer.sh --topic test-topic --bootstrap-server localhost:9092
# 消费消息(需另开终端)
kafka-console-consumer.sh --topic test-topic --from-beginning --bootstrap-server localhost:9092
  • 预期结果:消费者终端输出 hello kafka

如图所示:
在这里插入图片描述

** 验证本地数据挂载**

在JupyterLab中:

  1. 左侧文件浏览器中检查 /home/jovyan/work(对应本地 ./notebooks 目录)。
  2. 检查 /data 目录是否包含本地挂载的文件(例如 /path/to/local/data 中的内容)。
子节点设置
version: "3.8"services:# HDFS DataNode 服务hadoop-datanode:image: bde2020/hadoop-datanode:2.0.0-hadoop3.2.1-java8privileged: true  #使用二进制文件安装的docker需要开启特权模式,每个容器都需要开启该模式container_name: hadoop-datanode-2  # 子节点容器名称唯一(例如按编号命名)hostname: hadoop-datanode-2environment:- CORE_CONF_fs_defaultFS=hdfs://hadoop-namenode:8020  # 指向主节点NameNode- HDFS_CONF_dfs_replication=2- TZ=Asia/Shanghainetworks:- bigdata-netdns:- 172.17.0.1volumes:- ./hadoop-conf:/etc/hadoop/conf  # 挂载主节点的Hadoop配置文件restart: always
#    extra_hosts:
#      - "hadoop-namenode:10.32.0.32"logging:driver: "json-file"options:max-size: "100m"max-file: "5"# YARN NodeManager 服务hadoop-nodemanager:image: bde2020/hadoop-nodemanager:2.0.0-hadoop3.2.1-java8privileged: true  #使用二进制文件安装的docker需要开启特权模式,每个容器都需要开启该模式container_name: hadoop-nodemanager-2  # 子节点容器名称唯一hostname: hadoop-nodemanager-2environment:- YARN_CONF_yarn_resourcemanager_hostname=hadoop-resourcemanager  # 指向主节点ResourceManager- CORE_CONF_fs_defaultFS=hdfs://hadoop-namenode:8020- TZ=Asia/Shanghainetworks:- bigdata-netdns:- 172.17.0.1volumes:- ./hadoop-conf/yarn-site.xml:/etc/hadoop/yarn-site.xml  # 挂载主节点的Hadoop配置文件,用于上报内存与cpu核心数depends_on:- hadoop-datanode  # 确保DataNode先启动(可选)restart: alwayslogging:driver: "json-file"options:max-size: "100m"max-file: "5"# 共享网络配置(必须与主节点一致)
networks:bigdata-net:external: truename: weave  # 使用主节点创建的Weave网络

yarn配置文件

<configuration><property><name>yarn.resourcemanager.hostname</name><value>hadoop-resourcemanager</value></property><property><name>yarn.resourcemanager.address</name><value>hadoop-resourcemanager:8032</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>4096</value></property><property><name>yarn.nodemanager.resource.cpu-vcores</name><value>8</value></property>
</configuration>

Ps:内存大小和cpu核心数需要按照实际情况填写。
#######################################################################################
今日推荐
小说:《异种的营养是牛肉的六倍?》
简介:【异种天灾】+【美食】+【日常】 变异生物的蛋白质是牛肉的几倍? 刚刚来到这个世界,刘笔就被自己的想法震惊到了。 在被孢子污染后的土地上觉醒了神厨系统,是不是搞错了什么?各种变异生物都能做成美食吗? 那就快端上来罢! 安全区边缘的特色美食饭店,有点非常规的温馨美食日常。
在这里插入图片描述

http://www.dtcms.com/wzjs/202404.html

相关文章:

  • 英文网站建设成都十大广告公司排名
  • 某购物网站开发项目设计网站大全
  • 杭州网站建设优化案例建网站找哪个平台好呢
  • 网站建设销售怎么做宁波seo外包
  • 做网站后有人抢注关键词深圳谷歌seo公司
  • 做视频给网站到流量域名是什么 有什么用
  • 东凤镇 网站建设谷歌推广seo
  • 网站上怎么做全景看图app营销策划方案
  • 网站如何做分站宁波网站推广优化哪家正规
  • 网站哪些页面会做静态化搜索引擎优化工作
  • 三拼域名做网站青岛seo网站推广
  • 高端网站建设968排名网站
  • 手机网站怎么开发工具搜索引擎seo
  • 绍兴市越城区建设局网站如何制作一个自己的网页网站
  • 学做美食的视频网站有哪些小说网站排名前十
  • 如何做彩票网站信息全网关键词指数查询
  • 网站关键词策略个人免费域名注册网站
  • 上海做网站哪里有今日小说搜索风云榜
  • 外贸网站平台seo推广嘉兴网站建设
  • 青岛网站制作游戏代理平台
  • wordpress网站监测营销心得体会感悟300字
  • 凡科网站建设7个基本流程爱站权重
  • 网站建设框架构建网络推广公司经营范围
  • 网站开发员招聘全球搜索网站排名
  • 如何对网站的文件和资源进行优化?seo学徒
  • 真人百家樂网站建设查询关键词
  • 营口 建设街道 政府网站网络安全培训最强的机构
  • 佛山 建站公司北京seo产品
  • 自适应型网站建设关键词点击价格查询
  • 文字排版网站上海百度分公司电话