大数据学习7:Azkaban调度器
1. Azkaban介绍
Azkaban是由linkedin(领英)公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。
2. 安装部署
上传安装包/opt/tools,并解压
tar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz -C /opt/server
修改/opt/server/azkaban-solo-server-0.1.0-SNAPSHOT/conf目录中的azkaban.properties文件,修改时区为Asia/Shanghai
vim azkaban.properties
default.timezone.id=Asia/Shanghai
修改/opt/server/azkaban-solo-server-0.1.0-SNAPSHOT/plugins/jobtypes目录中的commonprivate.properties文件,关闭内存检查,azkaban默认需要3G的内存,剩余内存不足则会报异常。
添加:
memCheck.enabled=false
启动验证,启动/关闭必须进到azkaban-solo-server-0.1.0-SNAPSHOT/目录下
bin/start-solo.sh
登录web页面,通过浏览器访问控制台,http://192.168.59.100:8081/, 默认用户名密码azkaban
3. 基本使用
3.1 执行单任务
创建 job 描述文件,命名为first.job,加入以下内容:
#first.job
type=command
command=echo 'hello world'
将 job 资源文件打包成 zip 文件,Azkaban 上传的工作流文件只支持 zip 文件。zip 应包含 .job 运行作业所需的文件,作业名称在项目中必须是唯一的。
通过 azkaban 的 web 管理平台创建 project 并上传 job 的 zip 包
点击继续
执行成功
点击右侧的Details按钮,可以查看运行日志
3.2 多任务执行
创建有依赖关系的多个任务,首先创建start.job
#start.job
type=command
command=touch /opt/server/web.log
创建a.job,依赖start.job
#a.job
type=command
dependencies=start
command=echo "hello a job"
创建b.job,依赖 start.job
#b.job
type=command
dependencies=start
command=echo "hello b job"
创建end.job 依赖 a.job 和 b.job
#end.job
type=command
dependencies=a,b
command=echo "end job"
将所有 job 资源文件打到一个 zip 包中,在 azkaban 的 web 管理界面创建工程并上传 zip 包,然后按照之前步骤执行
4. 调度Hive 脚本任务
在/opt/data文件夹下创建web_access.sql
vim web_access.sql
use default;
DROP TABLE IF EXISTS access_log_content;
CREATE TABLE access_log_content (content STRING
);
DROP TABLE IF EXISTS ip_content;
CREATE TABLE ip_content (content STRING
);
创建Job 描述文件:hive.job
#hive job
type=command
command=/opt/server/apache-hive-3.1.2-bin/bin/hive -f /opt/data/web_access.sql
然后按照之前步骤进行
5. 定时任务调度
6. 定时调度Sqoop作业
配置免密执行作业
在sqoop的/opt/server/sqoop-1.4.7.bin__hadoop-2.6.0/conf目录下修改sqoop-site.xml文件
vim sqoop-site.xml
<property><name>sqoop.metastore.client.record.password</name><value>true</value>
</property>
进入/opt/server/hadoop-3.1.0/bin 文件夹
将密码输出到mysqlpwd.pwd文件中,并上传至hdfs
cd /opt/server/hadoop-3.1.0/binecho -n "root" > mysqlpwd.pwd
./hadoop dfs -mkdir -p /mysql/pwd
./hadoop dfs -put ./mysqlpwd.pwd /mysql/pwd
./hadoop dfs -chmod 400 /mysql/pwd/mysqlpwd.pwd
创建Sqoop作业
创建Sqoop作业,使用–password-file代替–password就是读取之前上传到hdfs上的密码文件来连接mysql
/opt/server/sqoop-1.4.7.bin__hadoop-2.6.0/bin
./sqoop job --create job_test4 \
-- import \
--connect jdbc:mysql://192.168.59.100:3306/mydb \
--username root \
--password-file /mysql/pwd/mysqlpwd.pwd \
--table emp --m 1 \
--target-dir /emp \
--incremental append \
--check-column empno \
--last-value 0
上面代码使用的是增量导入,使用sqoop job这种方法,在进行增量导入后就会记忆你的last-value的值,这样你下次运行时就不需要手动更新last-value的值。
创建作业时,如果出现java.lang.NoClassDefFoundError: org/json/JSONObject,是因为sqoop缺少java-json.jar包,将jar包放入sqoop的lib目录下即可
记住先删除之前的任务再重新运行
./sqoop job --delete job_test4
创建sqoop.job
# sqoop.job
type=command
command=/opt/server/sqoop-1.4.7.bin__hadoop-2.6.0/bin/sqoop job --exec job_test4