上篇文章說(shuō)到了安裝煮仇,這次說(shuō)說(shuō)使用
登錄
https://localhost:8443
注意是https劳跃,采用的是jetty ssl鏈接。輸入賬號(hào)密碼azkaban/azkanban(如果你之前沒(méi)有更改的話)
首頁(yè)有四個(gè)菜單
- projects:最重要的部分浙垫,創(chuàng)建一個(gè)工程刨仑,所有flows將在工程中運(yùn)行郑诺。
- scheduling:顯示定時(shí)任務(wù)
- executing:顯示當(dāng)前運(yùn)行的任務(wù)
- history:顯示歷史運(yùn)行任務(wù)
主要介紹projects部分
首先創(chuàng)建一個(gè)工程,填寫名稱和描述杉武,比如o2olog辙诞。
Flows:工作流程,有多個(gè)job組成
Permissions:權(quán)限管理
Project Logs:工程日志
創(chuàng)建工程:
創(chuàng)建之前我們先了解下之間的關(guān)系轻抱,一個(gè)工程包含一個(gè)或多個(gè)flows飞涂,一個(gè)flow包含多個(gè)job。job是你想在azkaban中運(yùn)行的一個(gè)進(jìn)程祈搜,可以是簡(jiǎn)單的linux命令较店,可是java程序,也可以是復(fù)雜的shell腳本容燕,當(dāng)然梁呈,如果你安裝相關(guān)插件,也可以運(yùn)行插件蘸秘。一個(gè)job可以依賴于另一個(gè)job捧杉,這種多個(gè)job和它們的依賴組成的圖表叫做flow。
job創(chuàng)建
創(chuàng)建job很簡(jiǎn)單秘血,只要?jiǎng)?chuàng)建一個(gè)以.job結(jié)尾的文本文件就行了,例如我們創(chuàng)建一個(gè)工作味抖,用來(lái)將日志數(shù)據(jù)導(dǎo)入hive中(關(guān)于大數(shù)據(jù)方面的東西,不在重復(fù)灰粮,可以理解為仔涩,將日志所需數(shù)據(jù)導(dǎo)入的mysql中),我們創(chuàng)建o2o_2_hive.job
type=command
command=echo "data 2 hive"
一個(gè)簡(jiǎn)單的job就創(chuàng)建好了粘舟,解釋下熔脂,type的command,告訴azkaban用unix原生命令去運(yùn)行柑肴,比如原生命令或者shell腳本霞揉,當(dāng)然也有其他類型,后面說(shuō)晰骑。
一個(gè)工程不可能只有一個(gè)job适秩,我們現(xiàn)在創(chuàng)建多個(gè)依賴job,這也是采用azkaban的首要目的硕舆。
flows創(chuàng)建
我們說(shuō)過(guò)多個(gè)jobs和它們的依賴組成flow秽荞。怎么創(chuàng)建依賴,只要指定dependencies參數(shù)就行了抚官。比如導(dǎo)入hive前扬跋,需要進(jìn)行數(shù)據(jù)清洗,數(shù)據(jù)清洗前需要上傳凌节,上傳之前需要從ftp獲取日志钦听。
定義5個(gè)job:
- o2o_2_hive.job:將清洗完的數(shù)據(jù)入hive庫(kù)
- o2o_clean_data.job:調(diào)用mr清洗hdfs數(shù)據(jù)
- o2o_up_2_hdfs.job:將文件上傳至hdfs
- o2o_get_file_ftp1.job:從ftp1獲取日志
- o2o_get_file_fip2.job:從ftp2獲取日志
依賴關(guān)系:
3依賴4和5洒试,2依賴3,1依賴2朴上,4和5沒(méi)有依賴關(guān)系垒棋。
o2o_2_hive.job
type=command
# 執(zhí)行sh腳本,建議這樣做余指,后期只需維護(hù)腳本就行了捕犬,azkaban定義工作流程
command=sh /job/o2o_2_hive.sh
dependencies=o2o_clean_data
o2o_clean_data.job
type=command
# 執(zhí)行sh腳本,建議這樣做酵镜,后期只需維護(hù)腳本就行了碉碉,azkaban定義工作流程
command=sh /job/o2o_clean_data.sh
dependencies=o2o_up_2_hdfs
o2o_up_2_hdfs.job
type=command
#需要配置好hadoop命令,建議編寫到shell中淮韭,可以后期維護(hù)
command=hadoop fs -put /data/*
#多個(gè)依賴用逗號(hào)隔開(kāi)
dependencies=o2o_get_file_ftp1,o2o_get_file_ftp2
o2o_get_file_ftp1.job
type=command
command=wget "ftp://file1" -O /data/file1
o2o_get_file_ftp2.job
type=command
command=wget "ftp:file2" -O /data/file2
可以運(yùn)行unix命令垢粮,也可以運(yùn)行python腳本(強(qiáng)烈推薦)。將上述job打成zip包靠粪。
ps:為了測(cè)試流程蜡吧,我將上述command都改為echo +相應(yīng)命令
上傳:
點(diǎn)擊o2o_2_hive進(jìn)入流程,azkaban流程名稱以最后一個(gè)沒(méi)有依賴的job定義的占键。
右上方是配置執(zhí)行當(dāng)前流程或者執(zhí)行定時(shí)流程昔善。
Flow view:流程視圖∨弦遥可以禁用君仆,啟用某些job
Notification:定義任務(wù)成功或者失敗是否發(fā)送郵件
Failure Options:定義一個(gè)job失敗,剩下的job怎么執(zhí)行
Concurrent:并行任務(wù)執(zhí)行設(shè)置
Flow Parametters:參數(shù)設(shè)置牲距。
1.執(zhí)行一次
設(shè)置好上述參數(shù)返咱,點(diǎn)擊execute。
綠色代表成功牍鞠,藍(lán)色是運(yùn)行咖摹,紅色是失敗∧咽觯可以查看job運(yùn)行時(shí)間萤晴,依賴和日志,點(diǎn)擊details可以查看各個(gè)job運(yùn)行情況龄广。
2.定時(shí)執(zhí)行
這時(shí)候注意到cst了吧硫眯,之前需要將配置中時(shí)區(qū)改為Asia/shanghai。
可以選擇"天/時(shí)/分/月/周"等執(zhí)行頻率择同。
可以查看下次執(zhí)行時(shí)間。
其他job配置選項(xiàng)
- 可以定義job依賴另一個(gè)flow净宵,配置
type=flow
flow.name=fisrt_flow
- 可以設(shè)置每個(gè)job中子命令
type=command
command=echo "hello"
command.1=echo "world"
- 可以配置job失敗重啟次數(shù)敲才,及間隔時(shí)間,比如裹纳,上述ftp獲取日志,我可以配置重試12次紧武,每隔5分鐘一次剃氧。
type=command
command=wget "ftp://file1" -O /data/file1
retries=12
#單位毫秒
retry.backoff=300000
azkaban還有很多強(qiáng)大的功能,如它開(kāi)放了相關(guān)api阻星,我們將它可以嵌入到自己的app等等朋鞍,有興趣的朋友可以研究。
至此妥箕,azkaban學(xué)習(xí)到此結(jié)束滥酥,本人也是初學(xué)者,如果問(wèn)題畦幢,歡迎指正坎吻。