Azkaban介紹

工作流調(diào)度器azkaban

概述
為什么需要工作流調(diào)度系統(tǒng)

● 一個完整的數(shù)據(jù)分析系統(tǒng)通常都是由大量任務單元組成:
shell腳本程序铃在,java程序,mapreduce程序、hive腳本等
● 各任務單元之間存在時間先后及前后依賴關系
● 為了很好地組織起這樣的復雜執(zhí)行計劃定铜,需要一個工作流調(diào)度系統(tǒng)來調(diào)度執(zhí)行阳液;

例如,我們可能有這樣一個需求揣炕,某個業(yè)務系統(tǒng)每天產(chǎn)生20G原始數(shù)據(jù)帘皿,我們每天都要對其進行處理,處理步驟如下所示:

1畸陡、 通過Hadoop先將原始數(shù)據(jù)同步到HDFS上鹰溜;
2、 借助MapReduce計算框架對原始數(shù)據(jù)進行轉(zhuǎn)換丁恭,生成的數(shù)據(jù)以分區(qū)表的形式存儲到多張Hive表中曹动;
3、 需要對Hive中多個表的數(shù)據(jù)進行JOIN處理牲览,得到一個明細數(shù)據(jù)Hive大表墓陈;
4、 將明細數(shù)據(jù)進行復雜的統(tǒng)計分析第献,得到結果報表信息贡必;
5、 需要將統(tǒng)計分析得到的結果數(shù)據(jù)同步到業(yè)務系統(tǒng)中痊硕,供業(yè)務調(diào)用使用赊级。

工作流調(diào)度實現(xiàn)方式

簡單的任務調(diào)度:直接使用linux的crontab來定義;
復雜的任務調(diào)度:開發(fā)調(diào)度平臺
或使用現(xiàn)成的開源調(diào)度系統(tǒng)岔绸,比如ooize、azkaban等

常見工作流調(diào)度系統(tǒng)

市面上目前有許多工作流調(diào)度器
在hadoop領域橡伞,常見的工作流調(diào)度器有Oozie, Azkaban,Cascading,Hamake等

各種調(diào)度工具特性對比

下面的表格對上述四種hadoop工作流調(diào)度器的關鍵特性進行了比較盒揉,盡管這些工作流調(diào)度器能夠解決的需求場景基本一致,但在設計理念兑徘,目標用戶刚盈,應用場景等方面還是存在顯著的區(qū)別,在做技術選型的時候挂脑,可以提供參考


1.png
Azkaban與Oozie對比

對市面上最流行的兩種調(diào)度器藕漱,給出以下詳細對比,以供技術選型參考崭闲±吡總體來說,ooize相比azkaban是一個重量級的任務調(diào)度系統(tǒng)刁俭,功能全面橄仍,但配置使用也更復雜。如果可以不在意某些功能的缺失,輕量級調(diào)度器azkaban是很不錯的候選對象侮繁。
詳情如下:
◆ 功能
兩者均可以調(diào)度mapreduce,pig,java,腳本工作流任務
兩者均可以定時執(zhí)行工作流任務

◆ 工作流定義
Azkaban使用Properties文件定義工作流
Oozie使用XML文件定義工作流

◆ 工作流傳參
Azkaban支持直接傳參虑粥,例如${input}

Oozie支持參數(shù)和EL表達式,例如${fs:dirSize(myInputDir)}

◆ 定時執(zhí)行
Azkaban的定時執(zhí)行任務是基于時間的
Oozie的定時執(zhí)行任務基于時間和輸入數(shù)據(jù)

◆ 資源管理
Azkaban有較嚴格的權限控制宪哩,如用戶對工作流進行讀/寫/執(zhí)行等操作
Oozie暫無嚴格的權限控制

◆ 工作流執(zhí)行
Azkaban有兩種運行模式娩贷,分別是solo server mode(executor server和web server部署在同一臺節(jié)點)和multi server mode(executor server和web server可以部署在不同節(jié)點)
Oozie作為工作流服務器運行,支持多用戶和多工作流

◆ 工作流管理
Azkaban支持瀏覽器以及ajax方式操作工作流
Oozie支持命令行锁孟、HTTP REST育勺、Java API、瀏覽器操作工作流

Azkaban介紹

Azkaban是由Linkedin開源的一個批量工作流任務調(diào)度器罗岖。用于在一個工作流內(nèi)以一個特定的順序運行一組工作和流程涧至。Azkaban定義了一種KV文件格式來建立任務之間的依賴關系,并提供一個易于使用的web用戶界面維護和跟蹤你的工作流桑包。
它有如下功能特點:
◇ Web用戶界面
◇ 方便上傳工作流
◇ 方便設置任務之間的關系
◇ 調(diào)度工作流
◇ 認證/授權(權限的工作)
◇ 能夠殺死并重新啟動工作流
◇ 模塊化和可插拔的插件機制
◇ 項目工作區(qū)
◇ 工作流和任務的日志記錄和審計

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末南蓬,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子哑了,更是在濱河造成了極大的恐慌赘方,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件弱左,死亡現(xiàn)場離奇詭異窄陡,居然都是意外死亡,警方通過查閱死者的電腦和手機拆火,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進店門跳夭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人们镜,你說我怎么就攤上這事币叹。” “怎么了模狭?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵颈抚,是天一觀的道長。 經(jīng)常有香客問我嚼鹉,道長贩汉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任锚赤,我火速辦了婚禮匹舞,結果婚禮上,老公的妹妹穿的比我還像新娘宴树。我一直安慰自己策菜,他們只是感情好,可當我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著又憨,像睡著了一般翠霍。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蠢莺,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天寒匙,我揣著相機與錄音,去河邊找鬼躏将。 笑死锄弱,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的祸憋。 我是一名探鬼主播会宪,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蚯窥!你這毒婦竟也來了掸鹅?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤拦赠,失蹤者是張志新(化名)和其女友劉穎巍沙,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體荷鼠,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡句携,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了允乐。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矮嫉。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖喳篇,靈堂內(nèi)的尸體忽然破棺而出敞临,到底是詐尸還是另有隱情,我是刑警寧澤麸澜,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站奏黑,受9級特大地震影響炊邦,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜熟史,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一馁害、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蹂匹,春花似錦碘菜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽仰坦。三九已至,卻和暖如春计雌,著一層夾襖步出監(jiān)牢的瞬間悄晃,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工凿滤, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留妈橄,地道東北人。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓翁脆,卻偏偏與公主長得像眷蚓,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子反番,可洞房花燭夜當晚...
    茶點故事閱讀 44,781評論 2 354