為什么要有Oozie耘拇?
在數(shù)據(jù)業(yè)務(wù)場(chǎng)景,對(duì)于數(shù)據(jù)的處理往往是分階段處理笛谦,而不同的階段可能采用了不同的技術(shù)框架去完成這個(gè)業(yè)務(wù)需求碗暗,且可能在不同的階段要干不同的事颈将。
炒飯(鍋) à 吃飯(碗) à 筷子(動(dòng)手)
要吃飯就要等炒飯先用鍋炒好,要用筷子動(dòng)手吃飯就要等碗里裝了飯言疗,這是一個(gè)流水線(xiàn)式的過(guò)程晴圾,如果用設(shè)定時(shí)間的方式,到了什么時(shí)候就拿完去裝飯噪奄,但如果今天兼職的人特別多疑务,那么炒的飯必然就多了沾凄,時(shí)間也長(zhǎng)了,但是設(shè)定時(shí)間到了知允,還沒(méi)炒好撒蟀,可是有一堆人擠在廚房喊要飯,問(wèn)題就出現(xiàn)了温鸽。
于是有的人會(huì)想保屯,如果有一個(gè)監(jiān)督人幫我去這個(gè)監(jiān)控、通知涤垫、控制好整個(gè)流程姑尺,那樣多好啊,廚房就不會(huì)給天天催了蝠猬,也不會(huì)發(fā)生擁擠的情況切蟋。
????? 小結(jié):一個(gè)完整的數(shù)據(jù)分析系統(tǒng)通常是由大量的任務(wù)單元組成,Shell腳本榆芦、Java程序柄粹、MapReduce程序、Hive腳本等等匆绣,各個(gè)任務(wù)單元之間存在時(shí)間先后及前后依賴(lài)關(guān)系驻右。
????? 為了很好的組織這樣的復(fù)雜執(zhí)行計(jì)劃,需要一個(gè)工作流調(diào)度系統(tǒng)來(lái)調(diào)用執(zhí)行崎淳。
????? 簡(jiǎn)單的工作流調(diào)度:Liunx的crontab來(lái)定義
????? 復(fù)雜的工作流調(diào)度:Oozie堪夭、Azakaban等。拣凹。森爽。
主流幾款工作流調(diào)度框架
特性HamakeOozieAzkabanCascading
工作流描述語(yǔ)言XMLXML (xPDL based)text file with key/value? pairsJava API
依賴(lài)機(jī)制data-drivenexplicitexplicitexplicit
是否要web容器NoYesYesNo
進(jìn)度跟蹤console/log messagesweb pageweb pageJava API
Hadoop job調(diào)度支持noyesyesyes
運(yùn)行模式command line utilitydaemondaemonAPI
Pig支持yesyesyesyes
事件通知nononoyes
需要安裝noyesyesno
支持的hadoop版本0.18+0.20+currently unknown0.18+
重試支持noworkflownode? evelyesyes
運(yùn)行任意命令yesyesyesyes
Amazon EMR支持yesnocurrently unknownyes
什么是Oozie?
????? Oozie(馴象人)是一個(gè)基于工作流引擎的開(kāi)源框架嚣镜,由Cloudera公司貢獻(xiàn)給Apache的爬迟,用在一個(gè)工作流內(nèi)以一個(gè)特定順序運(yùn)行一組工作或流程。
????? Oozie在集群中扮演的是定時(shí)調(diào)度任務(wù)祈惶,多任務(wù),并開(kāi)源按照業(yè)務(wù)邏輯順序調(diào)度扮匠。
組成
Workflow:順序執(zhí)行流程節(jié)點(diǎn)捧请,執(zhí)行分支多節(jié)點(diǎn)或合并多分點(diǎn)為一個(gè)分支。
Coordinator:定時(shí)觸發(fā)Workflow
BundleJob:綁定多個(gè)Coordinator
Oozie節(jié)點(diǎn)
????? 控制流節(jié)點(diǎn)(Control Flow Nodes):一般都是定義在工作流開(kāi)始或結(jié)束棒搜,比如start疹蛉、end、kill等力麸,以及提供工作流的執(zhí)行路徑可款。
????? 動(dòng)作節(jié)點(diǎn)(Action Nodes):執(zhí)行具體動(dòng)作的節(jié)點(diǎn)育韩。
案例
job.properties
#NameNode地址
nameNode=hdfs://hadoop-senior00-levi.com:8082
#ResourceManager地址,默認(rèn)端口8032
jobTracker=hadoop-senior00-levi.com:8032
#內(nèi)部的Event隊(duì)列名稱(chēng)
queueName=default
examplesRoot=oozie-apps
#程序位置
oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/shell
#執(zhí)行這個(gè)腳本
EXEC1=test1.sh
EXEC2=test2.sh
workflow.xml
???
???
???????????????
???????????????????????${jobTracker}
???????????????????????${nameNode}
???????????????????????
???????????????????????????????
???????????????????????????????????????mapred.job.queue.name
???????????????????????????????????????${queueName}
??????????????????????? ${EXEC1}
???????????????????????/user/admin/oozie-apps/shell/${EXEC1}#${EXEC1}
???????????????????????
???????????????
???????????????
??????????? ?
???????????????
???????????????????????${jobTracker}
???????????????????????${nameNode}
???????????????????????
???????????????????????????????
???????????????????????????????????????mapred.job.queue.name
???????????????????????????????????????${queueName}
??????????????????????? ${EXEC2}
???????????????????????/user/admin/oozie-apps/shell/${EXEC2}#${EXEC2}
???????????????????????
???????????????
???????????????
???
???????
???????????
???????????????${wf:actionData('shell-node')['my_output'] eq 'Hello Oozie'}
???????????
???
???????Shell action failed, errormessage[${wf:errorMessage(wf:lastErrorNode())}]
???
???????Incorrect output, expected [Hello Oozie] but was[${wf:actionData('shell-node')['my_output']}]
???
test1.sh
#!/bin/bash
/usr/bin/date > /tmp/test.log
/usr/bin/date > /tmp/test.log
執(zhí)行:
上傳到HDFS:
hdfs dfs -rmr /user/levi/oozie-apps
hdfs dfs -put oozie-apps/ /user/levi
執(zhí)行任務(wù):
bin/oozie job --ooziehttp://hadoop-senior00-levi.com:11000/oozie -config oozie-apps/shell/job.properties-run
使用注意事項(xiàng)
[if !supportLists]1.????[endif]啟動(dòng)不了闺鲸,則到oozie-server/temp查看是否有*.pid文件筋讨,有就刪除后在啟動(dòng)。
[if !supportLists]2.????[endif]如果無(wú)法關(guān)閉oozie則kill掉摸恍。
[if !supportLists]3.????[endif]Mysql配置如果沒(méi)有生效的話(huà)悉罕,默認(rèn)使用derby數(shù)據(jù)庫(kù)
[if !supportLists]4.????[endif]在本地修改完成的job配置,必須重新上傳到HDFS立镶。
[if !supportLists]5.????[endif]Linux用戶(hù)名和Hadoop的用戶(hù)名不一致壁袄。
[if !supportLists]6.????[endif]時(shí)區(qū)