Hadoop離線數(shù)據(jù)分析平臺(tái)實(shí)戰(zhàn)——520項(xiàng)目總結(jié)
到這里本次項(xiàng)目也就介紹完了朋譬,不過在項(xiàng)目最后簡單的介紹一些數(shù)字以及項(xiàng)目優(yōu)化腿堤、擴(kuò)展等情況
通過本次課程的學(xué)習(xí)砂代,希望同學(xué)們對(duì)離線數(shù)據(jù)分析這一塊有一個(gè)初步的了解到忽,
希望同學(xué)們?cè)趯W(xué)習(xí)完本課程后吴菠,對(duì)如何在工作中使用離線數(shù)據(jù)分析有一個(gè)初步的了解。
在本次課程中浩村,我主要目標(biāo)是放到了如何產(chǎn)生用戶瀏覽數(shù)據(jù)以及如何解析數(shù)據(jù)做葵,
對(duì)應(yīng)解析后的數(shù)據(jù)結(jié)果展示,講解的不是特別的詳細(xì)心墅,
所以希望同學(xué)們?cè)趯W(xué)習(xí)之余酿矢,自己想想如何能夠更好的顯示解析后的數(shù)據(jù),
最后祝同學(xué)們能夠有一個(gè)好的開始怎燥。
實(shí)際工作中常見的數(shù)字:
如果只有l(wèi)aunch和pageview事件瘫筐,一千萬的數(shù)據(jù)一般文件大小為7G左右。
單臺(tái)的Nginx+Flume基本可以支持?jǐn)?shù)據(jù)的傳輸操作铐姚,
但是最好使用兩臺(tái)機(jī)器做負(fù)載均衡/容錯(cuò)機(jī)制策肝。
如果IP解析采用我們項(xiàng)目中介紹的這種,在集群規(guī)模為3+8(3臺(tái)機(jī)器為NN+RM, 8臺(tái)機(jī)器為DN+NM)的情況下隐绵,所有的mr和hive程序運(yùn)行時(shí)間在一個(gè)小時(shí)以內(nèi)之众。
優(yōu)化:
MR程序:
進(jìn)行hadoop、hbase等參數(shù)調(diào)優(yōu)依许,使用多個(gè)reducer等棺禾。
Hive程序:
指定使用多個(gè)reducer、設(shè)置hive執(zhí)行mr時(shí)候的內(nèi)存參數(shù)峭跳、調(diào)整HQL語句結(jié)構(gòu)等
數(shù)據(jù)展示:
對(duì)應(yīng)api的產(chǎn)生可以通過添加cache的方式減少查詢數(shù)據(jù)的次數(shù)等膘婶。
擴(kuò)展:
數(shù)據(jù)收集
可以通過Nginx的負(fù)載均衡機(jī)制動(dòng)態(tài)的根據(jù)項(xiàng)目的需要添加Nginx+Flume的數(shù)據(jù)傳輸機(jī)器,
需要注意的是在采用負(fù)載均衡的時(shí)候蛀醉,flume配置中最后在文件產(chǎn)生格式中添加一個(gè)編號(hào)來分別表示不同的機(jī)器產(chǎn)生的日志記錄悬襟。
數(shù)據(jù)解析:
利用hadoop的本身優(yōu)勢(shì),可以動(dòng)態(tài)的添加datanode節(jié)點(diǎn)拯刁,增大數(shù)據(jù)的執(zhí)行能力古胆。
數(shù)據(jù)展示:
可以利用Nginx的負(fù)載均衡機(jī)制,在nginx服務(wù)器之后提供多臺(tái)tomcat的服務(wù)器來提供實(shí)際應(yīng)用筛璧。
(和其他的java web程序類似)