2018-05-16

阿里云 EMR最佳實(shí)踐和容災(zāi)

阿里云EMR(Elastic MapReduce)是一項(xiàng)?Web?服務(wù)咐蚯,簡(jiǎn)化了大數(shù)據(jù)處理童漩,提供的大數(shù)據(jù)框架可以讓您輕松、高速春锋、經(jīng)濟(jì)矫膨、安全、穩(wěn)定地處理大數(shù)據(jù),滿足如日志分析侧馅、數(shù)據(jù)倉(cāng)庫(kù)危尿、商業(yè)智能、機(jī)器學(xué)習(xí)馁痴、科學(xué)模擬等業(yè)務(wù)需求谊娇。

一. 最佳實(shí)踐

1. 混合使用包年及按需計(jì)費(fèi),節(jié)約成本

數(shù)據(jù)都存在熱罗晕、冷的差異济欢。一般建議把冷數(shù)據(jù)存放在OSS中,熱數(shù)據(jù)放在本地HDFS中小渊。晚上00:00-06:00按需運(yùn)行法褥,運(yùn)行完成后釋放集群,節(jié)約成本酬屉。晚上ECS水位低半等,比較容易申請(qǐng)到大集群。

2. 離線處理-用戶行為分析

服務(wù)端會(huì)把這些信息存儲(chǔ)在OSS中呐萨,再啟動(dòng)E-MapReduce中的Hive腳本分析這些數(shù)據(jù)杀饵,如:統(tǒng)計(jì)pv和uv,再把每個(gè)鏈接的訪問(wèn)情況存儲(chǔ)在RDS中谬擦,最后通過(guò)報(bào)表系統(tǒng)展示切距。

3. 離線處理+在線服務(wù)進(jìn)行多維度信息統(tǒng)計(jì)

比如考慮到這樣的一個(gè)場(chǎng)景,車(chē)載APP會(huì)實(shí)時(shí)上傳汽車(chē)的物理指標(biāo)怯屉,包括車(chē)速蔚舀、發(fā)動(dòng)機(jī)功耗饵沧、電池電壓等锨络,這些信息首先存儲(chǔ)到EMR Hbase中,再啟用E-MapReduce的hive或者mapreduce或者spark離線分析狼牺,按照城市的粒度羡儿,即分析出來(lái)某個(gè)城市某個(gè)時(shí)段的車(chē)輛出行率、出行里程平均數(shù)是钥、車(chē)速平均值掠归、平均油耗、出行車(chē)輛數(shù)悄泥、平均怠速時(shí)間虏冻、劇烈駕駛次數(shù),這些信息又存放到Hbase中做成服務(wù)弹囚。

4. 離線處理-推薦(機(jī)器學(xué)習(xí))


用戶會(huì)對(duì)視頻發(fā)生點(diǎn)贊厨相、喜歡、收藏、分享蛮穿、觀看等行為庶骄,將用戶對(duì)某個(gè)視頻產(chǎn)生同一行為的用戶進(jìn)行關(guān)聯(lián)分析建模。然后當(dāng)某個(gè)用戶看了某個(gè)視頻践磅,而相關(guān)聯(lián)的好友用戶沒(méi)有看過(guò)該視頻的話单刁,就會(huì)在該用戶觀看視頻播放器的下方進(jìn)行推薦。整個(gè)過(guò)程用了協(xié)同過(guò)濾算法府适。主要是spark mllib分析oss中用戶的日志羔飞,存放在rds中。

5. 實(shí)時(shí)處理-監(jiān)控報(bào)警

統(tǒng)計(jì)數(shù)據(jù)從多個(gè)維度來(lái)展現(xiàn)當(dāng)前服務(wù)質(zhì)量檐春,例如各種請(qǐng)求狀態(tài)碼占比褥傍,請(qǐng)求接口占比,每種請(qǐng)求的狀態(tài)碼占比喇聊,請(qǐng)求延時(shí)分布恍风,每種請(qǐng)求的時(shí)延占比。最終結(jié)果可以呈現(xiàn)給運(yùn)維人員或者開(kāi)發(fā)人員誓篱,用來(lái)進(jìn)一步保證服務(wù)質(zhì)量和優(yōu)化服務(wù)性能朋贬。如果出現(xiàn)一些異常情況,則報(bào)警給運(yùn)維人員或者開(kāi)發(fā)人員窜骄。主要的架構(gòu)就是使用了spark streaming接受logservice實(shí)時(shí)推送過(guò)來(lái)的日志锦募,分析完成后,實(shí)時(shí)存放到rds中邻遏,出現(xiàn)問(wèn)題時(shí)監(jiān)控報(bào)警系統(tǒng)會(huì)觸發(fā)報(bào)警糠亩。

例如一個(gè)有用戶瀏覽的網(wǎng)站,日志信息用logService接收准验。一方面存入到OSS中赎线,晚上啟動(dòng)E-MapReduce離線分析,比如糊饱,頁(yè)面的UV垂寥、從A頁(yè)面到B頁(yè)面的調(diào)轉(zhuǎn),提供運(yùn)營(yíng)同學(xué)數(shù)據(jù)化支持另锋。另一方面滞项,用戶在不斷瀏覽過(guò)程中,我們希望根據(jù)瀏覽情況實(shí)時(shí)自動(dòng)推薦用戶內(nèi)容夭坪,E-MapReduce spark Streaming就實(shí)時(shí)接收 logService的數(shù)據(jù)文判,再結(jié)合spark mllib的算法,自動(dòng)算出推薦內(nèi)容室梅,存儲(chǔ)到RDS中戏仓,前端用戶瀏覽時(shí)推薦的內(nèi)容會(huì)實(shí)時(shí)發(fā)生變化潭流。

阿里云 EMR最佳實(shí)踐和容災(zāi)-博客-云棲社區(qū)-阿里云 二. 容災(zāi)設(shè)計(jì)

1. 數(shù)據(jù)容災(zāi)

Hadoop分布式文件系統(tǒng)(HDFS)將每一個(gè)文件的數(shù)據(jù)進(jìn)行分塊存儲(chǔ),同時(shí)每一個(gè)數(shù)據(jù)塊又保存有多個(gè)副本(系統(tǒng)默認(rèn)為每一個(gè)數(shù)據(jù)塊存放3個(gè)副本),盡量保證這些數(shù)據(jù)塊副本分布在不同的機(jī)架之上(在大多數(shù)情況下柜去,副本系數(shù)是3灰嫉,HDFS的存放策略是將一個(gè)副本存放在本地機(jī)架節(jié)點(diǎn)上,一個(gè)副本存放在同一個(gè)機(jī)架的另一個(gè)節(jié)點(diǎn)上嗓奢,最后一個(gè)副本放在不同機(jī)架的節(jié)點(diǎn)上)讼撒。


HDFS會(huì)定期掃描數(shù)據(jù)副本,若發(fā)現(xiàn)數(shù)據(jù)副本發(fā)生丟失股耽,則會(huì)快速的進(jìn)行數(shù)據(jù)的復(fù)制以保證副本的數(shù)量根盒。若發(fā)現(xiàn)節(jié)點(diǎn)丟失,則節(jié)點(diǎn)上的所有數(shù)據(jù)也會(huì)快速的進(jìn)行復(fù)制恢復(fù)物蝙。在阿里云上炎滞,如果是使用云盤(pán)的技術(shù),則在后臺(tái)每一個(gè)云盤(pán)都會(huì)對(duì)應(yīng)三個(gè)數(shù)據(jù)副本诬乞,當(dāng)其中的任何一個(gè)出現(xiàn)問(wèn)題時(shí)册赛,副本數(shù)據(jù)都會(huì)自動(dòng)進(jìn)行切換并恢復(fù),以保證數(shù)據(jù)的可靠性震嫉。


Hadoop HDFS是一個(gè)經(jīng)歷了長(zhǎng)時(shí)間考驗(yàn)且具有高可靠性的數(shù)據(jù)存儲(chǔ)系統(tǒng)森瘪,已經(jīng)能夠?qū)崿F(xiàn)海量數(shù)據(jù)的高可靠性存儲(chǔ)。同時(shí)基于云上的特性票堵,也可以在OSS等服務(wù)上進(jìn)行數(shù)據(jù)的額外備份扼睬,來(lái)達(dá)到更高的數(shù)據(jù)可靠性。

2. 服務(wù)容災(zāi)

Hadoop的核心組件都會(huì)進(jìn)行HA的部署悴势,即有至少2個(gè)節(jié)點(diǎn)的服務(wù)互備窗宇,如YARN,HDFS特纤,Hive Server军俊,Hive Meta,以保證在任何時(shí)候叫潦,其中任何一個(gè)服務(wù)節(jié)點(diǎn)掛掉時(shí)蝇完,當(dāng)前的服務(wù)節(jié)點(diǎn)都能自動(dòng)的進(jìn)行切換,保證服務(wù)不會(huì)受到影響。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末丁存,一起剝皮案震驚了整個(gè)濱河市株搔,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌罢维,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異卿操,居然都是意外死亡警检,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門(mén)害淤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)扇雕,“玉大人,你說(shuō)我怎么就攤上這事窥摄∠夥睿” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵崭放,是天一觀的道長(zhǎng)哨苛。 經(jīng)常有香客問(wèn)我,道長(zhǎng)币砂,這世上最難降的妖魔是什么建峭? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮决摧,結(jié)果婚禮上亿蒸,老公的妹妹穿的比我還像新娘。我一直安慰自己掌桩,他們只是感情好祝懂,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著拘鞋,像睡著了一般砚蓬。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上盆色,一...
    開(kāi)封第一講書(shū)人閱讀 51,763評(píng)論 1 307
  • 那天灰蛙,我揣著相機(jī)與錄音,去河邊找鬼隔躲。 笑死摩梧,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的宣旱。 我是一名探鬼主播仅父,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼浑吟!你這毒婦竟也來(lái)了笙纤?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤组力,失蹤者是張志新(化名)和其女友劉穎省容,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體燎字,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡腥椒,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年阿宅,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片笼蛛。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡洒放,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出滨砍,到底是詐尸還是另有隱情拉馋,我是刑警寧澤,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布惨好,位于F島的核電站煌茴,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏日川。R本人自食惡果不足惜蔓腐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望龄句。 院中可真熱鬧回论,春花似錦、人聲如沸分歇。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)职抡。三九已至葬燎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間缚甩,已是汗流浹背谱净。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留擅威,地道東北人壕探。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像郊丛,于是被迫代替她去往敵國(guó)和親李请。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • Zookeeper用于集群主備切換厉熟。 YARN讓集群具備更好的擴(kuò)展性导盅。 Spark沒(méi)有存儲(chǔ)能力。 Spark的Ma...
    Yobhel閱讀 7,277評(píng)論 0 34
  • HTTP簡(jiǎn)介 HTTP協(xié)議是Hyper Text Transfer Protocol(超文本傳輸協(xié)議)的縮寫(xiě),是用...
    一個(gè)_快樂(lè)的人閱讀 245評(píng)論 0 0
  • 這是一個(gè)高中生找我代寫(xiě)的作文庆猫,他們老師要求看到工人除草的事情寫(xiě)一篇作文认轨,600字,我模仿了初中時(shí)看的林清玄的文章月培,...
    無(wú)情公子L閱讀 513評(píng)論 0 1
  • 最近有個(gè)新需求嘁字,就是做下電商App基本都有的功能-足跡,簡(jiǎn)單的說(shuō)不就是瀏覽記錄嘛杉畜。設(shè)計(jì)圖是下面這樣滴纪蜒! 看上去設(shè)計(jì)...
    Junetaurus閱讀 2,002評(píng)論 0 0
  • 1、 "那個(gè)清怎么樣了此叠,她還好嗎纯续?"老牛滿心期待的問(wèn)。 國(guó)慶放假回家灭袁,我去找清了猬错。 她...
    南司先生閱讀 1,142評(píng)論 20 21