快樂大數(shù)據(jù)第四課 Mapreduce的優(yōu)化

快樂大數(shù)據(jù)第四課 Mapreduce的優(yōu)化

1.Shuffle的過程

(1)每個Mag Task把輸出結(jié)果寫到內(nèi)存中的環(huán)形緩沖區(qū)湃望;當(dāng)內(nèi)存環(huán)形緩沖區(qū)寫入的數(shù)據(jù)量達(dá)到一定

閾值時收奔,后臺線程會把數(shù)據(jù)溢出寫到磁盤(根據(jù)分區(qū)號(數(shù)據(jù)的哈希值/reduce task的ID的余數(shù)),把數(shù)據(jù)寫入不同的分區(qū)撒会,對每個分區(qū)上的數(shù)據(jù)進(jìn)行排序)毫目。

(2)隨著Map Task的不斷進(jìn)行蔬啡,磁盤上的溢出文件會越來越多。在Shuffle過程中镀虐,Aplication Master會將這些溢出

文件合并箱蟆,對于一個分區(qū)下的不同分片,使用歸并排序刮便,同一分區(qū)內(nèi)數(shù)據(jù)進(jìn)行有序排序空猜。

(3)Reduce Task通過網(wǎng)絡(luò)遠(yuǎn)程拷貝mapTask的結(jié)果中屬于它的分區(qū)文件。合并所有已經(jīng)拷貝過的數(shù)據(jù)文件诺核,使用歸并排序算法抄肖,將相同key的數(shù)據(jù)歸為一組久信,不同key之間有序排列窖杀。最終生成一個key對應(yīng)一組值的數(shù)據(jù)集,一個key對應(yīng)的一組數(shù)據(jù)調(diào)用一次reduce方法

"-Djava.ext.dirs=D:\java1.8\jre\lib\ext", "D:\java1.8\jre1.8\bin\server\jvm.dll"

2.Combiner總結(jié)

(1)Combiner調(diào)用的地方

? ? MapTask的環(huán)形緩沖區(qū)向磁盤溢寫文件調(diào)用Combiner

? ? map階段在合并本地多個文件寫入一個大文件之前調(diào)用Combiner

(2)使用Combiner的好處

? 減少Map Task輸出數(shù)據(jù)量裙士,由于臨時結(jié)果寫入本地磁盤入客,所以能減少磁盤I/O

? 減少Reduce-Map網(wǎng)絡(luò)傳輸數(shù)據(jù)量,由于reduce需要遠(yuǎn)程通過

應(yīng)用場景:針對結(jié)果可以疊加的場景 SUM(YES)腿椎,Average(NO)

設(shè)置方法:(local reducer)

? job.setCombinerClass(WordCountReducer.class)

3.YARN調(diào)度器

數(shù)據(jù)本地性 任務(wù)運(yùn)行與需要處理的數(shù)據(jù)在同一個節(jié)點桌硫,則稱為該任務(wù)具有“數(shù)據(jù)本地性”

數(shù)據(jù)本地性級別(性能由高到低排列)

? 同節(jié)點(node-local)

? 同機(jī)架(rack-local)

? 跨機(jī)架(off-switch)

4.推測執(zhí)行

? ? 發(fā)現(xiàn)執(zhí)行慢的任務(wù),在其他機(jī)器上執(zhí)行一個備份任務(wù)啃炸,同時運(yùn)行铆隘,誰先運(yùn)行

? ? 完,則采用誰的結(jié)果南用。但對于存在的大數(shù)據(jù)量的負(fù)載傾斜膀钠,或者向數(shù)據(jù)庫寫

? 數(shù)據(jù)掏湾。不適合推測執(zhí)行

5.YARN-調(diào)度器

? 之前采用FIFO(先入先出)的法則。資源利用低肿嘲,緊急的作業(yè)無法插隊

? 隨后采用多隊列分開調(diào)度的方法:所有資源按照比例劃分到不同的隊列融击。每個隊列實現(xiàn)單獨的調(diào)度測了

? 優(yōu)點是讓更多的應(yīng)用程序獲得資源,使用靈活雳窟,資源利用率高尊浪。

? 調(diào)度器包括? CapacityScheduler調(diào)度器和FairScheduler調(diào)度器。

5(1)CapacityScheduler配置方法

? capacity-scheduler.xml參數(shù)說明

? ? ? capacity:隊列占用的集群資源容量百分比封救,所有隊列的容量之和少于100

? ? maximum-capacity 由于存在資源共享拇涤,因此一個隊列使用的資源可能超過其容量,最多使用

? 可通過該參數(shù)限制.配置完成后無需重啟YARN誉结,使用管理命令刷新調(diào)度設(shè)置

? ? bin/yarn madmin -refreshQueues

5(2)FairScheduler調(diào)度器

? ? ? 以隊列方式組織作業(yè)工育,基于最小資源量和公平共享量進(jìn)行調(diào)度;支持資源搶占搓彻。內(nèi)部隊列中

? ? 可用的策略:FIFO fair(默認(rèn))如绸,基于內(nèi)存使用量調(diào)度分配資源

? ? 任務(wù)延時調(diào)度:提高數(shù)據(jù)本地性和提高系統(tǒng)整體吞吐率。

實戰(zhàn)

A演示公平調(diào)度器

? 在node02上旭贬,cd /usr/local/hadoop/etc/hadoop

? 編輯公平調(diào)度器后怔接,重啟

? ? yarn-daemon.sh stop resourcemanager

? ? yarn-daemon.sh start resourcemanager

新建 data_bi用戶

echo data_bi |passwd --stdin data_bi

以用戶data_bi完成wordcount的例子 闡釋 公平調(diào)度器中不同用戶完成作業(yè)的過程。

B廣告曝光的例子

B1 計算曝光量

首先在第一臺機(jī)器上切換到用戶 hadoop

su hadoop

cd ~

mkdir jobs

在jobs目錄下:

刪除之前的 MapReducePro-1.0-SNAPSHOT.jar

rm -f MapReducePro-1.0-SNAPSHOT.jar

上傳最新的

rz

mkdir mr_pvdata

cd mr_pvdata

rz

廣告文件

格式? 地域ID? 用戶ID 曝光還是點擊 日期

在根目錄下創(chuàng)建文件夾存數(shù)據(jù)

hadoop fs -mkdir -p? /addata/pv_click_datas

上傳數(shù)據(jù)

hadoop fs -put ad_data_2017122*? /addata/pv_click_datas

hadoop fs -ls /addata/pv_click_datas

cd ~/jobs

hadoop jar MapReducePro-1.0-SNAPSHOT.jar bigdata.mr.MrPvSortByDayApp /addata/pv_click_datas? /addata/pv_click_datas/out

hadoop fs -ls /addata/pv_click_datas/out

查看排序結(jié)果

hadoop fs -cat /addata/pv_click_datas/out/part-r-00000

B2把28號的數(shù)據(jù)單獨建立一個文件夾稀轨,再把28號的數(shù)據(jù)傳上去扼脐,然后計算曝光率

hadoop fs -mkdir /addata/dt=20171228

hadoop fs -put ~/jobs/mr_pvdata/ad_data_20171228.txt /addata/dt=20171228

hadoop fs -ls hadoop fs /addata/dt=20171228

在jobs目錄下

hadoop jar MapReducePro-1.0-SNAPSHOT.jar bigdata.mr.MrPvClickByAreaDayApp /addata/dt=20171228 /addata/dt=20171228/out

hadoop fs -ls /addata/dt=20171228/out

查看曝光率的結(jié)果

hadoop fs -cat /addata/dt=20171228/out/part-r-00000

B3 統(tǒng)計同一年齡段不同性別人的最高打分

hadoop fs -mkdir /addata/user_core

cd ~/jobs/mr_pvdata

hadoop fs? -put user_core.txt /addata/user_core

cd ..

在jobs目錄下

hadoop jar MapReducePro-1.0-SNAPSHOT.jar bigdata.mr.MrUserAgeMaxCoreApp /addata/user_core? /addata/user_core/out

查看結(jié)果

會有三個 ,每個年齡段一個

hadoop fs -ls /addata/user_core/out

hadoop fs -cat /addata/user_core/out/part-r-00002

hadoop fs -cat /addata/user_core/out/part-r-00001

hadoop fs -cat /addata/user_core/out/part-r-00000

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末奋刽,一起剝皮案震驚了整個濱河市瓦侮,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌佣谐,老刑警劉巖肚吏,帶你破解...
    沈念sama閱讀 216,470評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異狭魂,居然都是意外死亡罚攀,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評論 3 392
  • 文/潘曉璐 我一進(jìn)店門雌澄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來斋泄,“玉大人,你說我怎么就攤上這事镐牺§牌” “怎么了?”我有些...
    開封第一講書人閱讀 162,577評論 0 353
  • 文/不壞的土叔 我叫張陵睬涧,是天一觀的道長募胃。 經(jīng)常有香客問我沛厨,道長,這世上最難降的妖魔是什么摔认? 我笑而不...
    開封第一講書人閱讀 58,176評論 1 292
  • 正文 為了忘掉前任逆皮,我火速辦了婚禮,結(jié)果婚禮上参袱,老公的妹妹穿的比我還像新娘电谣。我一直安慰自己,他們只是感情好抹蚀,可當(dāng)我...
    茶點故事閱讀 67,189評論 6 388
  • 文/花漫 我一把揭開白布剿牺。 她就那樣靜靜地躺著,像睡著了一般环壤。 火紅的嫁衣襯著肌膚如雪晒来。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,155評論 1 299
  • 那天郑现,我揣著相機(jī)與錄音湃崩,去河邊找鬼。 笑死接箫,一個胖子當(dāng)著我的面吹牛攒读,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播辛友,決...
    沈念sama閱讀 40,041評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼薄扁,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了废累?” 一聲冷哼從身側(cè)響起邓梅,我...
    開封第一講書人閱讀 38,903評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎邑滨,沒想到半個月后日缨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,319評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡驼修,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,539評論 2 332
  • 正文 我和宋清朗相戀三年殿遂,在試婚紗的時候發(fā)現(xiàn)自己被綠了诈铛。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乙各。...
    茶點故事閱讀 39,703評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖幢竹,靈堂內(nèi)的尸體忽然破棺而出耳峦,到底是詐尸還是另有隱情,我是刑警寧澤焕毫,帶...
    沈念sama閱讀 35,417評論 5 343
  • 正文 年R本政府宣布蹲坷,位于F島的核電站驶乾,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏循签。R本人自食惡果不足惜级乐,卻給世界環(huán)境...
    茶點故事閱讀 41,013評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望县匠。 院中可真熱鬧风科,春花似錦、人聲如沸乞旦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽兰粉。三九已至故痊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間玖姑,已是汗流浹背愕秫。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留焰络,地道東北人豫领。 一個月前我還...
    沈念sama閱讀 47,711評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像舔琅,于是被迫代替她去往敵國和親等恐。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,601評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 一备蚓、系統(tǒng)參數(shù)配置優(yōu)化 1课蔬、系統(tǒng)內(nèi)核參數(shù)優(yōu)化配置 修改文件/etc/sysctl.conf,添加如下配置郊尝,然后執(zhí)行s...
    張偉科閱讀 3,748評論 0 14
  • day06.Hadoop快速入門&云服務(wù)三種模式IaaS流昏,PaaS和SaaS【大數(shù)據(jù)教程】 1. HADOOP背景...
    Java幫幫閱讀 1,084評論 0 7
  • 首先扎即,我們在使用前先看看HDFS是什麼?這將有助于我們是以后的運(yùn)維使用和故障排除思路的獲得况凉。 HDFS采用mast...
    W_Bousquet閱讀 4,194評論 0 2
  • “這個洗衣機(jī)能用嗎谚鄙?” “你看那個時間,應(yīng)該是不能用刁绒。用第二個吧闷营。” 早上洗衣服的時候,有人問我傻盟。第三個洗衣機(jī)我用...
    羞羞的麥穗閱讀 157評論 0 1
  • 癡情女子負(fù)心漢 她我遠(yuǎn)方的朋友速蕊,一個曾經(jīng)是另人羨慕的官太太,經(jīng)不得風(fēng)雨溫室之花娘赴,被那個人稱陳世美得老公給甩了规哲,...
    碧婷閱讀 231評論 2 1