MapTask工作機制
簡單概述:input?File通過split被邏輯切分為多個split文件腰鬼,通過Record按行讀取內(nèi)容給map(用戶自己實現(xiàn)的)進(jìn)行處理嵌赠,數(shù)據(jù)被map處理結(jié)束之后交給OutputCollector收集器,對其結(jié)果key進(jìn)行分區(qū)(默認(rèn)使用hash分區(qū))熄赡,然后寫入buffer姜挺,每個map task都有一個內(nèi)存緩沖區(qū),存儲著map的輸出結(jié)果彼硫,當(dāng)緩沖區(qū)快滿的時候需要將緩沖區(qū)的數(shù)據(jù)以一個臨時文件的方式存放到磁盤炊豪,當(dāng)整個map task結(jié)束后再對磁盤中這個map task產(chǎn)生的所有臨時文件做合并凌箕,生成最終的正式輸出文件,然后等待reduce task來拉數(shù)據(jù)词渤。
詳細(xì)步驟:
首先牵舱,讀取數(shù)據(jù)組件InputFormat(默認(rèn)TextInputFormat)會通過getSplits方法對輸入目錄中文件進(jìn)行邏輯切片規(guī)劃得到splits,有多少個split就對應(yīng)啟動多少個MapTask缺虐。split與block的對應(yīng)關(guān)系默認(rèn)是一對一芜壁。
將輸入文件切分為splits之后高氮,由RecordReader對象(默認(rèn)LineRecordReader)進(jìn)行讀取慧妄,以\r\n作為分隔符剪芍,讀取一行數(shù)據(jù),返回
讀取split返回
map邏輯完之后罪裹,將map的每條結(jié)果通過context.write進(jìn)行collect數(shù)據(jù)收集饱普。在collect中,會先對其進(jìn)行分區(qū)處理状共,默認(rèn)使用HashPartitioner费彼。
MapReduce提供Partitioner接口口芍,它的作用就是根據(jù)key或value及reduce的數(shù)量來決定當(dāng)前的這對輸出數(shù)據(jù)最終應(yīng)該交由哪個reduce task處理。默認(rèn)對key hash后再以reduce task數(shù)量取模雇卷。默認(rèn)的取模方式只是為了平均reduce的處理能力鬓椭,如果用戶自己對Partitioner有需求,可以訂制并設(shè)置到j(luò)ob上小染。
接下來贮折,會將數(shù)據(jù)寫入內(nèi)存裤翩,內(nèi)存中這片區(qū)域叫做環(huán)形緩沖區(qū)踊赠,緩沖區(qū)的作用是批量收集map結(jié)果,減少磁盤IO的影響筐带。我們的key/value對以及Partition的結(jié)果都會被寫入緩沖區(qū)缤灵。當(dāng)然寫入之前蓝晒,key與value值都會被序列化成字節(jié)數(shù)組帖鸦。
環(huán)形緩沖區(qū)其實是一個數(shù)組,數(shù)組中存放著key作儿、value的序列化數(shù)據(jù)和key、value的元數(shù)據(jù)信息灭红,包括partition口注、key的起始位置、value的起始位置以及value的長度寝志。環(huán)形結(jié)構(gòu)是一個抽象概念。
緩沖區(qū)是有大小限制毫缆,默認(rèn)是100MB。當(dāng)map task的輸出結(jié)果很多時乐导,就可能會撐爆內(nèi)存苦丁,所以需要在一定條件下將緩沖區(qū)中的數(shù)據(jù)臨時寫入磁盤物臂,然后重新利用這塊緩沖區(qū)。這個從內(nèi)存往磁盤寫數(shù)據(jù)的過程被稱為Spill蛾狗,中文可譯為溢寫仪媒。這個溢寫是由單獨線程來完成,不影響往緩沖區(qū)寫map結(jié)果的線程留凭。溢寫線程啟動時不應(yīng)該阻止map的結(jié)果輸出赌莺,所以整個緩沖區(qū)有個溢寫的比例spill.percent。這個比例默認(rèn)是0.8艘狭,也就是當(dāng)緩沖區(qū)的數(shù)據(jù)已經(jīng)達(dá)到閾值(buffer size * spill percent = 100MB * 0.8 =80MB)翠订,溢寫線程啟動遵倦,鎖定這80MB的內(nèi)存梧躺,執(zhí)行溢寫過程。Map task的輸出結(jié)果還可以往剩下的20MB內(nèi)存中寫掠哥,互不影響。?
當(dāng)溢寫線程啟動后塞琼,需要對這80MB空間內(nèi)的key做排序(Sort)禁舷。排序是MapReduce模型默認(rèn)的行為,這里的排序也是對序列化的字節(jié)做的排序派近。
如果job設(shè)置過Combiner洁桌,那么現(xiàn)在就是使用Combiner的時候了。將有相同key的key/value對的value加起來另凌,減少溢寫到磁盤的數(shù)據(jù)量。Combiner會優(yōu)化MapReduce的中間結(jié)果,所以它在整個模型中會多次使用囊卜。
那哪些場景才能使用Combiner呢错沃?從這里分析,Combiner的輸出是Reducer的輸入枢析,Combiner絕不能改變最終的計算結(jié)果。Combiner只應(yīng)該用于那種Reduce的輸入key/value與輸出key/value類型完全一致司浪,且不影響最終結(jié)果的場景。比如累加吁伺,最大值等租谈。Combiner的使用一定得慎重,如果用好割去,它對job執(zhí)行效率有幫助呻逆,反之會影響reduce的最終結(jié)果。
每次溢寫會在磁盤上生成一個臨時文件(寫之前判斷是否有combiner)页慷,如果map的輸出結(jié)果真的很大,有多次這樣的溢寫發(fā)生滓彰,磁盤上相應(yīng)的就會有多個臨時文件存在州袒。當(dāng)整個數(shù)據(jù)處理結(jié)束之后開始對磁盤中的臨時文件進(jìn)行merge合并,因為最終的文件只有一個他匪,寫入磁盤夸研,并且為這個文件提供了一個索引文件,以記錄每個reduce對應(yīng)數(shù)據(jù)的偏移量悼沈。?
至此map整個階段結(jié)束姐扮。
Shuffle機制
1).Collect階段:將MapTask的結(jié)果輸出到默認(rèn)大小為100M的環(huán)形緩沖區(qū),保存的是key/value茶敏,Partition分區(qū)信息等惊搏。
2).Spill階段:當(dāng)內(nèi)存中的數(shù)據(jù)量達(dá)到一定的閥值的時候忧换,就會將數(shù)據(jù)寫入本地磁盤塘揣,在將數(shù)據(jù)寫入磁盤之前需要對數(shù)據(jù)進(jìn)行一次排序的操作,如果配置了combiner才写,還會將有相同分區(qū)號和key的數(shù)據(jù)進(jìn)行排序奖蔓。?
3).Merge階段:把所有溢出的臨時文件進(jìn)行一次合并操作,以確保一個MapTask最終只產(chǎn)生一個中間數(shù)據(jù)文件吆鹤。
4).Copy階段:ReduceTask啟動Fetcher線程到已經(jīng)完成MapTask的節(jié)點上復(fù)制一份屬于自己的數(shù)據(jù)疑务,這些數(shù)據(jù)默認(rèn)會保存在內(nèi)存的緩沖區(qū)中,當(dāng)內(nèi)存的緩沖區(qū)達(dá)到一定的閥值的時候知允,就會將數(shù)據(jù)寫到磁盤之上。
5).Merge階段:在ReduceTask遠(yuǎn)程復(fù)制數(shù)據(jù)的同時保屯,會在后臺開啟兩個線程對內(nèi)存到本地的數(shù)據(jù)文件進(jìn)行合并操作涤垫。
6).Sort階段:在對數(shù)據(jù)進(jìn)行合并的同時,會進(jìn)行排序操作切蟋,由于MapTask階段已經(jīng)對數(shù)據(jù)進(jìn)行了局部的排序榆芦,ReduceTask只需保證Copy的數(shù)據(jù)的最終整體有效性即可。
Shuffle中的緩沖區(qū)大小會影響到mapreduce程序的執(zhí)行效率,原則上說迷守,緩沖區(qū)越大兑凿,磁盤io的次數(shù)越少茵瘾,執(zhí)行速度就越快
緩沖區(qū)的大小可以通過參數(shù)調(diào)整, ?參數(shù):io.sort.mb ?默認(rèn)100M
ReduceTask工作機制
Reduce大致分為copy咐鹤、sort、reduce三個階段雕旨,重點在前兩個階段捧请。copy階段包含一個eventFetcher來獲取已完成的map列表,由Fetcher線程去copy數(shù)據(jù)疹蛉,在此過程中會啟動兩個merge線程,分別為inMemoryMerger和onDiskMerger可款,分別將內(nèi)存中的數(shù)據(jù)merge到磁盤和將磁盤中的數(shù)據(jù)進(jìn)行merge。待數(shù)據(jù)copy完成之后筋讨,copy階段就完成了翠拣,開始進(jìn)行sort階段,sort階段主要是執(zhí)行finalMerge操作蛮粮,純粹的sort階段谜慌,完成之后就是reduce階段,調(diào)用用戶定義的reduce函數(shù)進(jìn)行處理变泄。
詳細(xì)步驟:
Copy階段恼琼,簡單地拉取數(shù)據(jù)。Reduce進(jìn)程啟動一些數(shù)據(jù)copy線程(Fetcher)蛙卤,通過HTTP方式請求maptask獲取屬于自己的文件。
Merge階段颤难。這里的merge如map端的merge動作行嗤,只是數(shù)組中存放的是不同map端copy來的數(shù)值。Copy過來的數(shù)據(jù)會先放入內(nèi)存緩沖區(qū)中栅屏,這里的緩沖區(qū)大小要比map端的更為靈活。merge有三種形式:內(nèi)存到內(nèi)存占婉;內(nèi)存到磁盤甫恩;磁盤到磁盤。默認(rèn)情況下第一種形式不啟用奖慌。當(dāng)內(nèi)存中的數(shù)據(jù)量到達(dá)一定閾值松靡,就啟動內(nèi)存到磁盤的merge。與map 端類似岛马,這也是溢寫的過程屠列,這個過程中如果你設(shè)置有Combiner,也是會啟用的夏志,然后在磁盤中生成了眾多的溢寫文件苛让。第二種merge方式一直在運行,直到?jīng)]有map端的數(shù)據(jù)時才結(jié)束瘦材,然后啟動第三種磁盤到磁盤的merge方式生成最終的文件仿畸。
把分散的數(shù)據(jù)合并成一個大的數(shù)據(jù)后,還會再對合并后的數(shù)據(jù)排序宣蠕。
對排序后的鍵值對調(diào)用reduce方法甥捺,鍵相等的鍵值對調(diào)用一次reduce方法,每次調(diào)用會產(chǎn)生零個或者多個鍵值對皿曲,最后把這些輸出的鍵值對寫入到HDFS文件中吴侦。