Map Reduce 執(zhí)行過程是數(shù)倉hql調(diào)優(yōu)所必須熟知的,也是初高級(jí)數(shù)倉工程師面試基本必問的一塊內(nèi)容八千,所以為了面包,鞏固學(xué)習(xí)一下。
Map Reduce 執(zhí)行過程:?map階段 ---> shuffle階段 ---> reduce階段
?map階段
1.分片讀取策添,在進(jìn)行map計(jì)算之前,mapreduce會(huì)根據(jù)輸入文件計(jì)算輸入分片(input split)毫缆,每個(gè)輸入分片(input split)針對(duì)一個(gè)map任務(wù)唯竹,輸入分片(input split)存儲(chǔ)的并非數(shù)據(jù)本身,而是一個(gè)分片長度和一個(gè)記錄數(shù)據(jù)的位置的數(shù)組苦丁,輸入分片(input split)往往和hdfs的block(塊)關(guān)系很密切浸颓,假如我們設(shè)定hdfs的塊的大小是128mb,如果我們輸入有三個(gè)文件旺拉,大小分別是3mb产上、129mb和255mb,那么mapreduce會(huì)把3mb文件分為一個(gè)輸入分片(input split)蛾狗,129mb則是兩個(gè)輸入分片(input split)而255mb也是兩個(gè)輸入分片(input split)蒂秘,那么就會(huì)有5個(gè)map任務(wù)將執(zhí)行,而且每個(gè)map執(zhí)行的數(shù)據(jù)大小不均淘太,這個(gè)也是mapreduce優(yōu)化計(jì)算的一個(gè)關(guān)鍵點(diǎn)姻僧。
2.Map 計(jì)算规丽,主要是將解析出的key/value交給用戶編寫map()函數(shù)處理,并產(chǎn)生一系列新的key/value撇贺。
3.Partition,?對(duì)于map輸出的每一個(gè)鍵值對(duì)赌莺,系統(tǒng)都會(huì)給定一個(gè)partition,partition值默認(rèn)是通過計(jì)算key的hash值后對(duì)Reduce task的數(shù)量取模獲得松嘶。如果一個(gè)鍵值對(duì)的partition值為1艘狭,意味著這個(gè)鍵值對(duì)會(huì)交給第一個(gè)Reducer處理。
4.Collect收集翠订,在用戶編寫map()函數(shù)中巢音,當(dāng)數(shù)據(jù)處理完成后,一般會(huì)調(diào)用OutputCollector.collect()輸出結(jié)果尽超。在該函數(shù)內(nèi)部官撼,它會(huì)將生成的key/value分區(qū)(調(diào)用Partitioner),并寫入一個(gè)環(huán)形內(nèi)存緩沖區(qū)中似谁。
5.Sort, 當(dāng)Spill觸發(fā)后傲绣,SortAndSpill先把Kvbuffer中的數(shù)據(jù)按照partition值和key兩個(gè)關(guān)鍵字升序排序,移動(dòng)的只是索引數(shù)據(jù)巩踏,排序結(jié)果是Kvmeta中數(shù)據(jù)按照partition為單位聚集在一起秃诵,同一partition內(nèi)的按照key有序。
6.Spill階段塞琼,即“溢寫”菠净,當(dāng)環(huán)形緩沖區(qū)滿后,MapReduce會(huì)將數(shù)據(jù)寫到本地磁盤上彪杉,生成一個(gè)臨時(shí)文件毅往。需要注意的是,將數(shù)據(jù)寫入本地磁盤之前在讶,先要對(duì)數(shù)據(jù)進(jìn)行一次本地排序煞抬,并在必要時(shí)對(duì)數(shù)據(jù)進(jìn)行合并霜大、壓縮等操作。
溢寫階段詳情:
步驟1:利用快速排序算法對(duì)緩存區(qū)內(nèi)的數(shù)據(jù)進(jìn)行排序,排序方式是缕贡,先按照分區(qū)編號(hào)partition進(jìn)行排序福稳,然后按照key進(jìn)行排序。這樣途茫,經(jīng)過排序后碟嘴,數(shù)據(jù)以分區(qū)為單位聚集在一起,且同一分區(qū)內(nèi)所有數(shù)據(jù)按照key有序囊卜。
步驟2:按照分區(qū)編號(hào)由小到大依次將每個(gè)分區(qū)中的數(shù)據(jù)寫入任務(wù)工作目錄下的臨時(shí)文件output/spillN.out(N表示當(dāng)前溢寫次數(shù))中娜扇。如果用戶設(shè)置了Combiner错沃,則寫入文件之前,對(duì)每個(gè)分區(qū)中的數(shù)據(jù)進(jìn)行一次聚集操作雀瓢。
步驟3:將分區(qū)數(shù)據(jù)的元信息寫到內(nèi)存索引數(shù)據(jù)結(jié)構(gòu)SpillRecord中枢析,其中每個(gè)分區(qū)的元信息包括在臨時(shí)文件中的偏移量、壓縮前數(shù)據(jù)大小和壓縮后數(shù)據(jù)大小刃麸。如果當(dāng)前內(nèi)存索引大小超過1MB醒叁,則將內(nèi)存索引寫到文件output/spillN.out.index中。
7.Combine階段,combiner階段是程序員可以選擇的泊业,combiner其實(shí)也是一種reduce操作把沼,Combiner是一個(gè)本地化的reduce操作,它是map運(yùn)算的后續(xù)操作吁伺,主要是在map計(jì)算出中間文件前做一個(gè)簡單的合并重復(fù)key值的操作饮睬,例如我們對(duì)文件里的單詞頻率做統(tǒng)計(jì),map計(jì)算時(shí)候如果碰到一個(gè)hadoop的單詞就會(huì)記錄為1箱蝠,但是這篇文章里hadoop可能會(huì)出現(xiàn)n多次续捂,那么map輸出文件冗余就會(huì)很多,因此在reduce計(jì)算前對(duì)相同的key做一個(gè)合并操作宦搬,那么文件會(huì)變小牙瓢,這樣就提高了寬帶的傳輸效率,畢竟hadoop計(jì)算力寬帶資源往往是計(jì)算的瓶頸也是最為寶貴的資源间校,但是combiner操作是有風(fēng)險(xiǎn)的矾克,使用它的原則是combiner的輸入不會(huì)影響到reduce計(jì)算的最終輸入,例如:如果計(jì)算只是求總數(shù)憔足,最大值胁附,最小值可以使用combiner,但是做平均值計(jì)算使用combiner的話滓彰,最終的reduce計(jì)算結(jié)果就會(huì)出錯(cuò)控妻。
shuffle 階段
Shuffle過程包含在Map和Reduce兩端,即Map shuffle和Reduce shuffle揭绑。
1.在Map端的shuffle過程是對(duì)Map的結(jié)果進(jìn)行分區(qū)弓候、排序、分割他匪,然后將屬于同一劃分(分區(qū))的輸出合并在一起并寫在磁盤上菇存,最終得到一個(gè)分區(qū)有序的文件,分區(qū)有序的含義是map輸出的鍵值對(duì)按分區(qū)進(jìn)行排列邦蜜,具有相同partition值的鍵值對(duì)存儲(chǔ)在一起依鸥,每個(gè)分區(qū)里面的鍵值對(duì)又按key值進(jìn)行升序排列(默認(rèn)),其流程大致如下
? ? ?2.在reduce端的shuffle過程悼沈,主要包含復(fù)制Map輸出copy贱迟、排序合并兩個(gè)階段姐扮,Reduce任務(wù)通過HTTP向各個(gè)Map任務(wù)拖取它所需要的數(shù)據(jù),Copy過來的數(shù)據(jù)會(huì)先放入內(nèi)存緩沖區(qū)中衣吠,如果內(nèi)存緩沖區(qū)中能放得下這次數(shù)據(jù)的話就直接把數(shù)據(jù)寫到內(nèi)存中溶握,即內(nèi)存到內(nèi)存merge。當(dāng)內(nèi)存緩存區(qū)中存儲(chǔ)的Map數(shù)據(jù)占用空間達(dá)到一定程度的時(shí)候蒸播,開始啟動(dòng)內(nèi)存中merge睡榆,把內(nèi)存中的數(shù)據(jù)merge輸出到磁盤上一個(gè)文件中,即內(nèi)存到磁盤merge袍榆。在將buffer中多個(gè)map輸出合并寫入磁盤之前胀屿。Reduce的內(nèi)存緩沖區(qū)可通過mapred.job.shuffle.input.buffer.percent配置,默認(rèn)是JVM的heap size的70%包雀。內(nèi)存到磁盤merge的啟動(dòng)門限可以通過mapred.job.shuffle.merge.percent配置宿崭,默認(rèn)是66%。
????當(dāng)屬于該reducer的map輸出全部拷貝完成才写,則會(huì)在reducer上生成多個(gè)文件(如果拖取的所有map數(shù)據(jù)總量都沒有內(nèi)存緩沖區(qū)大葡兑,則數(shù)據(jù)就只存在于內(nèi)存中),這時(shí)開始執(zhí)行合并操作赞草,即磁盤到磁盤merge讹堤,Map的輸出數(shù)據(jù)已經(jīng)是有序的,Merge進(jìn)行一次合并排序厨疙,所謂Reduce端的sort過程就是這個(gè)合并的過程洲守。一般Reduce是一邊copy一邊sort,即copy和sort兩個(gè)階段是重疊而不是完全分開的沾凄。最終Reduce shuffle過程會(huì)輸出一個(gè)整體有序的數(shù)據(jù)塊
reduce 階段
對(duì)排序后的鍵值對(duì)調(diào)用用戶定義的reduce函數(shù)進(jìn)行處理梗醇,鍵相等的鍵值對(duì)調(diào)用一次reduce方法,每次調(diào)用會(huì)產(chǎn)生零個(gè)或者多個(gè)鍵值對(duì)撒蟀,最后把這些輸出的鍵值對(duì)寫入到HDFS文件中
參考鏈接:https://blog.csdn.net/u014374284/article/details/49205885