圖解Hadoop的mapreduce

以下文字由小象學(xué)院老師提供

從圖中可以看出來悍引,其實(shí)mapreduce可以分為兩個階段瞧挤,一個map階段,一個reduce階段立帖。他們分別包涵若干個map任務(wù)和若干個reduce任務(wù)单山。下面還有啊碍现,不止圖上啊, 圖上只顯示了一個map任務(wù)和一個reduce任務(wù)米奸,其實(shí)下面還有其他的map任務(wù)和reduce任務(wù)昼接。那,對于map task來講呢悴晰,就是說慢睡,它每一個map task,首先它要從HDFS上面铡溪,基本上是HDFS上啊漂辐,取出若干份數(shù)據(jù)進(jìn)行處理。那每一份數(shù)據(jù)棕硫,大家現(xiàn)在應(yīng)該知道髓涯,就是說,它被稱為input split饲帅,叫一片數(shù)據(jù)或者一份數(shù)據(jù)复凳。但是spark從HDFS上面去獲取數(shù)據(jù)的時候也是用的這個方法瘤泪,也是hadoop之前存在的這種input format形式來取灶泵。那map任務(wù)首先把它加載進(jìn)來以后會把它解析成kye-value形式育八。就是把HDFS上面的數(shù)據(jù)解析成key-value形式,一行一行的key-value赦邻,一行解析成一個key-value髓棋。那你說通過什么標(biāo)準(zhǔn)來執(zhí)行呢?通過什么標(biāo)準(zhǔn)來解釋呢惶洲?就是我剛剛講的input format按声。然后,接下來的這些key-value就會傳輸給用戶編寫的map函數(shù)所運(yùn)行恬吕。然后會在環(huán)形緩沖區(qū)中排序签则,不斷地把排好序的文件到磁盤上落地。對了铐料,這個環(huán)形緩沖區(qū)設(shè)計還是很巧妙的渐裂。從圖中我們可以看到一個分片的過程,一個partition過程钠惩。為什么要有這個過程呢柒凉?就是因?yàn)閙ap任務(wù)它需要按partition的,你指定的怎么分片來確定某個map task產(chǎn)生的文件應(yīng)該被放到那個reduce上去篓跛。所以說膝捞,這邊有個分片任務(wù)。所以愧沟,這個map最終的結(jié)果出來時蔬咬,它一定是一片一片,內(nèi)部已經(jīng)排好序的一個大文件沐寺。這邊排好序了计盒,這邊也排好序了...這個屬于這個reduce task,這個屬于這個reduce task芽丹。下面的map task也一樣北启,傳到相應(yīng)的reduce上去。那另外一點(diǎn)拔第,這個圖上可能沒有顯示出來咕村,還可能有一個combine的過程。如果有combiner的話蚊俺,它就是會提前在本地做一次reduce懈涛。這個什么意思呢?譬如說泳猬,在求和時候批钠,比如說你在本地已經(jīng)有+1宇植,+1,+1....如果你不做combine的話埋心,要把它們一個個1全部傳到遠(yuǎn)端去指郁。如果你在本地做combiner的話,把1加完拷呆,發(fā)現(xiàn)是100闲坎,那好,把100傳過去就可以了茬斧,就是這個意思腰懂。可能不是太確切项秉,大概就是這么個意思绣溜。然后呢,reduce任務(wù)是從各個map任務(wù)拷貝數(shù)據(jù)娄蔼,reduce是主動的要數(shù)據(jù)怖喻,reduce取數(shù)時也是一片一片的取。每一個map任務(wù)已經(jīng)排好序贷屎,然后傳到reduce上罢防,但是,如果這些數(shù)據(jù)超過了一定的值唉侄,譬如說咒吐,到reduce這邊時它的大小超過一定的閾值,那么直接就放到磁盤上面属划,但是小于一定值恬叹,那么直接放在內(nèi)存里面。因?yàn)橥校堰@么多分片包括其他過來的分片合成一個大文件绽昼,要進(jìn)行一個歸并排序。另外一點(diǎn)须蜗,大家注意硅确,因?yàn)槊恳粋€reduce task要從很多的map task上取數(shù)據(jù),如果說你的這個map task非常多的話明肮,那么這邊有很多很多的小文件菱农,那萬一有很多小文件的話,你看這邊展布在機(jī)器上柿估。問題是循未,一是有很多小文件,而是可能把內(nèi)存擠爆秫舌,內(nèi)存就掛了的妖。最后一點(diǎn)绣檬,到sort階段的時候,reduce任務(wù)會將它們排好序嫂粟,然后做成一個大的文件娇未,傳給用戶編寫好的reduce函數(shù)去運(yùn)行自己。最后去到外部的介質(zhì)上面赋元,這個外部介質(zhì)大多數(shù)是HDFS忘蟹,也有可能是HBASE飒房,或者一些線上的任務(wù)redis搁凸。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市狠毯,隨后出現(xiàn)的幾起案子护糖,更是在濱河造成了極大的恐慌,老刑警劉巖嚼松,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嫡良,死亡現(xiàn)場離奇詭異,居然都是意外死亡献酗,警方通過查閱死者的電腦和手機(jī)寝受,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來罕偎,“玉大人很澄,你說我怎么就攤上這事⊙占埃” “怎么了甩苛?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長俏站。 經(jīng)常有香客問我讯蒲,道長,這世上最難降的妖魔是什么肄扎? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任墨林,我火速辦了婚禮,結(jié)果婚禮上犯祠,老公的妹妹穿的比我還像新娘旭等。我一直安慰自己,他們只是感情好雷则,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布辆雾。 她就那樣靜靜地躺著,像睡著了一般月劈。 火紅的嫁衣襯著肌膚如雪度迂。 梳的紋絲不亂的頭發(fā)上藤乙,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天,我揣著相機(jī)與錄音惭墓,去河邊找鬼坛梁。 笑死,一個胖子當(dāng)著我的面吹牛腊凶,可吹牛的內(nèi)容都是我干的划咐。 我是一名探鬼主播,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼钧萍,長吁一口氣:“原來是場噩夢啊……” “哼褐缠!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起风瘦,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤队魏,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后万搔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體胡桨,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年瞬雹,在試婚紗的時候發(fā)現(xiàn)自己被綠了昧谊。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡酗捌,死狀恐怖呢诬,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情意敛,我是刑警寧澤馅巷,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站草姻,受9級特大地震影響钓猬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜撩独,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一敞曹、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧综膀,春花似錦澳迫、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春拢锹,著一層夾襖步出監(jiān)牢的瞬間谣妻,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工卒稳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蹋半,地道東北人。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓充坑,卻偏偏與公主長得像减江,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子捻爷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 目的這篇教程從用戶的角度出發(fā)辈灼,全面地介紹了Hadoop Map/Reduce框架的各個方面。先決條件請先確認(rèn)Had...
    SeanC52111閱讀 1,711評論 0 1
  • 先思考問題 我們處在一個大數(shù)據(jù)的時代已經(jīng)是不爭的事實(shí)役衡,這主要表現(xiàn)在數(shù)據(jù)源多且大茵休,如互聯(lián)網(wǎng)數(shù)據(jù)薪棒,人們也認(rèn)識到數(shù)據(jù)里往...
    墻角兒的花閱讀 7,347評論 0 9
  • github鏈接 針對Hive的優(yōu)化主要有以下幾個方面: map reduce file format shuff...
    zoyanhui閱讀 6,169評論 2 33
  • 摘自:http://staticor.io/post/hadoop/2016-01-23hadoop-defini...
    wangliang938閱讀 583評論 0 1
  • 站立評估:案例骨盆右高左低 右側(cè)骨盆高手蝎,說明右側(cè)腰緊,需要拉伸右側(cè)腰俐芯。雨刷式倒向左側(cè)壓右腿棵介,與老師抗阻3組(每組1...
    瑜伽緣梅子閱讀 1,386評論 0 0