Hadoop InputFormat介紹

Hadoop InputFormat介紹

1 概述

我們在編寫MapReduce程序的時候密幔,在設(shè)置輸入格式的時候箱亿,會調(diào)用如下代碼:

job.setInputFormatClass(KeyVakueTextInputFormat.class)

通過上面的代碼來保證輸入的文件是按照我們想要的格式被讀取,所有的輸入格式都繼承于InputFormat,這是一個抽象類舱呻,其子類有專門用于讀取普通文件的FileInputFormatt,用于讀取數(shù)據(jù)庫文件的DBInputFromat,用于讀取HBase的TableInputFormat等等箱吕。如下圖是InputFormat的圖譜芥驳。

InputFormat類圖

2 InputFormat方法

從類圖中可以看出,InputFormat抽象類僅有兩個抽象方法:

public abstract List<InputSplit> getSplits(JobContext context)
public abstract RecordReader<K,V> createRecordReader(InputSplit split,TaskAttemptContext context)

getSplits()方法是邏輯上拆分作業(yè)的輸入文件集茬高,然后將每個InputSplit分配給一個單獨的Mapper進行處理

注意:拆分是按輸入文件的邏輯分割兆旬,而輸入文件不會被物理分割成塊。每個切片都是一個<input-file-path,start,offset>的元組怎栽,InputFormat并創(chuàng)建相應(yīng)的RecordReader讀取這些切片丽猬。

createRecordReader()方法是為給定的切片創(chuàng)建一個記錄閱讀器。在切片被使用之前先調(diào)用RecordReader.initialize(InputSplit, TaskAttemptContext)方法熏瞄。

通過InputFormat脚祟,MapReduce框架可以做到:

  1. 驗證作業(yè)輸入的正確性
  2. 將輸入的文件切割成邏輯分片(InputSplit),一個InputSplit將會分配給一個獨立的MapTask
  3. 提供RecordReader實現(xiàn),讀取InputSplit中的Kv對供Mapper使用强饮。

不同的InputFormat會各自實現(xiàn)不同的文件讀取方法以及分片方式由桌,每個輸入分片會被單獨的MapTask作為數(shù)據(jù)源。下面將介紹InputSplit和RecordReader胡陪。

3 InputSplit介紹

MapTask的輸入是一個輸入切片沥寥,稱為InputSplit。InputSplit也是一個抽象類柠座,它在邏輯上包含給處理這個InputSplit的Mapper的所有KV對邑雅。不同類型的輸入格式對應(yīng)不同類型的切片,下圖是InputSplit的類圖妈经。

InputSplit

3.1 InputSplit方法

// 獲取切片大小淮野,并且根據(jù)size對切片排序
public abstract long getLength()
// 獲取存儲該分片的數(shù)據(jù)所在的節(jié)點位置,其中的數(shù)據(jù)是本地的吹泡,位置信息不需要序列號
public abstract String[] getLocations()
// 獲取有關(guān)切片在那個節(jié)點上的信息骤星,以及它是如何存儲在每個位置的
public SplitLocationInfo[] getLocationInfo()

4 RecordReader

RecorderReader將讀入到Map的數(shù)據(jù)拆分成KV對。RecorderReader也是一個抽象類爆哑。下面是RecordReader的類圖:

InputFormat類圖

接下來看一下RecordReader的源代碼:

public abstract class RecordReader<KEYIN, VALUEIN> implements Closeable {

  /**
   * 由一個InputSplit初始化
   */
  public abstract void initialize(InputSplit split,
                                  TaskAttemptContext context
                                  ) throws IOException, InterruptedException;

  /**
   * 讀取分片下一個KV
   */
  public abstract
  boolean nextKeyValue() throws IOException, InterruptedException;

  /**
   * Get the current key
   */
  public abstract
  KEYIN getCurrentKey() throws IOException, InterruptedException;

  /**
   * Get the current value.
   */
  public abstract
  VALUEIN getCurrentValue() throws IOException, InterruptedException;

  /**
   * 跟蹤讀取分片的進度
   */
  public abstract float getProgress() throws IOException, InterruptedException;

  /**
   * Close the record reader.
   */
  public abstract void close() throws IOException;
}

參考博文

http://www.cnblogs.com/shitouer/archive/2013/02/28/hadoop-source-code-analyse-mapreduce-inputformat.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末洞难,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子揭朝,更是在濱河造成了極大的恐慌队贱,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,657評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件潭袱,死亡現(xiàn)場離奇詭異柱嫌,居然都是意外死亡,警方通過查閱死者的電腦和手機屯换,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評論 3 394
  • 文/潘曉璐 我一進店門编丘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事嘉抓∷魇兀” “怎么了?”我有些...
    開封第一講書人閱讀 164,057評論 0 354
  • 文/不壞的土叔 我叫張陵掌眠,是天一觀的道長蕾盯。 經(jīng)常有香客問我,道長蓝丙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,509評論 1 293
  • 正文 為了忘掉前任望拖,我火速辦了婚禮渺尘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘说敏。我一直安慰自己鸥跟,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,562評論 6 392
  • 文/花漫 我一把揭開白布盔沫。 她就那樣靜靜地躺著医咨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪架诞。 梳的紋絲不亂的頭發(fā)上拟淮,一...
    開封第一講書人閱讀 51,443評論 1 302
  • 那天,我揣著相機與錄音谴忧,去河邊找鬼很泊。 笑死,一個胖子當(dāng)著我的面吹牛沾谓,可吹牛的內(nèi)容都是我干的委造。 我是一名探鬼主播,決...
    沈念sama閱讀 40,251評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼均驶,長吁一口氣:“原來是場噩夢啊……” “哼昏兆!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起妇穴,我...
    開封第一講書人閱讀 39,129評論 0 276
  • 序言:老撾萬榮一對情侶失蹤爬虱,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后伟骨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體饮潦,經(jīng)...
    沈念sama閱讀 45,561評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,779評論 3 335
  • 正文 我和宋清朗相戀三年携狭,在試婚紗的時候發(fā)現(xiàn)自己被綠了继蜡。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,902評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖稀并,靈堂內(nèi)的尸體忽然破棺而出仅颇,到底是詐尸還是另有隱情,我是刑警寧澤碘举,帶...
    沈念sama閱讀 35,621評論 5 345
  • 正文 年R本政府宣布忘瓦,位于F島的核電站,受9級特大地震影響引颈,放射性物質(zhì)發(fā)生泄漏耕皮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,220評論 3 328
  • 文/蒙蒙 一蝙场、第九天 我趴在偏房一處隱蔽的房頂上張望凌停。 院中可真熱鬧,春花似錦售滤、人聲如沸罚拟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赐俗。三九已至,卻和暖如春弊知,著一層夾襖步出監(jiān)牢的瞬間阻逮,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評論 1 269
  • 我被黑心中介騙來泰國打工吉捶, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留夺鲜,地道東北人。 一個月前我還...
    沈念sama閱讀 48,025評論 2 370
  • 正文 我出身青樓呐舔,卻偏偏與公主長得像币励,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子珊拼,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,843評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 先思考問題 我們處在一個大數(shù)據(jù)的時代已經(jīng)是不爭的事實食呻,這主要表現(xiàn)在數(shù)據(jù)源多且大,如互聯(lián)網(wǎng)數(shù)據(jù)澎现,人們也認識到數(shù)據(jù)里往...
    墻角兒的花閱讀 7,363評論 0 9
  • 摘自:http://staticor.io/post/hadoop/2016-01-23hadoop-defini...
    wangliang938閱讀 593評論 0 1
  • 思考問題 Mapper類 Mapper類 四個泛型,分別是KEYIN仅胞、VALUEIN、KEYOUT剑辫、VALUEOU...
    Sakura_P閱讀 873評論 0 3
  • 說到跑步妹蔽,我終于有談?wù)摰馁Y本了.從去年5月開始接觸跑步(學(xué)校那些被迫式的不算)椎眯,到現(xiàn)在已經(jīng)一年多了挠将。最開始的時候一...
    獨白社閱讀 210評論 0 3
  • 周二的早晨,走路去上班的途中编整,遇到拾荒的老人舔稀, 佝僂著在垃圾桶里翻找易拉罐、礦泉水瓶掌测。同時垃圾桶里傳出陣陣惡臭...
    曉言說閱讀 271評論 0 0