黑猴子的家:Hive 文件存儲(chǔ)格式

Hive支持的存儲(chǔ)數(shù)的格式主要有:TEXTFILE 娱颊、SEQUENCEFILE赠橙、ORC、PARQUET

1龙考、列式存儲(chǔ)和行式存儲(chǔ)

A-1

【圖A-1】左邊為邏輯表蟆肆,右邊第一個(gè)為行式存儲(chǔ)矾睦,第二個(gè)為列式存儲(chǔ)。

行存儲(chǔ)的特點(diǎn): 查詢滿足條件的一整行數(shù)據(jù)的時(shí)候炎功,列存儲(chǔ)則需要去每個(gè)聚集的字段找到對(duì)應(yīng)的每個(gè)列的值枚冗,行存儲(chǔ)只需要找到其中一個(gè)值,其余的值都在相鄰地方蛇损,所以此時(shí)行存儲(chǔ)查詢的速度更快赁温。

列存儲(chǔ)的特點(diǎn): 因?yàn)槊總€(gè)字段的數(shù)據(jù)聚集存儲(chǔ),在查詢只需要少數(shù)幾個(gè)字段的時(shí)候淤齐,能大大減少讀取的數(shù)據(jù)量股囊;每個(gè)字段的數(shù)據(jù)類型一定是相同的,列式存儲(chǔ)可以針對(duì)性的設(shè)計(jì)更好的設(shè)計(jì)壓縮算法床玻。

TEXTFILE (TextFile)和SEQUENCEFILE (SequenceFile)的存儲(chǔ)格式都是基于行存儲(chǔ)的毁涉;

ORC (Orc)和PARQUET (Parquet)是基于列式存儲(chǔ)的。

2锈死、TEXTFILE格式

默認(rèn)格式贫堰,數(shù)據(jù)不做壓縮,磁盤開銷大待牵,數(shù)據(jù)解析開銷大其屏。可結(jié)合Gzip缨该、Bzip2使用(系統(tǒng)自動(dòng)檢查偎行,執(zhí)行查詢時(shí)自動(dòng)解壓),但使用這種方式贰拿,hive不會(huì)對(duì)數(shù)據(jù)進(jìn)行切分蛤袒,從而無法對(duì)數(shù)據(jù)進(jìn)行并行操作。

3膨更、ORC格式

Orc (Optimized Row Columnar)是hive 0.11版里引入的新的存儲(chǔ)格式妙真。
可以看到每個(gè)Orc文件由1個(gè)或多個(gè)stripe組成,每個(gè)stripe250MB大小荚守,這個(gè)Stripe實(shí)際相當(dāng)于RowGroup概念珍德,不過大小由4MB->250MB,這樣應(yīng)該能提升順序讀的吞吐率矗漾。每個(gè)Stripe里有三部分組成锈候,分別是Index Data,Row Data,Stripe Footer

1)Index Data:一個(gè)輕量級(jí)的index,默認(rèn)是每隔1W行做一個(gè)索引敞贡。這里做的索引應(yīng)該只是記錄某行的各字段在Row Data中的offset泵琳。

2)Row Data:存的是具體的數(shù)據(jù),先取部分行,然后對(duì)這些行按列進(jìn)行存儲(chǔ)获列。對(duì)每個(gè)列進(jìn)行了編碼琳钉,分成多個(gè)Stream來存儲(chǔ)。

3)Stripe Footer:存的是各個(gè)Stream的類型蛛倦,長度等信息歌懒。
每個(gè)文件有一個(gè)File Footer,這里面存的是每個(gè)Stripe的行數(shù)溯壶,每個(gè)Column的數(shù)據(jù)類型信息等及皂;每個(gè)文件的尾部是一個(gè)PostScript,這里面記錄了整個(gè)文件的壓縮類型以及FileFooter的長度信息等且改。在讀取文件時(shí)验烧,會(huì)seek到文件尾部讀PostScript,從里面解析到File Footer長度又跛,再讀FileFooter碍拆,從里面解析到各個(gè)Stripe信息,再讀各個(gè)Stripe慨蓝,即從后往前讀感混。

4、PARQUET格式

Parquet是面向分析型業(yè)務(wù)的列式存儲(chǔ)格式礼烈,由Twitter和Cloudera合作開發(fā)弧满,2015年5月從Apache的孵化器里畢業(yè)成為Apache頂級(jí)項(xiàng)目。

Parquet文件是以二進(jìn)制方式存儲(chǔ)的此熬,所以是不可以直接讀取的庭呜,文件中包括該文件的數(shù)據(jù)和元數(shù)據(jù),因此Parquet格式文件是自解析的犀忱。

通常情況下募谎,在存儲(chǔ)Parquet數(shù)據(jù)的時(shí)候會(huì)按照Block大小設(shè)置行組的大小,由于一般情況下每一個(gè)Mapper任務(wù)處理數(shù)據(jù)的最小單位是一個(gè)Block阴汇,這樣可以把每一個(gè)行組由一個(gè)Mapper任務(wù)處理数冬,增大任務(wù)執(zhí)行并行度。Parquet文件的格式如下圖所示鲫寄。

A-2

【圖A-2】展示了一個(gè)Parquet文件的內(nèi)容吉执,一個(gè)文件中可以存儲(chǔ)多個(gè)行組疯淫,文件的首位都是該文件的Magic Code地来,用于校驗(yàn)它是否是一個(gè)Parquet文件,F(xiàn)ooter length記錄了文件元數(shù)據(jù)的大小熙掺,通過該值和文件長度可以計(jì)算出元數(shù)據(jù)的偏移量未斑,文件的元數(shù)據(jù)中包括每一個(gè)行組的元數(shù)據(jù)信息和該文件存儲(chǔ)數(shù)據(jù)的Schema信息。除了文件中每一個(gè)行組的元數(shù)據(jù)币绩,每一頁的開始都會(huì)存儲(chǔ)該頁的元數(shù)據(jù)蜡秽,在Parquet中府阀,有三種類型的頁:數(shù)據(jù)頁、字典頁和索引頁芽突。數(shù)據(jù)頁用于存儲(chǔ)當(dāng)前行組中該列的值试浙,字典頁存儲(chǔ)該列值的編碼字典,每一個(gè)列塊中最多包含一個(gè)字典頁寞蚌,索引頁用來存儲(chǔ)當(dāng)前行組下該列的索引田巴,目前Parquet中還不支持索引頁。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末挟秤,一起剝皮案震驚了整個(gè)濱河市壹哺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌艘刚,老刑警劉巖管宵,帶你破解...
    沈念sama閱讀 217,406評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異攀甚,居然都是意外死亡箩朴,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門秋度,熙熙樓的掌柜王于貴愁眉苦臉地迎上來隧饼,“玉大人,你說我怎么就攤上這事静陈⊙嘌悖” “怎么了?”我有些...
    開封第一講書人閱讀 163,711評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵鲸拥,是天一觀的道長拐格。 經(jīng)常有香客問我,道長刑赶,這世上最難降的妖魔是什么捏浊? 我笑而不...
    開封第一講書人閱讀 58,380評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮撞叨,結(jié)果婚禮上金踪,老公的妹妹穿的比我還像新娘。我一直安慰自己牵敷,他們只是感情好胡岔,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著枷餐,像睡著了一般靶瘸。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評(píng)論 1 301
  • 那天怨咪,我揣著相機(jī)與錄音屋剑,去河邊找鬼。 笑死诗眨,一個(gè)胖子當(dāng)著我的面吹牛唉匾,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播匠楚,決...
    沈念sama閱讀 40,145評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼肄鸽,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了油啤?” 一聲冷哼從身側(cè)響起典徘,我...
    開封第一講書人閱讀 39,008評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎益咬,沒想到半個(gè)月后逮诲,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,443評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡幽告,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評(píng)論 3 334
  • 正文 我和宋清朗相戀三年梅鹦,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冗锁。...
    茶點(diǎn)故事閱讀 39,795評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡齐唆,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出冻河,到底是詐尸還是另有隱情箍邮,我是刑警寧澤,帶...
    沈念sama閱讀 35,501評(píng)論 5 345
  • 正文 年R本政府宣布叨叙,位于F島的核電站锭弊,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏擂错。R本人自食惡果不足惜味滞,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望钮呀。 院中可真熱鬧剑鞍,春花似錦、人聲如沸爽醋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽子房。三九已至形用,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間证杭,已是汗流浹背田度。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留解愤,地道東北人镇饺。 一個(gè)月前我還...
    沈念sama閱讀 47,899評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像送讲,于是被迫代替她去往敵國和親奸笤。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容