黑猴子的家：Hive 文件存儲(chǔ)格式

Hive支持的存儲(chǔ)數(shù)的格式主要有：TEXTFILE 娱颊、SEQUENCEFILE赠橙、ORC、PARQUET

1龙考、列式存儲(chǔ)和行式存儲(chǔ)

A-1

【圖A-1】左邊為邏輯表蟆肆，右邊第一個(gè)為行式存儲(chǔ)矾睦，第二個(gè)為列式存儲(chǔ)。

行存儲(chǔ)的特點(diǎn)：查詢滿足條件的一整行數(shù)據(jù)的時(shí)候炎功，列存儲(chǔ)則需要去每個(gè)聚集的字段找到對(duì)應(yīng)的每個(gè)列的值枚冗，行存儲(chǔ)只需要找到其中一個(gè)值，其余的值都在相鄰地方蛇损，所以此時(shí)行存儲(chǔ)查詢的速度更快赁温。

列存儲(chǔ)的特點(diǎn)：因?yàn)槊總€(gè)字段的數(shù)據(jù)聚集存儲(chǔ)，在查詢只需要少數(shù)幾個(gè)字段的時(shí)候淤齐，能大大減少讀取的數(shù)據(jù)量股囊；每個(gè)字段的數(shù)據(jù)類型一定是相同的，列式存儲(chǔ)可以針對(duì)性的設(shè)計(jì)更好的設(shè)計(jì)壓縮算法床玻。

TEXTFILE (TextFile)和SEQUENCEFILE (SequenceFile)的存儲(chǔ)格式都是基于行存儲(chǔ)的毁涉；

ORC (Orc)和PARQUET (Parquet)是基于列式存儲(chǔ)的。

2锈死、TEXTFILE格式

默認(rèn)格式贫堰，數(shù)據(jù)不做壓縮，磁盤開銷大待牵，數(shù)據(jù)解析開銷大其屏。可結(jié)合Gzip缨该、Bzip2使用(系統(tǒng)自動(dòng)檢查偎行，執(zhí)行查詢時(shí)自動(dòng)解壓)，但使用這種方式贰拿，hive不會(huì)對(duì)數(shù)據(jù)進(jìn)行切分蛤袒，從而無法對(duì)數(shù)據(jù)進(jìn)行并行操作。

3膨更、ORC格式

Orc (Optimized Row Columnar)是hive 0.11版里引入的新的存儲(chǔ)格式妙真。
可以看到每個(gè)Orc文件由1個(gè)或多個(gè)stripe組成，每個(gè)stripe250MB大小荚守，這個(gè)Stripe實(shí)際相當(dāng)于RowGroup概念珍德，不過大小由4MB->250MB，這樣應(yīng)該能提升順序讀的吞吐率矗漾。每個(gè)Stripe里有三部分組成锈候，分別是Index Data,Row Data,Stripe Footer

1）Index Data：一個(gè)輕量級(jí)的index，默認(rèn)是每隔1W行做一個(gè)索引敞贡。這里做的索引應(yīng)該只是記錄某行的各字段在Row Data中的offset泵琳。

2）Row Data：存的是具體的數(shù)據(jù)，先取部分行，然后對(duì)這些行按列進(jìn)行存儲(chǔ)获列。對(duì)每個(gè)列進(jìn)行了編碼琳钉，分成多個(gè)Stream來存儲(chǔ)。

3）Stripe Footer：存的是各個(gè)Stream的類型蛛倦，長度等信息歌懒。
每個(gè)文件有一個(gè)File Footer，這里面存的是每個(gè)Stripe的行數(shù)溯壶，每個(gè)Column的數(shù)據(jù)類型信息等及皂；每個(gè)文件的尾部是一個(gè)PostScript，這里面記錄了整個(gè)文件的壓縮類型以及FileFooter的長度信息等且改。在讀取文件時(shí)验烧，會(huì)seek到文件尾部讀PostScript，從里面解析到File Footer長度又跛，再讀FileFooter碍拆，從里面解析到各個(gè)Stripe信息，再讀各個(gè)Stripe慨蓝，即從后往前讀感混。

4、PARQUET格式

Parquet是面向分析型業(yè)務(wù)的列式存儲(chǔ)格式礼烈，由Twitter和Cloudera合作開發(fā)弧满，2015年5月從Apache的孵化器里畢業(yè)成為Apache頂級(jí)項(xiàng)目。

Parquet文件是以二進(jìn)制方式存儲(chǔ)的此熬，所以是不可以直接讀取的庭呜，文件中包括該文件的數(shù)據(jù)和元數(shù)據(jù)，因此Parquet格式文件是自解析的犀忱。

通常情況下募谎，在存儲(chǔ)Parquet數(shù)據(jù)的時(shí)候會(huì)按照Block大小設(shè)置行組的大小，由于一般情況下每一個(gè)Mapper任務(wù)處理數(shù)據(jù)的最小單位是一個(gè)Block阴汇，這樣可以把每一個(gè)行組由一個(gè)Mapper任務(wù)處理数冬，增大任務(wù)執(zhí)行并行度。Parquet文件的格式如下圖所示鲫寄。

A-2

【圖A-2】展示了一個(gè)Parquet文件的內(nèi)容吉执，一個(gè)文件中可以存儲(chǔ)多個(gè)行組疯淫，文件的首位都是該文件的Magic Code地来，用于校驗(yàn)它是否是一個(gè)Parquet文件，F(xiàn)ooter length記錄了文件元數(shù)據(jù)的大小熙掺，通過該值和文件長度可以計(jì)算出元數(shù)據(jù)的偏移量未斑，文件的元數(shù)據(jù)中包括每一個(gè)行組的元數(shù)據(jù)信息和該文件存儲(chǔ)數(shù)據(jù)的Schema信息。除了文件中每一個(gè)行組的元數(shù)據(jù)币绩，每一頁的開始都會(huì)存儲(chǔ)該頁的元數(shù)據(jù)蜡秽，在Parquet中府阀，有三種類型的頁：數(shù)據(jù)頁、字典頁和索引頁芽突。數(shù)據(jù)頁用于存儲(chǔ)當(dāng)前行組中該列的值试浙，字典頁存儲(chǔ)該列值的編碼字典，每一個(gè)列塊中最多包含一個(gè)字典頁寞蚌，索引頁用來存儲(chǔ)當(dāng)前行組下該列的索引田巴，目前Parquet中還不支持索引頁。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末挟秤，一起剝皮案震驚了整個(gè)濱河市壹哺，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌艘刚，老刑警劉巖管宵，帶你破解...
沈念sama閱讀 217,406評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異攀甚，居然都是意外死亡箩朴，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門秋度，熙熙樓的掌柜王于貴愁眉苦臉地迎上來隧饼，“玉大人，你說我怎么就攤上這事静陈⊙嘌悖” “怎么了？”我有些...
開封第一講書人閱讀 163,711評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵鲸拥，是天一觀的道長拐格。經(jīng)常有香客問我，道長刑赶，這世上最難降的妖魔是什么捏浊？我笑而不...
開封第一講書人閱讀 58,380評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮撞叨，結(jié)果婚禮上金踪，老公的妹妹穿的比我還像新娘。我一直安慰自己牵敷，他們只是感情好胡岔，可當(dāng)我...
茶點(diǎn)故事閱讀 67,432評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著枷餐，像睡著了一般靶瘸。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,301評(píng)論 1贊 301
城市分裂傳說
那天怨咪，我揣著相機(jī)與錄音屋剑，去河邊找鬼。笑死诗眨，一個(gè)胖子當(dāng)著我的面吹牛唉匾，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播匠楚，決...
沈念sama閱讀 40,145評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼肄鸽，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼！你這毒婦竟也來了油啤？” 一聲冷哼從身側(cè)響起典徘，我...
開封第一講書人閱讀 39,008評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎益咬，沒想到半個(gè)月后逮诲，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,443評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡幽告，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,649評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年梅鹦，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冗锁。...
茶點(diǎn)故事閱讀 39,795評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡齐唆，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出冻河，到底是詐尸還是另有隱情箍邮，我是刑警寧澤，帶...
沈念sama閱讀 35,501評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布叨叙，位于F島的核電站锭弊，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏擂错。R本人自食惡果不足惜味滞，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,119評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望钮呀。院中可真熱鬧剑鞍，春花似錦、人聲如沸爽醋。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽子房。三九已至形用，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間证杭，已是汗流浹背田度。一陣腳步聲響...
開封第一講書人閱讀 32,865評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留解愤，地道東北人镇饺。一個(gè)月前我還...
沈念sama閱讀 47,899評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像送讲，于是被迫代替她去往敵國和親奸笤。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,724評(píng)論 2贊 354

黑猴子的家：Hive 文件存儲(chǔ)格式

1龙考、列式存儲(chǔ)和行式存儲(chǔ)

2锈死、TEXTFILE格式

3膨更、ORC格式

4、PARQUET格式

推薦閱讀更多精彩內(nèi)容