Hive支持的存儲(chǔ)數(shù)的格式主要有:TEXTFILE 娱颊、SEQUENCEFILE赠橙、ORC、PARQUET
1龙考、列式存儲(chǔ)和行式存儲(chǔ)
【圖A-1】左邊為邏輯表蟆肆,右邊第一個(gè)為行式存儲(chǔ)矾睦,第二個(gè)為列式存儲(chǔ)。
行存儲(chǔ)的特點(diǎn): 查詢滿足條件的一整行數(shù)據(jù)的時(shí)候炎功,列存儲(chǔ)則需要去每個(gè)聚集的字段找到對(duì)應(yīng)的每個(gè)列的值枚冗,行存儲(chǔ)只需要找到其中一個(gè)值,其余的值都在相鄰地方蛇损,所以此時(shí)行存儲(chǔ)查詢的速度更快赁温。
列存儲(chǔ)的特點(diǎn): 因?yàn)槊總€(gè)字段的數(shù)據(jù)聚集存儲(chǔ),在查詢只需要少數(shù)幾個(gè)字段的時(shí)候淤齐,能大大減少讀取的數(shù)據(jù)量股囊;每個(gè)字段的數(shù)據(jù)類型一定是相同的,列式存儲(chǔ)可以針對(duì)性的設(shè)計(jì)更好的設(shè)計(jì)壓縮算法床玻。
TEXTFILE (TextFile)和SEQUENCEFILE (SequenceFile)的存儲(chǔ)格式都是基于行存儲(chǔ)的毁涉;
ORC (Orc)和PARQUET (Parquet)是基于列式存儲(chǔ)的。
2锈死、TEXTFILE格式
默認(rèn)格式贫堰,數(shù)據(jù)不做壓縮,磁盤開銷大待牵,數(shù)據(jù)解析開銷大其屏。可結(jié)合Gzip缨该、Bzip2使用(系統(tǒng)自動(dòng)檢查偎行,執(zhí)行查詢時(shí)自動(dòng)解壓),但使用這種方式贰拿,hive不會(huì)對(duì)數(shù)據(jù)進(jìn)行切分蛤袒,從而無法對(duì)數(shù)據(jù)進(jìn)行并行操作。
3膨更、ORC格式
Orc (Optimized Row Columnar)是hive 0.11版里引入的新的存儲(chǔ)格式妙真。
可以看到每個(gè)Orc文件由1個(gè)或多個(gè)stripe組成,每個(gè)stripe250MB大小荚守,這個(gè)Stripe實(shí)際相當(dāng)于RowGroup概念珍德,不過大小由4MB->250MB,這樣應(yīng)該能提升順序讀的吞吐率矗漾。每個(gè)Stripe里有三部分組成锈候,分別是Index Data,Row Data,Stripe Footer
1)Index Data:一個(gè)輕量級(jí)的index,默認(rèn)是每隔1W行做一個(gè)索引敞贡。這里做的索引應(yīng)該只是記錄某行的各字段在Row Data中的offset泵琳。
2)Row Data:存的是具體的數(shù)據(jù),先取部分行,然后對(duì)這些行按列進(jìn)行存儲(chǔ)获列。對(duì)每個(gè)列進(jìn)行了編碼琳钉,分成多個(gè)Stream來存儲(chǔ)。
3)Stripe Footer:存的是各個(gè)Stream的類型蛛倦,長度等信息歌懒。
每個(gè)文件有一個(gè)File Footer,這里面存的是每個(gè)Stripe的行數(shù)溯壶,每個(gè)Column的數(shù)據(jù)類型信息等及皂;每個(gè)文件的尾部是一個(gè)PostScript,這里面記錄了整個(gè)文件的壓縮類型以及FileFooter的長度信息等且改。在讀取文件時(shí)验烧,會(huì)seek到文件尾部讀PostScript,從里面解析到File Footer長度又跛,再讀FileFooter碍拆,從里面解析到各個(gè)Stripe信息,再讀各個(gè)Stripe慨蓝,即從后往前讀感混。
4、PARQUET格式
Parquet是面向分析型業(yè)務(wù)的列式存儲(chǔ)格式礼烈,由Twitter和Cloudera合作開發(fā)弧满,2015年5月從Apache的孵化器里畢業(yè)成為Apache頂級(jí)項(xiàng)目。
Parquet文件是以二進(jìn)制方式存儲(chǔ)的此熬,所以是不可以直接讀取的庭呜,文件中包括該文件的數(shù)據(jù)和元數(shù)據(jù),因此Parquet格式文件是自解析的犀忱。
通常情況下募谎,在存儲(chǔ)Parquet數(shù)據(jù)的時(shí)候會(huì)按照Block大小設(shè)置行組的大小,由于一般情況下每一個(gè)Mapper任務(wù)處理數(shù)據(jù)的最小單位是一個(gè)Block阴汇,這樣可以把每一個(gè)行組由一個(gè)Mapper任務(wù)處理数冬,增大任務(wù)執(zhí)行并行度。Parquet文件的格式如下圖所示鲫寄。
【圖A-2】展示了一個(gè)Parquet文件的內(nèi)容吉执,一個(gè)文件中可以存儲(chǔ)多個(gè)行組疯淫,文件的首位都是該文件的Magic Code地来,用于校驗(yàn)它是否是一個(gè)Parquet文件,F(xiàn)ooter length記錄了文件元數(shù)據(jù)的大小熙掺,通過該值和文件長度可以計(jì)算出元數(shù)據(jù)的偏移量未斑,文件的元數(shù)據(jù)中包括每一個(gè)行組的元數(shù)據(jù)信息和該文件存儲(chǔ)數(shù)據(jù)的Schema信息。除了文件中每一個(gè)行組的元數(shù)據(jù)币绩,每一頁的開始都會(huì)存儲(chǔ)該頁的元數(shù)據(jù)蜡秽,在Parquet中府阀,有三種類型的頁:數(shù)據(jù)頁、字典頁和索引頁芽突。數(shù)據(jù)頁用于存儲(chǔ)當(dāng)前行組中該列的值试浙,字典頁存儲(chǔ)該列值的編碼字典,每一個(gè)列塊中最多包含一個(gè)字典頁寞蚌,索引頁用來存儲(chǔ)當(dāng)前行組下該列的索引田巴,目前Parquet中還不支持索引頁。