數(shù)倉--Hive-面試之Hive支持的文件格式和壓縮格式及各自特點

Hive中的文件格式

1-TEXTFILE

  • 文本格式压彭,Hive的默認(rèn)格式睦优,數(shù)據(jù)不壓縮,磁盤開銷大哮塞、數(shù)據(jù)解析開銷大刨秆。
  • 對應(yīng)的hive API為:org.apache.hadoop.mapred.TextInputFormat和org.apache.hive.ql.io.HiveIgnoreKeyTextOutputFormat;
  • 可結(jié)合Gzip忆畅、Bzip2使用(系統(tǒng)自動檢查衡未,執(zhí)行查詢時自動解壓),但是使用這種方式家凯,hive不會對數(shù)據(jù)進(jìn)行切分缓醋,從而無法對數(shù)據(jù)進(jìn)行并行操作

2-SequenceFile

  • Hadoop提供的二進(jìn)制文件,Hadoop支持的標(biāo)準(zhǔn)文件绊诲;
  • 數(shù)據(jù)直接序列化到文件中送粱,SequenceFile文件不能直接查看,可以通過Hadoop fs -text查看掂之;
  • SequenceFile具有使用方便抗俄、可分割、可壓縮世舰、可進(jìn)行切片动雹,壓縮支持NONE、RECORD跟压、BLOCK(優(yōu)先)胰蝠;
  • 對應(yīng)hive API:org.apache.hadoop.mapred.SequenceFileInputFormat和org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat

3-RCFILE

  • rcfile是一種行列存儲相結(jié)合的存儲方式,先將數(shù)據(jù)按行進(jìn)行分塊再按列式存儲震蒋,保證同一條記錄在一個塊上茸塞,避免讀取多個塊,有利于數(shù)據(jù)壓縮和快速進(jìn)行列存儲查剖;
  • 對應(yīng) hive API為:org.apache.hadoop.hive.ql.io.RCFileInputFormat和org.apache.hadoop.hive.ql.io.RCFileOutputFormat

4-orcfile

  • orcfile式對rcfile的優(yōu)化钾虐,可以提高h(yuǎn)ive的讀寫、數(shù)據(jù)處理性能梗搅、提供更高的壓縮效率禾唁;
  • 優(yōu)點:
    • 每個task只輸出單個文件,減少namenode負(fù)載无切;
    • 支持各種復(fù)雜的數(shù)據(jù)類型,比如:datetime丐枉,decima以及復(fù)雜類型struct哆键、list、map瘦锹;
    • 文件中存儲了一些輕量級的索引數(shù)據(jù)籍嘹;
    • 基于數(shù)據(jù)類型的塊模式壓縮:integer類型的列用行程長度編碼闪盔,string類型的列使用字典編碼;
    • 用多個相互獨立的recordReaders并行讀相同的文件
    • 無需掃描markers即可分割文件
    • 綁定讀寫所需內(nèi)存
    • metadata存儲用protocol buffers辱士,支持添加和刪除列

5-parquet

  • Parquet也是一種列式存儲泪掀,同時具有很好的壓縮性能;同時可以減少大量的表掃描和反序列化的時間颂碘。

總結(jié)

  • textfile 存儲空間消耗比較大异赫,并且壓縮的text 無法分割和合并 查詢的效率最低,可以直接存儲,加載數(shù)據(jù)的速度最高头岔;
  • sequencefile 存儲空間消耗最大,壓縮的文件可以分割和合并 查詢效率高塔拳,需要通過text文件轉(zhuǎn)化來加載;
  • orcfile, rcfile存儲空間最小峡竣,查詢的效率最高 靠抑,需要通過text文件轉(zhuǎn)化來加載,加載的速度最低适掰;
  • parquet格式是列式存儲颂碧,有很好的壓縮性能和表掃描功能;

SequenceFile,ORCFile(ORC)类浪,rcfile格式的表不能直接從本地文件導(dǎo)入數(shù)據(jù)载城,數(shù)據(jù)要先導(dǎo)入到textfile格式的表中,然后再從textfile表中導(dǎo)入到SequenceFile,ORCFile(ORC)戚宦,rcfile表中个曙。

Hive支持的壓縮格式

  • Hive支持的壓縮格式為Gzip、Bzip2受楼、lzo垦搬、snappy


    壓縮特點.jpg
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市艳汽,隨后出現(xiàn)的幾起案子猴贰,更是在濱河造成了極大的恐慌,老刑警劉巖河狐,帶你破解...
    沈念sama閱讀 221,576評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件米绕,死亡現(xiàn)場離奇詭異,居然都是意外死亡馋艺,警方通過查閱死者的電腦和手機(jī)栅干,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捐祠,“玉大人碱鳞,你說我怎么就攤上這事□庵” “怎么了窿给?”我有些...
    開封第一講書人閱讀 168,017評論 0 360
  • 文/不壞的土叔 我叫張陵贵白,是天一觀的道長。 經(jīng)常有香客問我崩泡,道長禁荒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,626評論 1 296
  • 正文 為了忘掉前任角撞,我火速辦了婚禮呛伴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘靴寂。我一直安慰自己磷蜀,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,625評論 6 397
  • 文/花漫 我一把揭開白布百炬。 她就那樣靜靜地躺著褐隆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪剖踊。 梳的紋絲不亂的頭發(fā)上庶弃,一...
    開封第一講書人閱讀 52,255評論 1 308
  • 那天,我揣著相機(jī)與錄音德澈,去河邊找鬼歇攻。 笑死,一個胖子當(dāng)著我的面吹牛梆造,可吹牛的內(nèi)容都是我干的缴守。 我是一名探鬼主播,決...
    沈念sama閱讀 40,825評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼镇辉,長吁一口氣:“原來是場噩夢啊……” “哼屡穗!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起忽肛,我...
    開封第一講書人閱讀 39,729評論 0 276
  • 序言:老撾萬榮一對情侶失蹤村砂,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后屹逛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體础废,經(jīng)...
    沈念sama閱讀 46,271評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,363評論 3 340
  • 正文 我和宋清朗相戀三年罕模,在試婚紗的時候發(fā)現(xiàn)自己被綠了评腺。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,498評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡淑掌,死狀恐怖歇僧,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情锋拖,我是刑警寧澤诈悍,帶...
    沈念sama閱讀 36,183評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站兽埃,受9級特大地震影響侥钳,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜柄错,卻給世界環(huán)境...
    茶點故事閱讀 41,867評論 3 333
  • 文/蒙蒙 一舷夺、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧售貌,春花似錦给猾、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,338評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至恒削,卻和暖如春池颈,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背钓丰。 一陣腳步聲響...
    開封第一講書人閱讀 33,458評論 1 272
  • 我被黑心中介騙來泰國打工躯砰, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人携丁。 一個月前我還...
    沈念sama閱讀 48,906評論 3 376
  • 正文 我出身青樓琢歇,卻偏偏與公主長得像,于是被迫代替她去往敵國和親梦鉴。 傳聞我的和親對象是個殘疾皇子李茫,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,507評論 2 359

推薦閱讀更多精彩內(nèi)容