Hive數(shù)據(jù)格式-ORC

普通的存儲格式匿级,比如我們表格中有abc三列,像mysql按行存儲則如下所示


邏輯存儲格式

大數(shù)據(jù)引擎存儲中染厅,大部分都是采用列式存儲痘绎,比如Hive、Hbase
a肖粮、b孤页、c各列數(shù)據(jù)會集中存放在一起顿乒,如下所示


標(biāo)準(zhǔn)列式存儲

Hive中textfile作為缺省的存儲格式楣黍,采用列式存儲,Hive也提供了ORC存儲格式,ORC格式能采用更好的壓縮算法筛欢、更高效的查詢奇钞。結(jié)合了行存儲和列式存儲的優(yōu)點(diǎn)


一個(gè)orc文件的內(nèi)部存儲格式

每個(gè)ORC文件由1個(gè)或多個(gè)條帶(stripe)組成碘赖,每個(gè)條帶一般是一個(gè)HDFS塊升筏。每個(gè)條帶由Index Data、Row Data鲜结、 Stripe Footer組成展运。
Index Data:保存了一些索引信息,記錄著每個(gè)數(shù)據(jù)段在stripe中的位置精刷。
Row Data:主要存放數(shù)據(jù)的地方拗胜,一個(gè)Rows Data由多個(gè)行組構(gòu)成,每10000行構(gòu)成一個(gè)行組怒允,行組內(nèi)部以流式形式列式存儲埂软,實(shí)際上由兩部分構(gòu)成:metadata Stream描述行組的元數(shù)據(jù),dataStream數(shù)據(jù)流纫事。
Stripe Footer:描述各個(gè)stream的類型勘畔、長度等信息

另外,每個(gè)orc文件中除若干個(gè)stripe外儿礼,還包含file footer(文件腳注)咖杂、postscript(描述信息)
file footer:記錄每個(gè)stripe的行數(shù)庆寺,每個(gè)列的數(shù)據(jù)類型蚊夫,每個(gè)列的最大值、最小值等信息懦尝。
postscript:壓縮參數(shù)知纷、壓縮大小等信息
讀取orc文件時(shí),先讀取postscript信息陵霉,根據(jù)postscript記錄的filefooter長度信息琅轧,解析filefooter,再從filefooter中解析出各個(gè)stripe信息踊挠,再讀取各個(gè)stripe乍桂。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市效床,隨后出現(xiàn)的幾起案子睹酌,更是在濱河造成了極大的恐慌,老刑警劉巖剩檀,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件憋沿,死亡現(xiàn)場離奇詭異,居然都是意外死亡沪猴,警方通過查閱死者的電腦和手機(jī)辐啄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進(jìn)店門采章,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人壶辜,你說我怎么就攤上這事悯舟。” “怎么了砸民?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵图谷,是天一觀的道長。 經(jīng)常有香客問我阱洪,道長便贵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任冗荸,我火速辦了婚禮承璃,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蚌本。我一直安慰自己盔粹,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布程癌。 她就那樣靜靜地躺著舷嗡,像睡著了一般。 火紅的嫁衣襯著肌膚如雪嵌莉。 梳的紋絲不亂的頭發(fā)上进萄,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天,我揣著相機(jī)與錄音锐峭,去河邊找鬼中鼠。 笑死,一個(gè)胖子當(dāng)著我的面吹牛沿癞,可吹牛的內(nèi)容都是我干的援雇。 我是一名探鬼主播,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼椎扬,長吁一口氣:“原來是場噩夢啊……” “哼惫搏!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蚕涤,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤筐赔,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后钻趋,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體川陆,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了较沪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鳞绕。...
    茶點(diǎn)故事閱讀 38,094評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖尸曼,靈堂內(nèi)的尸體忽然破棺而出们何,到底是詐尸還是另有隱情,我是刑警寧澤控轿,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布冤竹,位于F島的核電站,受9級特大地震影響茬射,放射性物質(zhì)發(fā)生泄漏鹦蠕。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一在抛、第九天 我趴在偏房一處隱蔽的房頂上張望钟病。 院中可真熱鬧,春花似錦刚梭、人聲如沸肠阱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽屹徘。三九已至,卻和暖如春衅金,著一層夾襖步出監(jiān)牢的瞬間噪伊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工典挑, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留酥宴,地道東北人啦吧。 一個(gè)月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓您觉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親授滓。 傳聞我的和親對象是個(gè)殘疾皇子琳水,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內(nèi)容