Hive ORC

ORC是RCfile的優(yōu)化版本

1. 關(guān)于hive的文件格式

TEXTFILE

默認(rèn)格式凸郑，建表時(shí)不指定默認(rèn)為這個(gè)格式谚鄙，導(dǎo)入數(shù)據(jù)時(shí)會(huì)直接把數(shù)據(jù)文件拷貝到hdfs上不進(jìn)行處理撵溃。源文件可以直接通過(guò)hadoop fs -cat 查看
SEQUENCEFILE

一種Hadoop API提供的二進(jìn)制文件葬项，使用方便、可分割洪鸭、可壓縮等特點(diǎn)。SEQUENCEFILE將數(shù)據(jù)以<key,value>的形式序列化到文件中仑扑。
RCFILE

一種行列存儲(chǔ)相結(jié)合的存儲(chǔ)方式览爵。首先，其將數(shù)據(jù)按行分塊镇饮。其次蜓竹，將塊數(shù)據(jù)列式存儲(chǔ)，有利于數(shù)據(jù)壓縮和快速的列存取储藐。

按行劃分.png

HDFS Blocks是16字節(jié)的HDFS同步塊信息俱济，主要包括該行組內(nèi)的 儲(chǔ)的行數(shù)、列的字段信息#等等钙勃。
優(yōu)勢(shì) 在一般的行存儲(chǔ)中 select a from table蛛碌，雖然只是取出一個(gè)字段的值，但是還是會(huì)遍歷整個(gè)表辖源，所以效果和select * from table 一樣蔚携，在RCFile中希太，像前面說(shuō)的情況，只會(huì)讀取該行組的一行酝蜒。

按列存儲(chǔ).png

在一般的列存儲(chǔ)中誊辉，會(huì)將不同的列分開(kāi)存儲(chǔ)，這樣在查詢的時(shí)候會(huì)跳過(guò)某些列亡脑，但是有時(shí)候存在一個(gè)表的有些列不在同一個(gè)HDFS塊上（如下圖）堕澄，所以在查詢的時(shí)候，Hive重組列的過(guò)程會(huì)浪費(fèi)很多IO開(kāi)銷远豺。

劣勢(shì) 拷貝到本地目錄后RCFile并不是真正直接跳過(guò)不需要的列奈偏，并跳到需要讀取的列，而是通過(guò)掃描每一個(gè)row group的頭部定義來(lái)實(shí)現(xiàn)的躯护，所以在讀取所有列的情況下惊来，RCFile的性能反而沒(méi)有SequenceFile高。

hive給出的新格式棺滞，屬于RCFILE的升級(jí)版裁蚁。

3162138-9ed6b55adb0391dc.png

Postscripts中存儲(chǔ)該表的行數(shù)，壓縮參數(shù)继准，壓縮大小枉证，列等信息
Stripe Footer中包含該stripe的統(tǒng)計(jì)結(jié)果，包括Max移必，Min室谚，count等信息
FileFooter中包含該表的統(tǒng)計(jì)結(jié)果，以及各個(gè)Stripe的位置信息
IndexData中保存了該stripe上數(shù)據(jù)的位置信息崔泵，總行數(shù)等信息
RowData以stream的形式保存了數(shù)據(jù)的具體信息

3162138-a2c0c0eef32bc613.png

Hive讀取數(shù)據(jù)的時(shí)候秒赤，根據(jù)FileFooter讀出Stripe的信息，根據(jù)IndexData讀出數(shù)據(jù)的偏移量從而讀取出數(shù)據(jù)憎瘸。
ORC文件不僅僅是一種列式文件存儲(chǔ)格式入篮，最重要的是有著很高的壓縮比，并且對(duì)于MapReduce來(lái)說(shuō)是可切分（Split）的幌甘。因此潮售，在Hive中使用ORC作為表的文件存儲(chǔ)格式，不僅可以很大程度的節(jié)省HDFS存儲(chǔ)資源锅风，而且對(duì)數(shù)據(jù)的查詢和處理性能有著非常大的提升酥诽，因?yàn)镺RC較其他文件格式壓縮比高，查詢?nèi)蝿?wù)的輸入數(shù)據(jù)量減少皱埠，使用的Task也就減少了盆均。

自定義格式

用戶的數(shù)據(jù)文件格式不能被當(dāng)前 Hive 所識(shí)別的時(shí)通過(guò)實(shí)現(xiàn)inputformat和outputformat來(lái)自定義輸入輸出格式，
相關(guān)建表語(yǔ)句參見(jiàn)：[http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843318.html]

查看ORC文件信息

建表時(shí)指定使用ORC存儲(chǔ)方式漱逸，注意需要將ORC的表中的NULL取值泪姨，由默認(rèn)的\N改為' '

CREATE TABLE ... STORED AS ORC  tblproperties('orc.compress'='SNAPPY')
ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT ORC
SET hive.default.fileformat=Orc

以STORED AS ORC為例介紹相關(guān)的實(shí)驗(yàn)參數(shù)

create table Addresses (
  name string,
  street string,
  city string,
  state string,
  zip int
) stored as orc tblproperties ("orc.compress"="NONE");
參數(shù)(在在Hive QL語(yǔ)句的tblproperties字段里面出現(xiàn)):
Key                           Default               Notes
orc.compress                  ZLIB       high level compression (one of NONE, ZLIB, SNAPPY)
orc.compress.size             262,144    number of bytes in each compression chunk
orc.stripe.size               268435456  number of bytes in each stripe
orc.row.index.stride          10,000     number of rows between index entries (must be >= 1000)
orc.create.index              true       whether to create row indexes

查看ORC存儲(chǔ)方式

hive --orcfiledump <location-of-orc-file>
例子：庫(kù)名游沿，表名：fileformat.db，test_orc
hive --orcfiledump /user/hive/warehouse/fileformat.db/test_orc/000000_0

查詢結(jié)果如下所示：

3162138-00a6cad1dc954c52.png

將臨時(shí)表導(dǎo)入到ORC表中

insert overwrite table http_orc partition(dt='2013-09-30') select p_id,tm,idate,phone from tmp_testp where dt='2013-09-30'

直接load文本的方式use search_index; load data local inpath '$data_dir/category_en.txt' into table ${table_name} partition(dt='${table_dt}因?yàn)镺RC類似于索引的統(tǒng)計(jì)結(jié)構(gòu)肮砾，不適用诀黍。

最后編輯于：2018.09.29 23:26:13

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市仗处，隨后出現(xiàn)的幾起案子眯勾，更是在濱河造成了極大的恐慌，老刑警劉巖婆誓，帶你破解...
沈念sama閱讀 218,546評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件吃环，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡洋幻，警方通過(guò)查閱死者的電腦和手機(jī)郁轻，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,224評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)文留，“玉大人好唯，你說(shuō)我怎么就攤上這事≡锍幔” “怎么了骑篙？”我有些...
開(kāi)封第一講書人閱讀 164,911評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)森书。經(jīng)常有香客問(wèn)我靶端，道長(zhǎng)，這世上最難降的妖魔是什么凛膏？我笑而不...
開(kāi)封第一講書人閱讀 58,737評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任杨名，我火速辦了婚禮，結(jié)果婚禮上译柏，老公的妹妹穿的比我還像新娘镣煮。我一直安慰自己姐霍，他們只是感情好鄙麦，可當(dāng)我...
茶點(diǎn)故事閱讀 67,753評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著镊折，像睡著了一般胯府。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上恨胚，一...
開(kāi)封第一講書人閱讀 51,598評(píng)論 1贊 305
城市分裂傳說(shuō)
那天骂因，我揣著相機(jī)與錄音，去河邊找鬼赃泡。笑死寒波，一個(gè)胖子當(dāng)著我的面吹牛乘盼，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播俄烁，決...
沈念sama閱讀 40,338評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼绸栅，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了页屠？” 一聲冷哼從身側(cè)響起粹胯，我...
開(kāi)封第一講書人閱讀 39,249評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎辰企，沒(méi)想到半個(gè)月后风纠，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,696評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡牢贸，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,888評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年竹观，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片十减。...
茶點(diǎn)故事閱讀 40,013評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡栈幸，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出帮辟，到底是詐尸還是另有隱情速址，我是刑警寧澤，帶...
沈念sama閱讀 35,731評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布由驹，位于F島的核電站芍锚，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏蔓榄。R本人自食惡果不足惜并炮，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,348評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望甥郑。院中可真熱鬧逃魄，春花似錦、人聲如沸澜搅。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,929評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)勉躺。三九已至癌瘾，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間饵溅，已是汗流浹背妨退。一陣腳步聲響...
開(kāi)封第一講書人閱讀 33,048評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人咬荷。一個(gè)月前我還...
沈念sama閱讀 48,203評(píng)論 3贊 370
代替公主和親
正文我出身青樓冠句，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親幸乒。傳聞我的和親對(duì)象是個(gè)殘疾皇子轩端，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,960評(píng)論 2贊 355

Hive ORC

ORC是RCfile的優(yōu)化版本

1. 關(guān)于hive的文件格式

TEXTFILE

SEQUENCEFILE

RCFILE

ORC

自定義格式

查看ORC文件信息

推薦閱讀更多精彩內(nèi)容