ORC是RCfile的優(yōu)化版本
1. 關(guān)于hive的文件格式
-
TEXTFILE
默認(rèn)格式凸郑,建表時(shí)不指定默認(rèn)為這個(gè)格式谚鄙,導(dǎo)入數(shù)據(jù)時(shí)會(huì)直接把數(shù)據(jù)文件拷貝到hdfs上不進(jìn)行處理撵溃。源文件可以直接通過(guò)hadoop fs -cat 查看
-
SEQUENCEFILE
一種Hadoop API提供的二進(jìn)制文件葬项,使用方便、可分割洪鸭、可壓縮等特點(diǎn)。SEQUENCEFILE將數(shù)據(jù)以<key,value>的形式序列化到文件中仑扑。
-
RCFILE
一種行列存儲(chǔ)相結(jié)合的存儲(chǔ)方式览爵。首先,其將數(shù)據(jù)按行分塊镇饮。其次蜓竹,將塊數(shù)據(jù)列式存儲(chǔ),有利于數(shù)據(jù)壓縮和快速的列存取储藐。
HDFS Blocks是16字節(jié)的HDFS同步塊信息俱济,主要包括該行組內(nèi)的 儲(chǔ)的行數(shù)、列的字段信息#等等钙勃。
優(yōu)勢(shì) 在一般的行存儲(chǔ)中 select a from table蛛碌,雖然只是取出一個(gè)字段的值,但是還是會(huì)遍歷整個(gè)表辖源,所以效果和select * from table 一樣蔚携,在RCFile中希太,像前面說(shuō)的情況,只會(huì)讀取該行組的一行酝蜒。
在一般的列存儲(chǔ)中誊辉,會(huì)將不同的列分開(kāi)存儲(chǔ),這樣在查詢的時(shí)候會(huì)跳過(guò)某些列亡脑,但是有時(shí)候存在一個(gè)表的有些列不在同一個(gè)HDFS塊上(如下圖)堕澄,所以在查詢的時(shí)候,Hive重組列的過(guò)程會(huì)浪費(fèi)很多IO開(kāi)銷远豺。
劣勢(shì) 拷貝到本地目錄后RCFile并不是真正直接跳過(guò)不需要的列奈偏,并跳到需要讀取的列, 而是通過(guò)掃描每一個(gè)row group的頭部定義來(lái)實(shí)現(xiàn)的躯护,所以在讀取所有列的情況下惊来,RCFile的性能反而沒(méi)有SequenceFile高。
-
ORC
hive給出的新格式棺滞,屬于RCFILE的升級(jí)版裁蚁。
Postscripts中存儲(chǔ)該表的行數(shù),壓縮參數(shù)继准,壓縮大小枉证,列等信息
Stripe Footer中包含該stripe的統(tǒng)計(jì)結(jié)果,包括Max移必,Min室谚,count等信息
FileFooter中包含該表的統(tǒng)計(jì)結(jié)果,以及各個(gè)Stripe的位置信息
IndexData中保存了該stripe上數(shù)據(jù)的位置信息崔泵,總行數(shù)等信息
RowData以stream的形式保存了數(shù)據(jù)的具體信息
Hive讀取數(shù)據(jù)的時(shí)候秒赤,根據(jù)FileFooter讀出Stripe的信息,根據(jù)IndexData讀出數(shù)據(jù)的偏移量從而讀取出數(shù)據(jù)憎瘸。
ORC文件不僅僅是一種列式文件存儲(chǔ)格式入篮,最重要的是有著很高的壓縮比,并且對(duì)于MapReduce來(lái)說(shuō)是可切分(Split)的幌甘。因此潮售,在Hive中使用ORC作為表的文件存儲(chǔ)格式,不僅可以很大程度的節(jié)省HDFS存儲(chǔ)資源锅风,而且對(duì)數(shù)據(jù)的查詢和處理性能有著非常大的提升酥诽,因?yàn)镺RC較其他文件格式壓縮比高,查詢?nèi)蝿?wù)的輸入數(shù)據(jù)量減少皱埠,使用的Task也就減少了盆均。
-
自定義格式
用戶的數(shù)據(jù)文件格式不能被當(dāng)前 Hive 所識(shí)別的時(shí)通過(guò)實(shí)現(xiàn)inputformat和outputformat來(lái)自定義輸入輸出格式,
相關(guān)建表語(yǔ)句參見(jiàn):[http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843318.html]
查看ORC文件信息
建表時(shí)指定使用ORC存儲(chǔ)方式漱逸,注意需要將ORC的表中的NULL取值泪姨,由默認(rèn)的\N改為' '
CREATE TABLE ... STORED AS ORC tblproperties('orc.compress'='SNAPPY')
ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT ORC
SET hive.default.fileformat=Orc
以STORED AS ORC為例介紹相關(guān)的實(shí)驗(yàn)參數(shù)
create table Addresses (
name string,
street string,
city string,
state string,
zip int
) stored as orc tblproperties ("orc.compress"="NONE");
參數(shù)(在在Hive QL語(yǔ)句的tblproperties字段里面出現(xiàn)):
Key Default Notes
orc.compress ZLIB high level compression (one of NONE, ZLIB, SNAPPY)
orc.compress.size 262,144 number of bytes in each compression chunk
orc.stripe.size 268435456 number of bytes in each stripe
orc.row.index.stride 10,000 number of rows between index entries (must be >= 1000)
orc.create.index true whether to create row indexes
查看ORC存儲(chǔ)方式
hive --orcfiledump <location-of-orc-file>
例子:庫(kù)名游沿,表名:fileformat.db,test_orc
hive --orcfiledump /user/hive/warehouse/fileformat.db/test_orc/000000_0
查詢結(jié)果如下所示:
將臨時(shí)表導(dǎo)入到ORC表中
insert overwrite table http_orc partition(dt='2013-09-30') select p_id,tm,idate,phone from tmp_testp where dt='2013-09-30'
直接load文本的方式use search_index; load data local inpath '$data_dir/category_en.txt' into table ${table_name} partition(dt='${table_dt}因?yàn)镺RC類似于索引的統(tǒng)計(jì)結(jié)構(gòu)肮砾,不適用诀黍。