【文件存儲(chǔ)格式】
在建表語句中通過" STORED AS FILE_FORMAT" 指定罗标。
- TEXTFILE:默認(rèn)格式,數(shù)據(jù)不做壓縮愕提,磁盤開銷大馒稍,數(shù)據(jù)解析開銷大,結(jié)合Gzip/Bizp2使用浅侨,采用此種方式不支持對數(shù)據(jù)進(jìn)行切分纽谒,從而無法實(shí)現(xiàn)數(shù)據(jù)的并行操作。
- SEQUENCEFILE:Hadoop API提供的一種二進(jìn)制文件如输,使用方便鼓黔,支持?jǐn)?shù)據(jù)切分與壓縮。有三種壓縮方式不见,NONE澳化,RECORD(壓縮率低)、BLOCK(推薦使用)稳吮。
- RCFILE:一種行列存儲(chǔ)相結(jié)合的方式缎谷。首先將數(shù)據(jù)按行分塊,保證同一行記錄在同一個(gè)塊上灶似;其次將塊數(shù)據(jù)進(jìn)行行列式存儲(chǔ)列林,這樣有利于數(shù)據(jù)壓縮和快速的列存儲(chǔ)瑞你。采用這種格式在數(shù)據(jù)加載時(shí)耗費(fèi)的性能較大,但是具備較好的數(shù)據(jù)壓縮比和查詢響應(yīng)希痴,在一次寫入多次讀取的場景下推薦采用者甲。
- 自定義格式:當(dāng)用戶的數(shù)據(jù)文件格式不能被Hive識(shí)別時(shí),通過實(shí)行InputFormat和OutputFormat來自定義輸入輸出格式砌创。