上線hive表為什么要設(shè)置為textfile格式

準(zhǔn)備從今天開始寫技術(shù)博客~

在平時(shí)的工作中有碰到做SOA開發(fā)的同事要求給到的結(jié)果表格式為textfile枚驻。前些時(shí)間公司里是不允許正式表設(shè)為textfile格式的编曼。原因主要是因?yàn)閠extfile不對(duì)文件做任何處理,占機(jī)器存儲(chǔ)空間,建議的是orc格式,因?yàn)閛rc格式對(duì)文件做了壓縮,存儲(chǔ)更加節(jié)省空間罕邀。今天特地問了一下SOA的同事WHY。

總結(jié)一下养距,主要原因是:

  • 如果用orc格式的表存儲(chǔ)诉探,開發(fā)做測(cè)試的時(shí)候不方便測(cè)orc,而測(cè)試和生產(chǎn)又要保持一致棍厌,所以只能生產(chǎn)遷就測(cè)試肾胯,全部換成textfile。

測(cè)試環(huán)境為什么不能測(cè)orc耘纱??jī)蓚€(gè)原因:

  • 一般公司的測(cè)試環(huán)境比生產(chǎn)環(huán)境“惡劣”(機(jī)器不好敬肚,沒有專人運(yùn)營,甚至可能軟件都很久沒有升級(jí)過束析,有種測(cè)試拖累了生產(chǎn)的感覺)艳馒。所以測(cè)試環(huán)境里沒有類似生產(chǎn)上完備的hsfs平臺(tái),無法模擬生產(chǎn)通過hdfs讀取orc的過程
  • 直接讀取orc會(huì)有亂碼的風(fēng)險(xiǎn),因?yàn)閛rc是壓縮格式弄慰。(textfile就不會(huì)有這個(gè)風(fēng)險(xiǎn))

為什么一定要存成textfile第美?實(shí)在不行開發(fā)可以先select出來,然后離線把數(shù)據(jù)導(dǎo)到測(cè)試中呀陆爽。原因在于:

  • select出來的數(shù)據(jù)分割符和原本orc表里的分隔符顯示會(huì)有差異什往,還需要人工重新編碼,多了一道人工操作慌闭,多了一道風(fēng)險(xiǎn)

所以最好的是恶守,交付表的格式設(shè)為textfile。其實(shí)感覺下來贡必,應(yīng)該是要定期對(duì)測(cè)試環(huán)境做維護(hù)的,否則生產(chǎn)做的再好庸毫,測(cè)試很low仔拟,被測(cè)試短板限制了。

另附飒赃,orc表和textfile表的建表樣例:

orc格式

USE Tmp_UbtDb;
CREATE TABLE normaltabledemo(
     field1 STRING COMMENT 'field1 comment',
     field2 STRING COMMENT 'field2 comment')
 COMMENT 'table comment'
 PARTITIONED BY(dt STRING COMMENT 'date')
 STORED AS ORC;

textfile格式

USE Tmp_UbtDb;
CREATE TABLE normaltabledemo(
     field1 STRING COMMENT 'field1 comment',
     field2 STRING COMMENT 'field2 comment')
 COMMENT 'table comment'
 PARTITIONED BY(dt STRING COMMENT 'date')
 ROW FORMAT DELIMITED
 FIELDS TERMINATED BY '\001'
 LINES TERMINATED BY '\n'
 STORED AS TEXTFILE ;
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末利花,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子载佳,更是在濱河造成了極大的恐慌炒事,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蔫慧,死亡現(xiàn)場(chǎng)離奇詭異挠乳,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)姑躲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門睡扬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人黍析,你說我怎么就攤上這事卖怜。” “怎么了阐枣?”我有些...
    開封第一講書人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵马靠,是天一觀的道長。 經(jīng)常有香客問我蔼两,道長甩鳄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任额划,我火速辦了婚禮娩贷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘锁孟。我一直安慰自己彬祖,他們只是感情好茁瘦,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著储笑,像睡著了一般甜熔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上突倍,一...
    開封第一講書人閱讀 49,749評(píng)論 1 289
  • 那天腔稀,我揣著相機(jī)與錄音,去河邊找鬼羽历。 笑死焊虏,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的秕磷。 我是一名探鬼主播诵闭,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼澎嚣!你這毒婦竟也來了疏尿?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤易桃,失蹤者是張志新(化名)和其女友劉穎褥琐,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體晤郑,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡敌呈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了造寝。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片驱富。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖匹舞,靈堂內(nèi)的尸體忽然破棺而出褐鸥,到底是詐尸還是另有隱情,我是刑警寧澤赐稽,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布叫榕,位于F島的核電站,受9級(jí)特大地震影響姊舵,放射性物質(zhì)發(fā)生泄漏晰绎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一括丁、第九天 我趴在偏房一處隱蔽的房頂上張望荞下。 院中可真熱鬧,春花似錦、人聲如沸尖昏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽抽诉。三九已至陨簇,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間迹淌,已是汗流浹背河绽。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留唉窃,地道東北人耙饰。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像纹份,于是被迫代替她去往敵國和親苟跪。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容