使用Hive之?dāng)?shù)據(jù)類型和文件格式

Hive支持RDBMS中的大多數(shù)數(shù)據(jù)類型,同時(shí)也支持RDBMS中很少支持的3中集合數(shù)據(jù)類型印机。

一距境、基本數(shù)據(jù)類型

1. Integers 整數(shù)型

TINYINT—1 byte integer

SMALLINT—2 byte integer

INT—4 byte integer

BIGINT—8 byte integer

以上這些都是有符號(hào)的整型羊苟。

2. Boolean type 布爾型

BOOLEAN—TRUE/FALSE

3. Floating point numbers 浮點(diǎn)型

FLOAT—single precision 單精度浮點(diǎn)

DOUBLE—Double precision 雙精度浮點(diǎn)

4. Fixed point numbers 定點(diǎn)型

DECIMAL—a fixed point value of user defined scale and precision

5. String types 字符序列

STRING—sequence of characters in a specified character set

VARCHAR—sequence of characters in a specified character set with a maximum length

CHAR—sequence of characters in a specified character set with a defined length

7. Date and time types 時(shí)間類型

TIMESTAMP—a specific point in time, up to nanosecond precision

DATE—a date

8. Binary types 字節(jié)數(shù)組

BINARY—a sequence of bytes

為什么有的字符類型很特殊呢寂曹? 這是因?yàn)樗羞@些數(shù)據(jù)類型都是對(duì)Java中的接口的實(shí)現(xiàn)腹备,比如string類型實(shí)現(xiàn)的和Java中的string衬潦,float中也是對(duì)Java中的float。

但是其他RDBMS通常也會(huì)提供限制最大長(zhǎng)度的字符數(shù)組植酥,而在Hive中卻不會(huì)支持镀岛。因?yàn)樘幱谛阅軆?yōu)化的考慮,這些定長(zhǎng)的記錄容易進(jìn)行索引友驮、掃描等漂羊。而在Hive強(qiáng)調(diào)優(yōu)化磁盤(pán)讀寫(xiě)的性能對(duì)限制列的長(zhǎng)度相對(duì)來(lái)說(shuō)不是很重要。

在Hive0.8.0以后的timestamp卸留、binary數(shù)據(jù)類型數(shù)據(jù)類型走越;timestamp指可以為整數(shù),也就是距離Unix新紀(jì)元的秒數(shù)耻瑟;也可以是浮點(diǎn)數(shù)旨指,距離到納秒(小數(shù)點(diǎn)后保留9位),也可以是字符串喳整,即JDBC所約定的的字符串格式谆构,比如:yyyy-mm-dd hh24:mi:ss.fffffffff。

binary類型和其他的RDBMS數(shù)據(jù)庫(kù)中的varbinary很類似框都。不過(guò)它并不和blob數(shù)據(jù)類型并不同搬素。因?yàn)閎inary列存儲(chǔ)在記錄中,而blob不同魏保。

當(dāng)用戶查詢用到不同的浮點(diǎn)列對(duì)比是熬尺,比如將float和double列進(jìn)行對(duì)比或一個(gè)整數(shù)列和另一種整數(shù)列對(duì)比時(shí),Hive會(huì)怎么樣處理呢谓罗?遇到這種情況粱哼,Hive會(huì)隱式的將把數(shù)據(jù)類型轉(zhuǎn)換為兩個(gè)數(shù)據(jù)類型較大的那個(gè)處理,也就是將float轉(zhuǎn)換成double妥衣。

二皂吮、集合數(shù)據(jù)類型

Hive 中的列支持使用 struct、map税手、array 集合數(shù)據(jù)類型蜂筹,如下:

STRUCT列類型為struct{first STRING,last STRING} ? ? 如: struct('john','Doe')

MAP是一組鍵值對(duì)集合 字段名[last]獲取值 ? ?如:map('first','Join','last','Doe')

ARRAY是具有相關(guān)同類型和名稱的變量的集合['John','Doe'] ? ?如:Array(['John','Doe']?)

大多數(shù)的關(guān)系型數(shù)據(jù)庫(kù)并不支持這些集合數(shù)據(jù)類型,這有破壞標(biāo)準(zhǔn)數(shù)據(jù)格式的危險(xiǎn)芦倒。通常在RDBMS中的處理方式大概用主外鍵關(guān)聯(lián)艺挪。我們知道主外鍵關(guān)聯(lián)的話在進(jìn)行TB級(jí)以上的數(shù)據(jù)處理時(shí)會(huì)造成性能的極大消耗。但在大數(shù)據(jù)庫(kù)架構(gòu)中兵扬,這種設(shè)計(jì)卻有助于提高數(shù)據(jù)吞吐量麻裳。

例如:

CREATE TABLE employees(

name STRING,

salary float,

subordinates array<string>,

deductions map<string,float>,

address struct<street:string,city:string,state:string,zip:int>?

)

name --雇員名,salary --雇員薪水器钟,subordinates --下屬員工津坑,deductions --五險(xiǎn)一金,個(gè)稅等傲霸,address --雇員的住址

很明顯疆瑰,一個(gè)雇員表詳細(xì)信心存儲(chǔ)在一張表中,在RDBMS中則可能存在某個(gè)字段的信息存儲(chǔ)在另外一張表昙啄,通過(guò)主外鍵或查詢條件進(jìn)行連接后獲取結(jié)果穆役。這里可以通過(guò)一些集合數(shù)據(jù)類型進(jìn)行處理了就。

三梳凛、文本文件的數(shù)據(jù)編碼

我們知道耿币,一個(gè)文本文件如果需要進(jìn)行數(shù)據(jù)處理,就需要對(duì)其中的格式進(jìn)行定義韧拒,我們最熟悉的應(yīng)該是以逗號(hào)或制表符分隔的文本格式CSV淹接、TSV,當(dāng)然在Hive中叛溢,這些文本格式都是被支持的蹈集。

那么Hive中還會(huì)支持其他什么控制字符的文本格式呢?

\n ? ? ? ? ? ? ? ? ? ? ? 換行符是可以支持的雇初,因?yàn)槊恳恍卸伎梢员徽J(rèn)為是一條記錄

^A(Ctrl+A) ? ? 分隔字段拢肆,在 CREATE TABLE 語(yǔ)句中可以使用八進(jìn)制編碼(\001)表示

^B ? ? ? ? ? ? ? ? ? ? ?分隔 ARRAY 、MAP或者 STRUCT 中的元素靖诗,鍵值對(duì)之間的分隔郭怪,使用八進(jìn)制編碼(\002)表示

^C ? ? ? ? ? ? ? ? ? ? ?用于 MAP 中鍵和值之間的分隔,使用八進(jìn)制編碼(\003)表示

比如將一個(gè)特定格式的文件插入到employees庫(kù)中刊橘,文件打開(kāi)后數(shù)據(jù)格式顯示如下:

Shkodran Mustafi^A5000^ALaurent Koscielny^BRobert Holding^BHector Bellerin^AFederal^C.2^BState Taxes^C.05^BInsurance^C.1^A 1 Michigan Ave.^BChicago^BIL^B60600

我們可以針對(duì)此文件進(jìn)行分解鄙才,讓我們對(duì)格式更加清晰一些:

1、Shkodran Mustafi 對(duì)應(yīng) 'name'字段促绵,字段間用^A分割攒庵,所有在和salary字段之間的地方使用了^A嘴纺。

2、5000對(duì)應(yīng)’salary'字段浓冒,同樣的用^A 隔斷下一個(gè)字段栽渴。

3、Laurent Koscielny^BRobert Holding^BHector Bellerin 對(duì)應(yīng)'subordinates'字段稳懒,針對(duì)array元素內(nèi)的分割使用^B闲擦。

4、Federal^C.2^BState Taxes^C.05^BInsurance^C.1 對(duì)應(yīng)‘deductions’字段场梆,map元素內(nèi)的分割使用^C墅冷。

5、1 Michigan Ave.^BChicago^BIL^B60600 對(duì)應(yīng)‘a(chǎn)ddress’字段或油,struct元素內(nèi)的分割使用^B寞忿。

拆分后,是不是很清楚了呢顶岸?

也可以不使用這些默認(rèn)的分隔符罐脊,而指定其他的分隔符,例如之前的表可以:

CREATE TABLE employees(

name STRING,

salary FLOAT,

subordinates ARRAY(STRING),

deductions MAP(STRING,FLOAT),

address ? ?STRUCT

)

ROW FORMAT DELIMITED--必須寫(xiě)在下面的子句之前(stored as 除外)

FILEDS TERMINATED BY '\001'--Hive 將使用 ^A 做為列分隔符

COLLECTION ITEMS TERMINATED BY '\002'--表明Hive 將使用 ^B 做為集合元素間分隔符

MAP KEYS TERMINATED BY '\003'--表明Hive 將使用 ^C 做為 MAP 的鍵值之間的分隔符

LINES TERMINATED BY '\n'--下面這兩句表明不需要?ROW FORMAT DELIMITED 做關(guān)鍵字

STORED AS TEXTFILE;--此句很少被用到

另外蜕琴,定義一個(gè)表是按照逗號(hào)來(lái)分隔的數(shù)據(jù)表可以這么來(lái):

create table test_2(fistr float, second float, third float) row format delimited fileds terminated by ',';

雖然用戶可以自定義一些分隔符萍桌,但是大多數(shù)子句還是使用默認(rèn)分隔符的,只需要指定明確替換的分隔符即可凌简。所以Hive可以容易的使用由很多ETL工具或其他程序產(chǎn)生的文件上炎。

四、讀時(shí)模式

當(dāng)用戶向數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)寫(xiě)入時(shí)雏搂,可以采用外部裝載藕施、update語(yǔ)句,或者查詢寫(xiě)入凸郑。傳統(tǒng)數(shù)據(jù)庫(kù)時(shí)寫(xiě)時(shí)模式裳食,什么意思呢,即只在數(shù)據(jù)寫(xiě)入時(shí)對(duì)模式進(jìn)行檢查芙沥。

Hive對(duì)底層存儲(chǔ)沒(méi)有一些控制手段诲祸,對(duì)于要查詢的數(shù)據(jù),有很多方式可以進(jìn)行創(chuàng)建而昨、修改或進(jìn)行破壞救氯。因此,hive不會(huì)在數(shù)據(jù)加載時(shí)才對(duì)模式進(jìn)行驗(yàn)證歌憨,而在查詢時(shí)就對(duì)其模式進(jìn)行驗(yàn)證着憨,這是讀時(shí)模式。

如果模式和文件內(nèi)容并不匹配务嫡,每行記錄中的字段個(gè)數(shù)少于對(duì)應(yīng)的模式中定義的字段個(gè)數(shù)的話甲抖,那么用戶將會(huì)看到查詢結(jié)果中有很多 null 值 漆改;如果某些字段是數(shù)值型的,但Hive 在讀取的時(shí)候發(fā)現(xiàn)存在非數(shù)值型的字符串值的話准谚,將返回 null 值挫剑。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市氛魁,隨后出現(xiàn)的幾起案子暮顺,更是在濱河造成了極大的恐慌厅篓,老刑警劉巖秀存,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異羽氮,居然都是意外死亡或链,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)档押,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)澳盐,“玉大人,你說(shuō)我怎么就攤上這事令宿〉鸢遥” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵粒没,是天一觀的道長(zhǎng)筛婉。 經(jīng)常有香客問(wèn)我,道長(zhǎng)癞松,這世上最難降的妖魔是什么爽撒? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮响蓉,結(jié)果婚禮上硕勿,老公的妹妹穿的比我還像新娘。我一直安慰自己枫甲,他們只是感情好源武,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著想幻,像睡著了一般软能。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上举畸,一...
    開(kāi)封第一講書(shū)人閱讀 51,146評(píng)論 1 297
  • 那天查排,我揣著相機(jī)與錄音,去河邊找鬼抄沮。 笑死跋核,一個(gè)胖子當(dāng)著我的面吹牛岖瑰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播砂代,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼蹋订,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了刻伊?” 一聲冷哼從身側(cè)響起露戒,我...
    開(kāi)封第一講書(shū)人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎捶箱,沒(méi)想到半個(gè)月后智什,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡丁屎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年荠锭,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晨川。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡证九,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出共虑,到底是詐尸還是另有隱情愧怜,我是刑警寧澤,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布妈拌,位于F島的核電站拥坛,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏供炎。R本人自食惡果不足惜渴逻,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望音诫。 院中可真熱鬧惨奕,春花似錦、人聲如沸竭钝。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)香罐。三九已至卧波,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間庇茫,已是汗流浹背港粱。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人查坪。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓寸宏,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親偿曙。 傳聞我的和親對(duì)象是個(gè)殘疾皇子氮凝,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容