Hive支持RDBMS中的大多數(shù)數(shù)據(jù)類型,同時(shí)也支持RDBMS中很少支持的3中集合數(shù)據(jù)類型印机。
一距境、基本數(shù)據(jù)類型
1. Integers 整數(shù)型
TINYINT—1 byte integer
SMALLINT—2 byte integer
INT—4 byte integer
BIGINT—8 byte integer
以上這些都是有符號(hào)的整型羊苟。
2. Boolean type 布爾型
BOOLEAN—TRUE/FALSE
3. Floating point numbers 浮點(diǎn)型
FLOAT—single precision 單精度浮點(diǎn)
DOUBLE—Double precision 雙精度浮點(diǎn)
4. Fixed point numbers 定點(diǎn)型
DECIMAL—a fixed point value of user defined scale and precision
5. String types 字符序列
STRING—sequence of characters in a specified character set
VARCHAR—sequence of characters in a specified character set with a maximum length
CHAR—sequence of characters in a specified character set with a defined length
7. Date and time types 時(shí)間類型
TIMESTAMP—a specific point in time, up to nanosecond precision
DATE—a date
8. Binary types 字節(jié)數(shù)組
BINARY—a sequence of bytes
為什么有的字符類型很特殊呢寂曹? 這是因?yàn)樗羞@些數(shù)據(jù)類型都是對(duì)Java中的接口的實(shí)現(xiàn)腹备,比如string類型實(shí)現(xiàn)的和Java中的string衬潦,float中也是對(duì)Java中的float。
但是其他RDBMS通常也會(huì)提供限制最大長(zhǎng)度的字符數(shù)組植酥,而在Hive中卻不會(huì)支持镀岛。因?yàn)樘幱谛阅軆?yōu)化的考慮,這些定長(zhǎng)的記錄容易進(jìn)行索引友驮、掃描等漂羊。而在Hive強(qiáng)調(diào)優(yōu)化磁盤(pán)讀寫(xiě)的性能對(duì)限制列的長(zhǎng)度相對(duì)來(lái)說(shuō)不是很重要。
在Hive0.8.0以后的timestamp卸留、binary數(shù)據(jù)類型數(shù)據(jù)類型走越;timestamp指可以為整數(shù),也就是距離Unix新紀(jì)元的秒數(shù)耻瑟;也可以是浮點(diǎn)數(shù)旨指,距離到納秒(小數(shù)點(diǎn)后保留9位),也可以是字符串喳整,即JDBC所約定的的字符串格式谆构,比如:yyyy-mm-dd hh24:mi:ss.fffffffff。
binary類型和其他的RDBMS數(shù)據(jù)庫(kù)中的varbinary很類似框都。不過(guò)它并不和blob數(shù)據(jù)類型并不同搬素。因?yàn)閎inary列存儲(chǔ)在記錄中,而blob不同魏保。
當(dāng)用戶查詢用到不同的浮點(diǎn)列對(duì)比是熬尺,比如將float和double列進(jìn)行對(duì)比或一個(gè)整數(shù)列和另一種整數(shù)列對(duì)比時(shí),Hive會(huì)怎么樣處理呢谓罗?遇到這種情況粱哼,Hive會(huì)隱式的將把數(shù)據(jù)類型轉(zhuǎn)換為兩個(gè)數(shù)據(jù)類型較大的那個(gè)處理,也就是將float轉(zhuǎn)換成double妥衣。
二皂吮、集合數(shù)據(jù)類型
Hive 中的列支持使用 struct、map税手、array 集合數(shù)據(jù)類型蜂筹,如下:
STRUCT列類型為struct{first STRING,last STRING} ? ? 如: struct('john','Doe')
MAP是一組鍵值對(duì)集合 字段名[last]獲取值 ? ?如:map('first','Join','last','Doe')
ARRAY是具有相關(guān)同類型和名稱的變量的集合['John','Doe'] ? ?如:Array(['John','Doe']?)
大多數(shù)的關(guān)系型數(shù)據(jù)庫(kù)并不支持這些集合數(shù)據(jù)類型,這有破壞標(biāo)準(zhǔn)數(shù)據(jù)格式的危險(xiǎn)芦倒。通常在RDBMS中的處理方式大概用主外鍵關(guān)聯(lián)艺挪。我們知道主外鍵關(guān)聯(lián)的話在進(jìn)行TB級(jí)以上的數(shù)據(jù)處理時(shí)會(huì)造成性能的極大消耗。但在大數(shù)據(jù)庫(kù)架構(gòu)中兵扬,這種設(shè)計(jì)卻有助于提高數(shù)據(jù)吞吐量麻裳。
例如:
CREATE TABLE employees(
name STRING,
salary float,
subordinates array<string>,
deductions map<string,float>,
address struct<street:string,city:string,state:string,zip:int>?
)
name --雇員名,salary --雇員薪水器钟,subordinates --下屬員工津坑,deductions --五險(xiǎn)一金,個(gè)稅等傲霸,address --雇員的住址
很明顯疆瑰,一個(gè)雇員表詳細(xì)信心存儲(chǔ)在一張表中,在RDBMS中則可能存在某個(gè)字段的信息存儲(chǔ)在另外一張表昙啄,通過(guò)主外鍵或查詢條件進(jìn)行連接后獲取結(jié)果穆役。這里可以通過(guò)一些集合數(shù)據(jù)類型進(jìn)行處理了就。
三梳凛、文本文件的數(shù)據(jù)編碼
我們知道耿币,一個(gè)文本文件如果需要進(jìn)行數(shù)據(jù)處理,就需要對(duì)其中的格式進(jìn)行定義韧拒,我們最熟悉的應(yīng)該是以逗號(hào)或制表符分隔的文本格式CSV淹接、TSV,當(dāng)然在Hive中叛溢,這些文本格式都是被支持的蹈集。
那么Hive中還會(huì)支持其他什么控制字符的文本格式呢?
\n ? ? ? ? ? ? ? ? ? ? ? 換行符是可以支持的雇初,因?yàn)槊恳恍卸伎梢员徽J(rèn)為是一條記錄
^A(Ctrl+A) ? ? 分隔字段拢肆,在 CREATE TABLE 語(yǔ)句中可以使用八進(jìn)制編碼(\001)表示
^B ? ? ? ? ? ? ? ? ? ? ?分隔 ARRAY 、MAP或者 STRUCT 中的元素靖诗,鍵值對(duì)之間的分隔郭怪,使用八進(jìn)制編碼(\002)表示
^C ? ? ? ? ? ? ? ? ? ? ?用于 MAP 中鍵和值之間的分隔,使用八進(jìn)制編碼(\003)表示
比如將一個(gè)特定格式的文件插入到employees庫(kù)中刊橘,文件打開(kāi)后數(shù)據(jù)格式顯示如下:
Shkodran Mustafi^A5000^ALaurent Koscielny^BRobert Holding^BHector Bellerin^AFederal^C.2^BState Taxes^C.05^BInsurance^C.1^A 1 Michigan Ave.^BChicago^BIL^B60600
我們可以針對(duì)此文件進(jìn)行分解鄙才,讓我們對(duì)格式更加清晰一些:
1、Shkodran Mustafi 對(duì)應(yīng) 'name'字段促绵,字段間用^A分割攒庵,所有在和salary字段之間的地方使用了^A嘴纺。
2、5000對(duì)應(yīng)’salary'字段浓冒,同樣的用^A 隔斷下一個(gè)字段栽渴。
3、Laurent Koscielny^BRobert Holding^BHector Bellerin 對(duì)應(yīng)'subordinates'字段稳懒,針對(duì)array元素內(nèi)的分割使用^B闲擦。
4、Federal^C.2^BState Taxes^C.05^BInsurance^C.1 對(duì)應(yīng)‘deductions’字段场梆,map元素內(nèi)的分割使用^C墅冷。
5、1 Michigan Ave.^BChicago^BIL^B60600 對(duì)應(yīng)‘a(chǎn)ddress’字段或油,struct元素內(nèi)的分割使用^B寞忿。
拆分后,是不是很清楚了呢顶岸?
也可以不使用這些默認(rèn)的分隔符罐脊,而指定其他的分隔符,例如之前的表可以:
CREATE TABLE employees(
name STRING,
salary FLOAT,
subordinates ARRAY(STRING),
deductions MAP(STRING,FLOAT),
address ? ?STRUCT
)
ROW FORMAT DELIMITED--必須寫(xiě)在下面的子句之前(stored as 除外)
FILEDS TERMINATED BY '\001'--Hive 將使用 ^A 做為列分隔符
COLLECTION ITEMS TERMINATED BY '\002'--表明Hive 將使用 ^B 做為集合元素間分隔符
MAP KEYS TERMINATED BY '\003'--表明Hive 將使用 ^C 做為 MAP 的鍵值之間的分隔符
LINES TERMINATED BY '\n'--下面這兩句表明不需要?ROW FORMAT DELIMITED 做關(guān)鍵字
STORED AS TEXTFILE;--此句很少被用到
另外蜕琴,定義一個(gè)表是按照逗號(hào)來(lái)分隔的數(shù)據(jù)表可以這么來(lái):
create table test_2(fistr float, second float, third float) row format delimited fileds terminated by ',';
雖然用戶可以自定義一些分隔符萍桌,但是大多數(shù)子句還是使用默認(rèn)分隔符的,只需要指定明確替換的分隔符即可凌简。所以Hive可以容易的使用由很多ETL工具或其他程序產(chǎn)生的文件上炎。
四、讀時(shí)模式
當(dāng)用戶向數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)寫(xiě)入時(shí)雏搂,可以采用外部裝載藕施、update語(yǔ)句,或者查詢寫(xiě)入凸郑。傳統(tǒng)數(shù)據(jù)庫(kù)時(shí)寫(xiě)時(shí)模式裳食,什么意思呢,即只在數(shù)據(jù)寫(xiě)入時(shí)對(duì)模式進(jìn)行檢查芙沥。
Hive對(duì)底層存儲(chǔ)沒(méi)有一些控制手段诲祸,對(duì)于要查詢的數(shù)據(jù),有很多方式可以進(jìn)行創(chuàng)建而昨、修改或進(jìn)行破壞救氯。因此,hive不會(huì)在數(shù)據(jù)加載時(shí)才對(duì)模式進(jìn)行驗(yàn)證歌憨,而在查詢時(shí)就對(duì)其模式進(jìn)行驗(yàn)證着憨,這是讀時(shí)模式。
如果模式和文件內(nèi)容并不匹配务嫡,每行記錄中的字段個(gè)數(shù)少于對(duì)應(yīng)的模式中定義的字段個(gè)數(shù)的話甲抖,那么用戶將會(huì)看到查詢結(jié)果中有很多 null 值 漆改;如果某些字段是數(shù)值型的,但Hive 在讀取的時(shí)候發(fā)現(xiàn)存在非數(shù)值型的字符串值的話准谚,將返回 null 值挫剑。