1、按天劃分的表
即將每天的數(shù)據(jù)存放在一張表中视卢。
對(duì)于Hive,這種情況下應(yīng)該使用分區(qū)表踱卵,通過(guò)where子句的表達(dá)式來(lái)選擇查詢所需要的指定的分區(qū),這樣的查詢執(zhí)行效率高据过。
一個(gè)理想的分區(qū)方案不應(yīng)該導(dǎo)致產(chǎn)生太多的分區(qū)和文件夾目錄惋砂,并且每個(gè)目錄下的文件應(yīng)該足夠的大。
分區(qū)過(guò)多或者維度過(guò)小绳锅,會(huì)導(dǎo)致產(chǎn)生大量的文件西饵,會(huì)超過(guò)文件系統(tǒng)的處理能力
兩個(gè)解決方案:
(1)按照不同的時(shí)間粒度來(lái)確定合適大小的數(shù)據(jù)量,可以選擇月和日的粒度
(2)使用兩個(gè)級(jí)別的分區(qū)并使用不同的維度榨呆,例如罗标,第一個(gè)分區(qū)可能是按天(day)劃分的庸队,而二級(jí)分區(qū)可以是地區(qū)(region_code)
create table dmt.test_par_info (
url string,time long,city string
)partitioned by (day int,state string)
2积蜻、唯一鍵和標(biāo)準(zhǔn)化
hive中可以使用 array闯割、map 、struct等類型竿拆,來(lái)存儲(chǔ)多項(xiàng)數(shù)據(jù)宙拉,可以適當(dāng)減少一些表
3、同一份數(shù)據(jù)多種處理
from dmt.user_inv_info_mon a
insert into table dmt.user_inv_par_info_mon
partition(region='guangdong')
select * where a.user_id='a019'
insert overwrite table dmt.user_inv_par_info_mon
partition(region='anhui')
select * where a.inv_time='2020/1/1'
4丙笋、分桶表數(shù)據(jù)存儲(chǔ)
分桶是將數(shù)據(jù)集分解成更容易管理的若干部分的另一個(gè)技術(shù)谢澈。
創(chuàng)建分桶表:
create table dmt.user_inv_bucket_info_mon (
user_id string,
inv_time string,
prod_id string,
inv_amt int
)
partitioned by (dt string)
clustered by (user_id) into 50 buckets;
強(qiáng)制hive為目標(biāo)表的分桶初始化過(guò)程設(shè)置一個(gè)正確的reducer個(gè)數(shù)
set hive.enforce.bucketing=true;
填充分區(qū)
from dmt.user_inv_par_info_mon
insert overwrite table dmt.user_inv_bucket_info_mon
partition(dt='2020-02-23')
select user_id,inv_time,prod_id,inv_amt
分桶有幾個(gè)優(yōu)點(diǎn):
(1)因?yàn)橥暗臄?shù)量是固定的,所以它沒(méi)有數(shù)據(jù)波動(dòng)
(2)桶對(duì)于抽樣再合適不過(guò)
(3)分桶同時(shí)有利于執(zhí)行高效的map-side JOIN
5御板、使用列存儲(chǔ)表
hive通常使用行式存儲(chǔ)锥忿,不過(guò)也提供了一個(gè)列式serde來(lái)以混合列式格式存儲(chǔ)信息。若某個(gè)字段重復(fù)的數(shù)據(jù)較多怠肋,采用列式存儲(chǔ)會(huì)是最好的方法
6敬鬓、使用壓縮
壓縮可以使磁盤(pán)上存儲(chǔ)的數(shù)據(jù)量變小,這樣可以通過(guò)降低I/O來(lái)提高查詢速度笙各。