[老實李]HIVE學習筆記

一虚吟、HIVE簡介

Hive是一種建立在Hadoop文件系統上的數據倉庫架構谒兄，并對存儲在HDFS中的數據進行分析和管理笑诅；它可以將結構化的數據文件映射為一張數據庫表靠益，并提供完整的 SQL 查詢功能妒蔚，可以將 SQL 語句轉換為 MapReduce 任務進行運行穿挨，通過自己的 SQL 去查詢分析需要的內容月弛，這套 SQL 簡稱 Hive SQL（HQL），使不熟悉 MapReduce 的用戶也能很方便地利用 SQL 語言對數據進行查詢科盛、匯總帽衙、分析。同時贞绵，這個語言也允許熟悉 MapReduce 開發(fā)者們開發(fā)自定義的mappers和reducers來處理內建的mappers和reducers無法完成的復雜的分析工作厉萝。Hive還允許用戶編寫自己定義的函數UDF，用來在查詢中使用榨崩。Hive中有3種UDF：User Defined Functions（UDF）谴垫、User Defined Aggregation Functions（UDAF）、User Defined Table Generating Functions（UDTF）母蛛。也就是說對存儲在HDFS中的數據進行分析和管理翩剪，我們不想使用手工，我們建立一個工具吧彩郊，那么這個工具就可以是hive前弯。

二、簡單的命令

//展示方法名列表
show functions;
//簡單方法的解釋
desc function split;

image.png

//解釋方法名并且舉個例子
desc function extended split;

image.png

//查找sp開頭的方法名
show functions like 'sp.*';

image.png

三秫逝、分區(qū)和分桶

1.分區(qū)

（1）什么是分區(qū)恕出？
分區(qū)其實就是再HDFS上存儲的時候分了一個相應的分區(qū)文件夾，比如你的一個表 partition_test,然后根據日期分區(qū)的話违帆，最后HDFS上的就是類似這樣的結構
/user/hive/warehouse/partition_test/stat_date=2015-01-18/province=beijing----顯示剛剛創(chuàng)建的分區(qū)

（2）內部表和外部表有什么區(qū)別浙巫？
1.內部表刪除的時候會將表的數據和元數據信息全部刪除，而外部表僅僅刪除外部表的元數據前方，數據是不會刪除的狈醉。

內部表在load data的時候會將數據轉移。也就是說 load data inpath '/input/edata' into table et; 這句話會把HDFS上的/input/edata文件移動到表et的location下面惠险。而外部表不會苗傅。
3.內部表和外部表都會在 /user/hive/warehouse/新建一個表的目錄（如果不指定location的話）

（3）內部分區(qū)表和外部分區(qū)表
創(chuàng)建一個簡單的內部分區(qū)表

create table partition_internal(

id INT COMMENT 'student id',

name  STRING COMMENT 'student name',

age INT COMMENT 'student age')

PARTITIONED BY(province STRING,city STRING)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t';

//為內部分區(qū)表指定分區(qū)
ALTER TABLE partition_internal ADD PARTITION (province='henan',city='zhengzhou');
//加載數據到內部分區(qū)表這個時候會移動數據
LOAD DATA INPATH '/user/hive/external01' INTO TABLE partition_internal PARTITION(province='henan',city='zhengzhou');
創(chuàng)建外部分區(qū)表

create  external table partition_external(

id INT COMMENT 'student id',

name  STRING COMMENT 'student name',

age INT COMMENT 'student age')

PARTITIONED BY(province STRING,city STRING)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t';

create  external table partition_external(

id INT COMMENT 'student id',

name  STRING COMMENT 'student name',

age INT COMMENT 'student age')

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

LOCATION '/user/hive/external02';

為外部分區(qū)表添加分區(qū)
ALTER TABLE partition_external ADD PARTITION (province='shanxi',city='xian') LOCATION '/user/hive/external02';

//查看分區(qū)
show partitions partition_external;

//刪除分區(qū)
ALTER TABLE student_partition_external DROP PARTITION(province='guangzhou',city='shenzhen');

//向多個分區(qū)插入數據，命令如下班巩。
from partition_test_input

insert overwrite table partition_test partition(stat_date='2015-01-18',province='jiangsu') select member_id,name from partition_test_input where stat_date='2015-01-18' and province='jiangsu'

insert overwrite table partition_test partition(stat_date='2015-01-28',province='sichuan') select member_id,name from partition_test_input where stat_date='2015-01-28' and province='sichuan'

insert overwrite table partition_test partition(stat_date='2015-01-28',province='beijing') select member_id,name from partition_test_input where stat_date='2015-01-28' and province='beijing';

（4）動態(tài)分區(qū)
按照上面的方法向分區(qū)表中插入數據渣慕，如果數據源很大，針對一個分區(qū)就要寫一個 insert 抱慌，非常麻煩逊桦。使用動態(tài)分區(qū)可以很好地解決上述問題。動態(tài)分區(qū)可以根據查詢得到的數據自動匹配到相應的分區(qū)中去抑进。

1强经、啟動動態(tài)分區(qū)功能（默認沒有啟動）
set hive.exec.dynamic.partition = true;

2、設置所有分區(qū)都是動態(tài)的
set hive.exec.dynamic.partition.mode=nostrict;

3寺渗、準備兩個表：一個普通外部表student_external01匿情，一個分區(qū)外部表student02
而且要保證分區(qū)表結構student02和student_external01一致
我們以student_external01表為例兰迫，但是少兩個分區(qū)字段，所以我們再增加兩個字段炬称。
ALTER TABLE student_external01 ADD COLUMNS(province STRING,city STRING);

4汁果、先往外部表student_external01中加載數據（實際上現在外部表student_external01中已經有數據了，因為創(chuàng)建該表時指定了location）
LOAD DATA INPATH '/user/hive/external02/student.txt' INTO TABLE student_external01;

5玲躯、利用動態(tài)分區(qū)向表中插入數據
//先創(chuàng)建分區(qū)外部表student02

create  external table student02(

id INT COMMENT 'student id',

name  STRING COMMENT 'student name',

age INT COMMENT 'student age')

PARTITIONED BY(province STRING,city STRING)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t';

//利用動態(tài)分區(qū)向表中插入數據
INSERT OVERWRITE TABLE student02 PARTITION(province,city) SELECT * FROM student_external01 ;
然后數據就會動態(tài)分區(qū)据德，把對應的數據放到對應的分區(qū)下。

image.png

2.桶操作

Hive 中 table 可以拆分成 Partition table 和桶（BUCKET）跷车，分區(qū)提供了一個隔離數據和優(yōu)化查詢的便利方式棘利，不過并非所有的數據都可形成合理的分區(qū)，尤其是需要確定合適大小的分區(qū)劃分方式姓赤，（不合理的數據分區(qū)劃分方式可能導致有的分區(qū)數據過多赡译，而某些分區(qū)沒有什么數據的尷尬情況）分桶是將數據集分解為更容易管理的若干部分的另一種技術仲吏。

數據分桶的原理: 跟MR中的HashPartitioner的原理一模一樣, 按照分桶字段的hash值去模除以分桶的個數

和分區(qū)的區(qū)別：分桶中的字段是原始數據中存在的不铆，而分區(qū)字段在原始文件中并不存在。比如我們上面的那個分區(qū)province和city字段就是不在student02中的(如果指定了分區(qū)并且表的字段中還包含這兩個字段的話裹唆，hive會報錯的)

1誓斥、開啟分桶功能

set hive.enforce.bucketing=true;

2、創(chuàng)建桶表

CREATE TABLE IF NOT EXISTS bucket_table(

id INT COMMENT 'student id',

name  STRING COMMENT 'student name',

age INT COMMENT 'student age')

CLUSTERED BY(id) INTO 3 BUCKETS

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t';

3许帐、插入數據到桶表中
INSERT OVERWRITE TABLE bucket_table SELECT id,name,age FROM student_external01;

二.HIVE復合類型

hive提供了復合數據類型：

1.Structs： structs內部的數據可以通過DOT（.）來存取劳坑。例如，表中一列c的類型為STRUCT{a INT; b INT}成畦，我們可以通過c.a來訪問域a距芬。

建表

hive> create table student_test(id INT, info struct< name:STRING, age:INT>)

> ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

> COLLECTION ITEMS TERMINATED BY ':';

'FIELDS TERMINATED BY' ：字段與字段之間的分隔符。'COLLECTION ITEMS TERMINATED BY' ：一個字段各個item的分隔符循帐。

導入數據（注意最后不要帶空格不然識別就是NULL）

$ cat test5.txt

1,zhou:30

2,yan:30

3,chen:20

4,li:80

hive> LOAD DATA LOCAL INPATH '/home/hadoop/djt/test5.txt' INTO TABLE student_test;

查詢數據

hive> select info.age from student_test;

2.Map（K-V對）：訪問指定域可以通過["指定域名稱"]進行框仔。例如，一個Map M包含了一個group-》gid的kv對拄养，gid的值可以通過M['group']來獲取离斩。

建表

hive> create table employee(id string, perf map< string, int>)

 ROW FORMAT DELIMITED

 FIELDS TERMINATED BY '\t'

COLLECTION ITEMS TERMINATED BY ','

MAP KEYS TERMINATED BY ':';

‘MAP KEYS TERMINATED BY’ ：key value分隔符

導入數據

$ cat test7.txt

1 job:80,team:60,person:70

2 job:60,team:80

3 job:90,team:70,person:100

hive> LOAD DATA LOCAL INPATH '/home/work/data/test7.txt' INTO TABLE employee;

查詢

hive> select perf['person'] from employee;

3)Array：array中的數據為相同類型。例如瘪匿，假如array A中元素['a','b','c']跛梗，則A[1]的值為'b'

3.Array使用

建表

hive> create table class_test(name string, student_id_list array< INT>)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

COLLECTION ITEMS TERMINATED BY ':';

導入數據

$ cat test6.txt

034,1:2:3:4

035,5:6

036,7:8:9:10

hive> LOAD DATA LOCAL INPATH '/home/work/data/test6.txt' INTO TABLE class_test ;

查詢

hive> select student_id_list[3] from class_test;

三、HIVE的join用法

https://blog.csdn.net/shenxiaoming77/article/details/49489713

四棋弥、HIVE的數據刪除

1.刪除指定行

image.png

insert overwrite table A select id,name from A where id !=2;

2.刪除表中所有數據
truncate table table_name;

五核偿、HIVE數據分析結果的保存

https://blog.csdn.net/u010159842/article/details/70193687

六、hive中order by,sort by, distribute by, cluster by作用以及用法

orderby 就一個reduce顽染， sortby是指定幾個reduce就是幾個reduce進行排序漾岳，但是并不能保證所有的數據都是有序的

1. order by

Hive中的order by跟傳統的sql語言中的order by作用是一樣的聂薪，會對查詢的結果做一次全局排序，所以說蝗羊，只有hive的sql中制定了order by所有的數據都會到同一個reducer進行處理（不管有多少map藏澳，也不管文件有多少的block只會啟動一個reducer）。但是對于大量數據這將會消耗很長的時間去執(zhí)行耀找。
這里跟傳統的sql還有一點區(qū)別：如果指定了hive.mapred.mode=strict（默認值是nonstrict）,這時就必須指定limit來限制輸出條數翔悠，原因是：所有的數據都會在同一個reducer端進行，數據量大的情況下可能不能出結果野芒，那么在這樣的嚴格模式下蓄愁，必須指定輸出的條數。

2. sort by

Hive中指定了sort by狞悲，那么在每個reducer端都會做排序撮抓，也就是說保證了局部有序（每個reducer出來的數據是有序的，但是不能保證所有的數據是有序的摇锋，除非只有一個reducer）丹拯，好處是：執(zhí)行了局部排序之后可以為接下去的全局排序提高不少的效率（其實就是做一次歸并排序就可以做到全局排序了）。

3. distribute by和sort by一起使用

ditribute by是控制map的輸出在reducer是如何劃分的荸恕，舉個例子乖酬，我們有一張表，mid是指這個store所屬的商戶融求，money是這個商戶的盈利咬像，name是這個store的名字

image.png

執(zhí)行hive語句：
select mid, money, name from store distribute by mid sort by mid asc, money asc
我們所有的mid相同的數據會被送到同一個reducer去處理，這就是因為指定了distribute by mid生宛，這樣的話就可以統計出每個商戶中各個商店盈利的排序了（這個肯定是全局有序的县昂，因為相同的商戶會放到同一個reducer去處理）。這里需要注意的是distribute by必須要寫在sort by之前陷舅。

4. cluster by

cluster by的功能就是distribute by和sort by相結合倒彰，如下2個語句是等價的：
select mid, money, name from store cluster by mid
select mid, money, name from store distribute by mid sort by mid
如果需要獲得與3中語句一樣的效果：
select mid, money, name from store cluster by mid sort by money
注意被cluster by指定的列只能是降序，不能指定asc和desc蔑赘。

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末狸驳，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子缩赛，更是在濱河造成了極大的恐慌耙箍，老刑警劉巖，帶你破解...
沈念sama閱讀 218,755評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件酥馍，死亡現場離奇詭異辩昆，居然都是意外死亡，警方通過查閱死者的電腦和手機旨袒，發(fā)現死者居然都...
沈念sama閱讀 93,305評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門汁针，熙熙樓的掌柜王于貴愁眉苦臉地迎上來术辐，“玉大人，你說我怎么就攤上這事施无』源剩” “怎么了？”我有些...
開封第一講書人閱讀 165,138評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵猾骡，是天一觀的道長瑞躺。經常有香客問我，道長兴想，這世上最難降的妖魔是什么幢哨？我笑而不...
開封第一講書人閱讀 58,791評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮嫂便，結果婚禮上捞镰，老公的妹妹穿的比我還像新娘。我一直安慰自己毙替，他們只是感情好岸售，可當我...
茶點故事閱讀 67,794評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蔚龙，像睡著了一般冰评。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上木羹，一...
開封第一講書人閱讀 51,631評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音解孙，去河邊找鬼坑填。笑死，一個胖子當著我的面吹牛弛姜，可吹牛的內容都是我干的脐瑰。我是一名探鬼主播，決...
沈念sama閱讀 40,362評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼廷臼，長吁一口氣：“原來是場噩夢啊……” “哼苍在！你這毒婦竟也來了？” 一聲冷哼從身側響起荠商，我...
開封第一講書人閱讀 39,264評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤寂恬，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后莱没，有當地人在樹林里發(fā)現了一具尸體初肉，經...
沈念sama閱讀 45,724評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,900評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年饰躲，在試婚紗的時候發(fā)現自己被綠了牙咏。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片臼隔。...
茶點故事閱讀 40,040評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖妄壶，靈堂內的尸體忽然破棺而出摔握，到底是詐尸還是另有隱情，我是刑警寧澤丁寄，帶...
沈念sama閱讀 35,742評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布盒发，位于F島的核電站，受9級特大地震影響狡逢，放射性物質發(fā)生泄漏宁舰。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,364評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一奢浑、第九天我趴在偏房一處隱蔽的房頂上張望蛮艰。院中可真熱鬧，春花似錦雀彼、人聲如沸壤蚜。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,944評論 0贊 22
一樁弒父案徊哑，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽袜刷。三九已至，卻和暖如春莺丑，著一層夾襖步出監(jiān)牢的瞬間著蟹，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,060評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工梢莽，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留萧豆，地道東北人。一個月前我還...
沈念sama閱讀 48,247評論 3贊 371
代替公主和親
正文我出身青樓昏名，卻偏偏與公主長得像涮雷，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子轻局，可洞房花燭夜當晚...
茶點故事閱讀 44,979評論 2贊 355

[老實李]HIVE學習筆記

一虚吟、HIVE簡介

二、簡單的命令

三秫逝、分區(qū)和分桶

1.分區(qū)

2.桶操作

3.Array使用

三、HIVE的join用法

四棋弥、HIVE的數據刪除

五核偿、HIVE數據分析結果的保存

六、hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by

2. sort by

3. distribute by和sort by一起使用

4. cluster by

推薦閱讀更多精彩內容