根據(jù)已經(jīng)存在的表瘾晃,使用as關(guān)鍵字,創(chuàng)建一個(gè)與查詢結(jié)果字段一致的表呵晚,同時(shí)將查詢結(jié)果數(shù)據(jù)插入到新表
只有student_id,name兩個(gè)字段的表
刪除列,將繼續(xù)存在的列再定義一遍兆旬,需要?jiǎng)h除的列不再定義
字段名稱類型注釋分桶字段
student_idstring學(xué)生ID是
namestring姓名否
ageint年齡否
originstring學(xué)院ID否
查看hdfs分桶文件
說(shuō)明:
分桶表一般不使用load向分桶表中導(dǎo)入數(shù)據(jù),因?yàn)閘oad導(dǎo)入數(shù)據(jù)只是將數(shù)據(jù)復(fù)制到表的數(shù)據(jù)存儲(chǔ)目錄下朵栖,hive并不會(huì)在load的時(shí)候?qū)?shù)據(jù)進(jìn)行分析然后按照分桶字段分桶,load只會(huì)將一個(gè)文件全部導(dǎo)入到分桶表中柴梆,并沒(méi)有分桶陨溅。一般采用insert從其他表向分桶表插入數(shù)據(jù)。 分桶表在創(chuàng)建表的時(shí)候只是定義表的模型轩性,插入的時(shí)候需要做如下操作: 在每次執(zhí)行分桶插入的時(shí)候在當(dāng)前執(zhí)行的session會(huì)話中要設(shè)置
聲明本次執(zhí)行的是一次分桶操作声登。需要指定reduce個(gè)數(shù)與分桶的數(shù)量相同
這樣才能保證有多少桶就生成多少個(gè)文件狠鸳。 如果定義了按照分桶字段排序揣苏,需要在從其他表查詢數(shù)據(jù)過(guò)程中將數(shù)據(jù)按照分區(qū)字段排序之后插入各個(gè)桶中,分桶表并不會(huì)將各分桶中的數(shù)據(jù)排序件舵。排序和分桶的字段相同的時(shí)候使用Cluster by(字段),cluster by 默認(rèn)按照分桶字段在桶內(nèi)升序排列卸察,如果需要在桶內(nèi)降序排列,使用distribute by (col) sort by (col desc)組合實(shí)現(xiàn)铅祸。
導(dǎo)出數(shù)據(jù)到本地的常用方法
默認(rèn)結(jié)果分隔符:' '
創(chuàng)建2張表
導(dǎo)入數(shù)據(jù)
等同于
兩個(gè)表通過(guò)id關(guān)聯(lián)坑质,把兩個(gè)表的數(shù)據(jù)全部查詢出來(lái)
左連接時(shí),左表中出現(xiàn)的join字段都保留临梗,右表沒(méi)有連接上的都為空
右連接時(shí)涡扼,右表中出現(xiàn)的join字段都保留,左表沒(méi)有連接上的都是空
左半連接實(shí)現(xiàn)了類似IN/EXISTS的查詢語(yǔ)義盟庞,輸出符合條件的左表內(nèi)容吃沪。 hive不支持in …exists這種關(guān)系型數(shù)據(jù)庫(kù)中的子查詢結(jié)構(gòu),hive暫時(shí)不支持右半連接什猖。 例如:
使用Hive對(duì)應(yīng)于如下語(yǔ)句:
使用分布式緩存將小表數(shù)據(jù)加載都各個(gè)map任務(wù)中票彪,在map端完成join,map任務(wù)輸出后不狮,不需要將數(shù)據(jù)拷貝到reducer階段再進(jìn)行join降铸, 降低的數(shù)據(jù)在網(wǎng)絡(luò)節(jié)點(diǎn)之間傳輸?shù)拈_(kāi)銷。多表關(guān)聯(lián)數(shù)據(jù)傾斜優(yōu)化的一種手段摇零。多表連接推掸,如果只有一個(gè)表比較大,其他表都很小, 則join操作會(huì)轉(zhuǎn)換成一個(gè)只包含map的Job谅畅。運(yùn)行日志中會(huì)出現(xiàn)Number of reduce tasks is set to 0 since there's no reduce operator 沒(méi)有reduce的提示俊嗽。 例如:
創(chuàng)建用戶評(píng)分表
導(dǎo)入數(shù)據(jù)
語(yǔ)法2:CASE WHEN a THEN b [WHEN c THEN d]* [ELSE e] END 說(shuō)明:如果a為TRUE,則返回b;如果c為TRUE趁耗,則返回d掌眠;否則返回e 例如:
查詢用戶評(píng)分表,每個(gè)年齡段的最大評(píng)分值
結(jié)果為:
當(dāng)Hive提供的內(nèi)置函數(shù)無(wú)法滿足你的業(yè)務(wù)處理需要時(shí)竹揍,此時(shí)就可以考慮使用用戶自定義函數(shù)(UDF:user-defined function)。 UDF 作用于單個(gè)數(shù)據(jù)行邪铲,產(chǎn)生一個(gè)數(shù)據(jù)行作為輸出芬位。 步驟:
新建類繼承UDF
將項(xiàng)目進(jìn)行打包
說(shuō)明:
如出現(xiàn)以下異常信息: Failed to execute goal on project hive-exec: Could not resolve dependencies for project org.apache.hive:hive-exec:jar:2.3.0: Could not find artifact org.pentaho:pentaho-aggdesigner-algorithm:jar:5.1.5-jhyde in alimaven (http://maven.aliyun.com/nexus/content/groups/public/) -> [Help 1]
請(qǐng)手動(dòng)下載Jar包pentaho-aggdesigner-algorithm/5.1.5-jhyde.jar 下載地址:
將Jar包放置在本地Maven倉(cāng)庫(kù)org/pentaho/pentaho-aggdesigner-algorithm/5.1.5-jhyde路徑下,之后進(jìn)行重新打包带到。
創(chuàng)建臨時(shí)函數(shù)與開(kāi)發(fā)好的java class關(guān)聯(lián)
在hql中使用自定義的函數(shù)