Hive目錄及配置文件
# 配置文件
/etc/hive/conf
# 根目錄
/opt/cloudera/parcels/CDH/lib/hive
當(dāng)cm界面里執(zhí)行部署客戶(hù)端配置時(shí)荞估,如上兩個(gè)conf目錄都會(huì)覆蓋新娜。
JDBC方式訪問(wèn)Hive
基于HiveServer2服務(wù)推穷。
SecureRT僧著,sz設(shè)置下載目錄履因,Options-Xmodem/Zmodem-Download。
HiveServer2端口霹抛,10000搓逾。
# user為提交作業(yè)的賬戶(hù)
Connection con = DriverManager.getConnection("jdbc:hive2://cdhslave1:10000/default", "root", "123456");
idea設(shè)置,Settings-Build, Execution, Deployment-Compiler-Java Compiler杯拐,Project bytecode version: 1.7
Default Settings-Editor-File Encodings, Project Encoding: UTF-8霞篡。
Project Structure, Project, 設(shè)置jdk版本和編譯版本,編譯版本和Settings一致端逼。Libraries, 把lib目錄加進(jìn)工程朗兵。Modules, 設(shè)置輸出目錄,Use module compile output path顶滩。
調(diào)整配置后余掖,等待索引創(chuàng)建完。
UDF開(kāi)發(fā)
UDF礁鲁,一進(jìn)一出盐欺。
UDAF,聚集函數(shù)仅醇,多進(jìn)一出冗美。
UDTF,一進(jìn)多出析二。
UDF中的evaluate函數(shù)名不可變粉洼,可以任意重載。
使用方式:在Hive會(huì)話中add自定義函數(shù)的jar文件叶摄,然后創(chuàng)建function属韧,繼而使用函數(shù)。
需求:統(tǒng)計(jì)每個(gè)活動(dòng)頁(yè)的流量蛤吓,獲取活動(dòng)ID宵喂。
- Java開(kāi)發(fā)
- 導(dǎo)出jar
- 使用
add jar /root/project/lib/hive_udf.jar;
create temporary function GetActID as 'com.cloudy.hive.udf.GetActID';
sql中通過(guò)GetActID直接使用,用起來(lái)和內(nèi)置函數(shù)無(wú)區(qū)別柱衔。
IDEA中打包樊破,
Project Structure-Artifacts, 有兩類(lèi)愉棱,分別是空的和有依賴(lài)包的唆铐,Build on make選上哲戚。然后Build-Make Project。
hive_udf.jar上傳至/root/project/lib/
# /root/project/rpt_act_visit_daily
touch rpt_act_visit_daily.hql
touch rpt_act_visit_daily.sh
hiveF命令封裝
Q: hive -f不能傳參艾岂,hql只能寫(xiě)在shell腳本里顺少,導(dǎo)致shell腳本內(nèi)容龐大和凌亂。
A: 開(kāi)發(fā)一個(gè)hiveF的功能王浴,用法同hive -f脆炎,但支持傳參,使用格式:
- hiveF aa.sql
- hiveF aa.sql -date 2015-01-02
- hiveF aa.sql -date 2015-01-02 -date1 2015-01-03
其中氓辣,aa.sql里通過(guò)${date}的方式對(duì)接秒裕。
hiveF開(kāi)發(fā)思路,
使用方式钞啸,hiveF aa.sql -date 2015-01-02
- 開(kāi)發(fā)一個(gè)Java應(yīng)用程序讀出aa.sql內(nèi)容存入一個(gè)String變量里几蜻。
- 把里面的${date}替換為2015-01-02,并System.out.println出來(lái)体斩。
- 在shell腳本里梭稚,用str接收2的輸出,執(zhí)行
hive -e $str
絮吵。
# /root/project
mkdir bin
cd bin
touch hiveF
難點(diǎn)弧烤,把Java程序的輸出結(jié)果直接放到shell腳本里運(yùn)行。
Java運(yùn)行蹬敲,參數(shù)傳進(jìn)來(lái)暇昂,shell腳本里$*
接收參數(shù)。參數(shù)是哪里傳的呢伴嗡?哪里傳給hiveF的呢急波?是shell腳本rpt_act_visit_daily.sh
傳過(guò)來(lái)的,交給java來(lái)處理闹究,打印的str由cmd來(lái)接收幔崖,再用hive -e
執(zhí)行。
#!/bin/sh
. /etc/profile
cmd=`java -jar /root/project/lib/HiveF.jar $*`
echo $cmd
hive -e "$cmd" -i /root/project/bin/init.hql
chmod +x hiveF
vi /etc/profile
export PATH=$PATH:/root/project/bin
source /etc/profile
打包hiveF.jar, Main Class: com.cloudy.hive.hiveF.Main
執(zhí)行渣淤,
sh ./rpt_act_visit_daily.sh 2015-08-28