Python獲取Hive數(shù)據(jù)計算相關(guān)性系數(shù)

需求：

1.從hive 表中獲取數(shù)據(jù)屑墨。

2.計算各個指標(biāo)與主分析指標(biāo)間的相關(guān)系數(shù)迹冤。

3.將計算出來的相關(guān)系數(shù)猪半，放入csv 文件砸彬，待使用坡倔。

首先只洒，相關(guān)系數(shù)我們選擇了皮爾遜相關(guān)系數(shù)达箍，python的實(shí)現(xiàn)也是從網(wǎng)上直接找到的铣卡。

然后確定獲取hive 數(shù)據(jù)的方式锉桑。公司環(huán)境沒有pyspark排霉，排除了用spark 操作hive 的方法。就想套用值之前腳本使用的民轴，用impala 連接hive 的獲取方法攻柠。結(jié)果基本開發(fā)完成，發(fā)現(xiàn)后裸，一個是由于sql 數(shù)據(jù)量比較大瑰钮，耗時比較長，導(dǎo)致總是自動斷開連接微驶，以至于跑不完程序浪谴。還有一個，由于其中的一個指標(biāo)計算需要用到udf 函數(shù)因苹，添加jar 包時苟耻，使用impala 的方式總是無法識別路徑。后來認(rèn)為應(yīng)該是這種方式只能支持查詢扶檐，無法支持這種添加臨時函數(shù)的操作凶杖，沒辦法放棄了這一條路。

最后呢是選擇了直接打開hive 的簡單粗暴的模式：
os.popen("""hive -S -e '{}' """.format(sql))

ok 下面貼上我的代碼蘸秘，由于我是剛開始在工作中使用python官卡，正在學(xué)習(xí)，肯定有很多不足的地方醋虏，如果能得到各位指點(diǎn)一二寻咒，那我真是非常感謝，不管是思路上的颈嚼，還是代碼上的毛秘，都希望大家不吝賜教。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import datetime
import os
import sys
import pandas as pd
from math import sqrt
from operator import itemgetter, attrgetter

#執(zhí)行hivesql，os.popen() 方法用于從一個命令打開一個管道叫挟，對于我來說正好是需要sql 的一行結(jié)果作為一個整體艰匙，剛好放到一個list 中。

#輸出到指定日志文件
logging.basicConfig(level=logging.INFO,
                    filename='....../cor_coe.log',
                    filemode='a',
                    format='%(asctime)s %(filename)s %(levelname)s %(message)s',
                    datefmt='[%Y-%m-%d %H:%M:%S]'
                    )

def getHiveResult(sql):
    output = os.popen("""hive -S -e '{}' """.format(sql))
    result = output.readlines()
    #形式：['字段名稱\t字段名稱','[第一行結(jié)果\t分隔]','[第二行結(jié)果\t分隔]'....]
    return result

#這里是因為上面的result 這個list抹恳，每個元素的最后都加上了一個\n员凝，我要把它去掉。
def trans_list(str):
    return str.replace('\n','')

# 將'[...]' 這個字符串奋献，轉(zhuǎn)換成一個list. 
def str2list(str):
    list1 = str.split(',')
    list1[0] = list1[0].replace('[','')
    list1[-1] = list1[-1].replace(']','')
    return [float(x) for x in list1]

#皮爾遜相關(guān)系數(shù)公式：x,y 兩個變量的  協(xié)方差 / 標(biāo)準(zhǔn)差的乘積
# 乘積之和函數(shù)
def multipl(a,b):

    sumofab=0.0
    for i in range(len(a)):
        temp=a[i]*b[i]
        sumofab+=temp
    return sumofab

# 皮爾遜相關(guān)系數(shù)函數(shù)
def corrcoef(x,y):
    n=len(x)
    #求和
    sum1=sum(x)
    sum2=sum(y)

    #求乘積之和
    sumofxy=multipl(x,y)

    #求平方和
    sumofx2 = sum([pow(i,2) for i in x])
    sumofy2 = sum([pow(j,2) for j in y])

    # 協(xié)方差  乘積之和 - 和的乘積
    num=sumofxy-(float(sum1)*float(sum2)/n)
    
    #標(biāo)準(zhǔn)差 * 標(biāo)準(zhǔn)差
    den=sqrt((sumofx2-float(sum1**2)/n)*(sumofy2-float(sum2**2)/n))

    return num/den

sql 就忽略了健霹。sql 最終的結(jié)果形式是：
南京 [11,13,10.3,12.5..........]  這是一行記錄，只有兩個字段瓶蚂。

if __name__ == "__main__":
    process_start = datetime.datetime.now()
    logging.info("程序開始時間：" + str(process_start))

    # 獲取腳本外的日期參數(shù),并添加連接符
    ymd=sys.argv[1]
    y_m_d="-".join((ymd[0:4],ymd[4:6],ymd[6:8]))

    sql1 = sql1.format(DT=y_m_d)

    try:
        result = getHiveResult(sql1)
    except Exception as e:
        logging.info("調(diào)用getHiveResult()函數(shù)報錯:" + traceback.format_exc())

    list_result_name = ['','name1','name2','name3','name4']

    list_result1 = result[1:]

    list_result2 = []

    list_result3 = []

    for el1 in  list_result1:
        list_result2.append(trans_list(el1)) 

    for el2 in list_result2:
        list_tmp = []
        list_tmp = el2.split('\t')

        for el3 in list_tmp:
            num = list_tmp.index(el3)
            if num >=2:
                try:
                    list_result3.append(( list_tmp[0],list_result_name[1]+"_"+list_result_name[num], round(corrcoef(str2list(list_tmp[1]),str2list(el3)),4) ))
                except Exception as e:
                    logging.info("計算皮爾遜相關(guān)系數(shù)報錯:" + traceback.format_exc())

    #突然覺得python 的排序功能還挺強(qiáng)大的糖埋。在對我list 中的元祖排序
    list_result3 = sorted(list_result3,key=itemgetter(0,2),reverse=True)
    try:
        df = pd.DataFrame(list_result3)
    except Exception as e:
        logging.info("list_result3轉(zhuǎn)化成 df 時報錯:" + traceback.format_exc())

    outputpath = 'path/cor_coe_'+ymd+'.csv' 
    
    try:
        df.to_csv(outputpath,index=False,sep=',',header=['城市','相關(guān)因子','相關(guān)系數(shù)'])
    except Exception as e:
        logging.info("輸出到 csv 文件報錯:" + traceback.format_exc())


    print ('process_end:',datetime.datetime.now())

現(xiàn)在我還有一個瓶頸，就是sql 跑的太慢了窃这，有十個sql瞳别，每個sql 涉及到的表都在千萬到億條數(shù)據(jù)左右，總共的時間需要22min左右杭攻，腳本的總時間是25min左右祟敛。已經(jīng)嘗試設(shè)置了很多hive 所謂的優(yōu)化參數(shù)，除了合并小文件朴上，提升了將近4分鐘的速度之外垒棋，其他的調(diào)整都沒有什么效果。而且從執(zhí)行過程來看痪宰，并沒有明顯的數(shù)據(jù)傾斜叼架，就是map 和 reduce 的過程就比較慢。如果后期找到方法之后我還會追加進(jìn)來衣撬。也希望看到這篇文章的朋友能提一些寶貴的意見乖订。

最后編輯于：2019.07.30 23:30:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市具练，隨后出現(xiàn)的幾起案子乍构，更是在濱河造成了極大的恐慌，老刑警劉巖扛点，帶你破解...
沈念sama閱讀 219,490評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件哥遮，死亡現(xiàn)場離奇詭異，居然都是意外死亡陵究，警方通過查閱死者的電腦和手機(jī)眠饮，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,581評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來铜邮，“玉大人仪召，你說我怎么就攤上這事寨蹋。” “怎么了扔茅？”我有些...
開封第一講書人閱讀 165,830評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵已旧，是天一觀的道長。經(jīng)常有香客問我召娜，道長运褪，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,957評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任玖瘸，我火速辦了婚禮吐句，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘店读。我一直安慰自己，他們只是感情好攀芯，可當(dāng)我...
茶點(diǎn)故事閱讀 67,974評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布屯断。她就那樣靜靜地躺著，像睡著了一般侣诺。火紅的嫁衣襯著肌膚如雪殖演。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,754評論 1贊 307
城市分裂傳說
那天年鸳，我揣著相機(jī)與錄音趴久，去河邊找鬼。笑死搔确，一個胖子當(dāng)著我的面吹牛彼棍，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播膳算，決...
沈念sama閱讀 40,464評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼座硕，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了涕蜂？” 一聲冷哼從身側(cè)響起华匾，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎机隙，沒想到半個月后蜘拉，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,847評論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡有鹿，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,995評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年旭旭，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片印颤。...
茶點(diǎn)故事閱讀 40,137評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡您机，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情际看，我是刑警寧澤咸产，帶...
沈念sama閱讀 35,819評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站仲闽，受9級特大地震影響脑溢，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赖欣，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,482評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一屑彻、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧顶吮，春花似錦社牲、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,023評論 0贊 22
一樁弒父案搏恤，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至湃交，卻和暖如春熟空，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背搞莺。一陣腳步聲響...
開封第一講書人閱讀 33,149評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工息罗，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人才沧。一個月前我還...
沈念sama閱讀 48,409評論 3贊 373
代替公主和親
正文我出身青樓迈喉，卻偏偏與公主長得像，于是被迫代替她去往敵國和親温圆。傳聞我的和親對象是個殘疾皇子弊添，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,086評論 2贊 355

Python獲取Hive數(shù)據(jù)計算相關(guān)性系數(shù)

推薦閱讀更多精彩內(nèi)容