作為一個(gè)剛?cè)胄械臄?shù)據(jù)分析職場(chǎng)小白呼畸,老板是不會(huì)讓你直接去做模型的痕支,很可能你的老板會(huì)跟你說(shuō):“小白啊,你去給我研究一下星座對(duì)我們是否貸款有沒(méi)有影響”蛮原。雖然你腦袋上已經(jīng)出現(xiàn)一百個(gè)問(wèn)號(hào)卧须,但是老板交代的任務(wù)還是得去好好完成以下。
先導(dǎo)入包
import pandas as pd
import numpy as np
讀入數(shù)據(jù)
f = open('ft_zodiac.txt', encoding='utf-8')
ft_zodiac = pd.read_csv(f)
print(ft_zodiac.shape)
ft_zodiac.head()
數(shù)據(jù)維度為(23519, 4)
一般在實(shí)際業(yè)務(wù)中儒陨,我們并不會(huì)設(shè)定一個(gè)明確的界線來(lái)分割好壞客戶花嘶。比如一般的中短期借貸中會(huì)認(rèn)為逾期15天以上算壞客戶,但其實(shí)逾期14天和15天的客戶差別很難區(qū)分蹦漠。因?yàn)橥衷保瑢?shí)際業(yè)務(wù)中會(huì)留有一個(gè)“灰色地帶”。比如定義逾期15天以上的為壞客戶笛园,逾期5天以內(nèi)的為好客戶隘击,逾期6-14天的則定義為“灰色地帶”,也就是其實(shí)是分成0,1,2三類的研铆。
去掉“灰色地帶”的數(shù)據(jù)
l = open('zodiac_label.txt')
zodiac_label=pd.read_csv(l)
ft_label = zodiac_label[zodiac_label['label'] != 2]
ft_label.head()
將特征表和標(biāo)簽表合并
data = pd.merge(ft_label,ft_zodiac,on = 'order_id',how = 'inner')
data.head()
計(jì)算星座壞客戶比例:badrate = bad/toal
#星座
zodiac_badrate = {}
for x in zodiac_list:
a = data[data.zodiac == x]
bad = a[a.label == 1]['label'].count()
good = a[a.label == 0]['label'].count()
zodiac_badrate[x] = bad/(bad+good)
f = zip(zodiac_badrate.keys(),zodiac_badrate.values())
f = sorted(f,key = lambda x : x[1],reverse = True )
zodiac_badrate = pd.DataFrame(f)
zodiac_badrate.columns = pd.Series(['星座','badrate'])
zodiac_badrate
將星座壞客戶比例可視化
from pyecharts import Line
x = zodiac_badrate['星座']
y = zodiac_badrate['badrate']
line = Line('星座')
line.add(1,x,y)
壞客戶比例最高的雙魚(14%)與最低的天蝎(12%)之間差別是非常小的埋同,所以星座這個(gè)變量可以說(shuō)是作用不大。
那我們?cè)賮?lái)看看生肖蚜印。
#生肖
chinese_zodiac_badrate = {}
for x in chinese_zodiac_list:
a = data[data.chinese_zodiac == x]
bad = a[a.label == 1]['label'].count()
good = a[a.label == 0]['label'].count()
chinese_zodiac_badrate[x] = bad/(bad+good)
f = zip(chinese_zodiac_badrate.keys(),chinese_zodiac_badrate.values())
f = sorted(f,key = lambda x : x[1],reverse = True )
chinese_zodiac_badrate = pd.DataFrame(f)
chinese_zodiac_badrate.columns = pd.Series(['生肖','badrate'])
chinese_zodiac_badrate
from pyecharts import Line
x = chinese_zodiac_badrate['生肖']
y = chinese_zodiac_badrate['badrate']
line = Line('生肖')
line.add(1,x,y)
可以看到,壞客戶率最高的“帕袅浚”(16%)與“狗”(11%)之間的差異還是比“星座”大的窄赋,所以可以說(shuō)可能研究“生肖”這個(gè)特征是比研究“星座”這個(gè)特征意義更大的哟冬。