Python數(shù)據(jù)挖掘010-分類與回歸建模

數(shù)據(jù)挖掘可以大概分為:分類與回歸,聚類分析拘央,關(guān)聯(lián)規(guī)則涂屁,時(shí)序模式,異常檢測(cè)等模型灰伟。

分類主要是預(yù)測(cè)分類標(biāo)號(hào)拆又,即離散屬性,而預(yù)測(cè)主要是建立連續(xù)值函數(shù)模型栏账,預(yù)測(cè)給定自變量對(duì)應(yīng)的因變量的值

image.png

1. 邏輯回歸

image.png

邏輯回歸模型的建模步驟如下圖:


image.png

其中模型檢驗(yàn)的指標(biāo)有很多帖族,比如準(zhǔn)確率,混淆矩陣挡爵,ROC曲線竖般,KS值等

在建模時(shí),經(jīng)常要用到特征篩選茶鹃,方法有很多涣雕,主要是sklearn的feature_selection庫(kù)中艰亮,比較簡(jiǎn)單的有F檢驗(yàn)(f_regression)來(lái)給出各個(gè)特征的F值和p值,我們可以篩選F值大的或p值小的特征挣郭。其次有遞歸特征消除法(RFE)和穩(wěn)定性選擇等比較新的方法迄埃。

下面是使用穩(wěn)定性選擇方法來(lái)篩選特征,然后利用篩選后的特征建立邏輯回歸模型兑障,輸出平均準(zhǔn)確率侄非。

### 用隨機(jī)邏輯回歸來(lái)篩選特征
from sklearn.linear_model import RandomizedLogisticRegression as RLR 
rlr = RLR() #建立隨機(jī)邏輯回歸模型,篩選變量
rlr.fit(x, y) #訓(xùn)練模型
print(rlr.get_support()) #獲取特征篩選結(jié)果流译,也可以通過(guò).scores_方法獲取各個(gè)特征的分?jǐn)?shù)
print('通過(guò)隨機(jī)邏輯回歸模型篩選特征結(jié)束逞怨。')
print(data.iloc[:,:-1].columns[rlr.get_support()])
print('有效特征為:%s' % ','.join(data.iloc[:,:-1].columns[rlr.get_support()]))
x = data[data.iloc[:,:-1].columns[rlr.get_support()]] #篩選好特征

Index(['工齡', '地址', '負(fù)債率', '信用卡負(fù)債'], dtype='object')
有效特征為:工齡,地址,負(fù)債率,信用卡負(fù)債

使用篩選的特征數(shù)據(jù)來(lái)建模,得到的準(zhǔn)確率為:

from sklearn.linear_model import LogisticRegression as LR
lr = LR() #建立邏輯貨柜模型
lr.fit(x, y) #用篩選后的特征數(shù)據(jù)來(lái)訓(xùn)練模型
print('邏輯回歸模型訓(xùn)練結(jié)束福澡。')
print('模型的平均正確率為:%s' % lr.score(x, y)) #給出模型的平均正確率骇钦,本例為81.4%

模型的平均正確率為:0.8142857142857143

如果不使用篩選的特征溃卡,而使用全部的特征來(lái)建模慷彤,得到的準(zhǔn)確率為:

from sklearn.linear_model import LogisticRegression as LR
lr = LR() #建立邏輯貨柜模型
lr.fit(data.iloc[:,:-1].values, y) #用篩選后的特征數(shù)據(jù)來(lái)訓(xùn)練模型
print('邏輯回歸模型訓(xùn)練結(jié)束岩榆。')
print('模型的平均正確率為:%s' % lr.score(data.iloc[:,:-1].values, y)) 

模型的平均正確率為:0.8057142857142857

看來(lái)通過(guò)篩選主要的特征,準(zhǔn)確率反而會(huì)提高一些业岁。

邏輯回歸本質(zhì)上還是一種線性模型,因此這里的模型有效性檢樣本質(zhì)上還是在做線性相關(guān)檢驗(yàn)寇蚊,因此篩選出來(lái)的特征笔时,說(shuō)明與結(jié)果具有比較強(qiáng)的線性相關(guān)性,而被篩掉的變量并不一定就跟結(jié)果沒(méi)有關(guān)系仗岸,他們之間有可能是非線性關(guān)系允耿。

2. 決策樹(shù)

image.png

ID3算法基于信息熵來(lái)選擇最佳測(cè)試屬性,它選擇當(dāng)前樣本集中具有最大信息增益值的屬性作為測(cè)試屬性扒怖。

用決策樹(shù)的代碼為:

data=pd.read_excel("E:\PyProjects\DataSet\PyMining\Data\chapter5\demo\data\sales_data.xls",index_col='序號(hào)')
data.info()
#數(shù)據(jù)是類別標(biāo)簽较锡,要將它轉(zhuǎn)換為數(shù)據(jù)
#用1來(lái)表示“好”、“是”盗痒、“高”這三個(gè)屬性蚂蕴,用-1來(lái)表示“壞”、“否”俯邓、“低”
data[data == '好'] = 1
data[data == '是'] = 1
data[data == '高'] = 1
data[data != 1] = -1
x=data.iloc[:,:-1].values
y=data.iloc[:,-1].values
from sklearn.tree import DecisionTreeClassifier as DTC
dtc = DTC(criterion='entropy') #建立決策樹(shù)模型骡楼,基于信息熵
dtc.fit(x, y) #訓(xùn)練模型

至此,決策樹(shù)模型已經(jīng)被訓(xùn)練稽鞭,下面想看看得到的決策數(shù)模型結(jié)構(gòu)圖鸟整,所以用到了:

#導(dǎo)入相關(guān)函數(shù),可視化決策樹(shù)朦蕴。
#導(dǎo)出的結(jié)果是一個(gè)dot文件篮条,需要安裝Graphviz才能將它轉(zhuǎn)換為pdf或png等格式弟头。、
from sklearn.tree import export_graphviz
with open(r"E:\PyProjects\DataSet\PyMining\Data\chapter5\demo\data/tree.dot", 'w',encoding='utf-8') as f:
    f = export_graphviz(dtc, feature_names = data.iloc[:,:-1].columns, out_file = f)

生成tree.dot后兑燥,需要在這個(gè)dot文件中添加:

在cmd中通過(guò)命令: dot -Tpdf tree.dot -o tree2.pdf 將tree.dot轉(zhuǎn)變?yōu)閠ree2.pdf文件亮瓷,打開(kāi)這個(gè)pdf文件就可以看到生成的結(jié)構(gòu)樹(shù)。如下:


image.png

3. 人工神經(jīng)網(wǎng)絡(luò)

image.png
image.png
from keras.models import Sequential
from keras.layers.core import Dense, Activation

model = Sequential() #建立模型
model.add(Dense(input_dim = 3, output_dim = 10)) # x的shape是N,3,有3個(gè)特征
model.add(Activation('relu')) #用relu函數(shù)作為激活函數(shù)降瞳,能夠大幅提供準(zhǔn)確度
model.add(Dense(input_dim = 10, output_dim = 1))
model.add(Activation('sigmoid')) #由于是0-1輸出嘱支,用sigmoid函數(shù)作為激活函數(shù)

model.compile(loss = 'binary_crossentropy', optimizer = 'adam')
#編譯模型。由于我們做的是二元分類挣饥,所以我們指定損失函數(shù)為binary_crossentropy
#另外常見(jiàn)的損失函數(shù)還有mean_squared_error除师、categorical_crossentropy等,請(qǐng)閱讀幫助文件扔枫。
#求解方法我們指定用adam汛聚,還有sgd、rmsprop等可選

model.fit(x, y, nb_epoch = 1000, batch_size = 10) #訓(xùn)練模型短荐,學(xué)習(xí)一千次
yp = model.predict_classes(x).reshape(len(y)) #分類預(yù)測(cè)

# 使用混淆矩陣判斷ANN的準(zhǔn)確率
from sklearn.metrics import confusion_matrix #導(dǎo)入混淆矩陣函數(shù)
confusion_matrix(y, model.predict_classes(x)) #混淆矩陣

array([[ 0, 15, 1],
[ 0, 0, 0],
[ 0, 8, 10]], dtype=int64)

image.png

4. 分類與預(yù)測(cè)算法的評(píng)價(jià)

需要用測(cè)試集來(lái)判斷模型的好壞倚舀,對(duì)于回歸模型,通常用相對(duì)/絕對(duì)誤差忍宋,平均絕對(duì)誤差MAE痕貌,MSE,RMSE等指標(biāo)來(lái)衡量糠排,對(duì)于分類模型舵稠,可以使用識(shí)別準(zhǔn)確率acc, 召回率,F(xiàn)1值入宦,ROC曲線哺徊,混淆矩陣等來(lái)判斷。

image.png

5. 分類預(yù)測(cè)模型的特點(diǎn)

image.png

參考資料:

《Python數(shù)據(jù)分析和挖掘?qū)崙?zhàn)》張良均等

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末乾闰,一起剝皮案震驚了整個(gè)濱河市落追,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌涯肩,老刑警劉巖淋硝,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異宽菜,居然都是意外死亡谣膳,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)铅乡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)继谚,“玉大人,你說(shuō)我怎么就攤上這事阵幸』模” “怎么了芽世?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)诡壁。 經(jīng)常有香客問(wèn)我济瓢,道長(zhǎng)妹卿,這世上最難降的妖魔是什么旺矾? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任夺克,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己尝偎,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布耍群。 她就那樣靜靜地躺著,像睡著了一般谤民。 火紅的嫁衣襯著肌膚如雪触创。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,764評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音囱井,去河邊找鬼住练。 笑死,一個(gè)胖子當(dāng)著我的面吹牛许赃,可吹牛的內(nèi)容都是我干的止喷。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼混聊,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼启盛!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤僵闯,失蹤者是張志新(化名)和其女友劉穎卧抗,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體鳖粟,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡社裆,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了向图。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片泳秀。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖榄攀,靈堂內(nèi)的尸體忽然破棺而出嗜傅,到底是詐尸還是另有隱情,我是刑警寧澤檩赢,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布吕嘀,位于F島的核電站,受9級(jí)特大地震影響贞瞒,放射性物質(zhì)發(fā)生泄漏偶房。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一军浆、第九天 我趴在偏房一處隱蔽的房頂上張望棕洋。 院中可真熱鬧,春花似錦乒融、人聲如沸掰盘。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)愧捕。三九已至,卻和暖如春碟摆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背叨橱。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工典蜕, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人罗洗。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓愉舔,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親伙菜。 傳聞我的和親對(duì)象是個(gè)殘疾皇子轩缤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容