實(shí)驗(yàn)一 使用sklearn的決策樹實(shí)現(xiàn)iris鳶尾花數(shù)據(jù)集的分類

使用sklearn的決策樹實(shí)現(xiàn)iris鳶尾花數(shù)據(jù)集的分類



要求:

  1. 建立分類模型锭沟,至少包含4個(gè)剪枝參數(shù):max_depth致燥、min_samples_leaf 蹭沛、min_samples_split辽剧、max_featurescriterion參數(shù)送淆。

  2. 運(yùn)用GridSearchCV,尋找出最優(yōu)參數(shù)怕轿。

  3. 繪制出在不同的max_depth下的學(xué)習(xí)曲線偷崩。


步驟:

  • 一、導(dǎo)入各種我們需要的模塊或者數(shù)據(jù)集等
    graphviz安裝(安裝完配置好路徑還是不行的話重啟一下電腦)
from sklearn import tree #導(dǎo)入樹
from sklearn.tree import DecisionTreeClassifier #導(dǎo)入決策樹分類器
from sklearn.datasets import load_iris #導(dǎo)入鳶尾花數(shù)據(jù)集
from sklearn.model_selection import train_test_split #分訓(xùn)練集測試集的類
from matplotlib import pyplot as plt #畫圖用的
from sklearn.model_selection import GridSearchCV #網(wǎng)格搜索
import pandas as pd 
import graphviz #畫決策樹的撞羽,需要事先安裝

  • 二阐斜、將數(shù)據(jù)實(shí)例化,劃分?jǐn)?shù)據(jù)集和測試集
iris = load_iris() #將數(shù)據(jù)集實(shí)例化诀紊,別忘了括號
Xtrain,Xtest,Ytrain,Ytest = train_test_split(iris.data,iris.target,test_size=0.3) #將鳶尾花數(shù)據(jù)的特征矩陣和標(biāo)簽矩陣谒出,按7:3的比例劃分訓(xùn)練集和測試集,0.3是可以變的,也可以填0.4笤喳,注意X为居,Y的順序

  • 三、建立模型(三部曲:實(shí)例化莉测、訓(xùn)練颜骤、評估)
clf = DecisionTreeClassifier() #實(shí)例化模型,括號不填criterion默認(rèn)是‘gini’,也可以填criterion = 'entropy'
clf = clf.fit(Xtrain, Ytrain) #訓(xùn)練數(shù)據(jù)集
score = clf.score(Xtest, Ytest) #評估數(shù)據(jù)集

score #將評估結(jié)果打印出來捣卤,因?yàn)闇y試集和訓(xùn)練集劃分的不同忍抽,可能每個(gè)人的結(jié)果也不同
1.PNG

  • 四、畫出決策樹
feature_name = ['花萼長度','花萼寬度','花瓣長度','花瓣寬度'] #定義特征的名字董朝,方便后面的閱讀
dot_data = tree.export_graphviz(clf
                                ,feature_names = feature_name
                                ,class_names=["清風(fēng)藤","云芝","錦葵"] #標(biāo)簽名字
                                ,filled=True #框框填充顏色(可以不寫)
                                ,rounded=True #框框角是圓圓的(可以不寫)
                               ) 
graph = graphviz.Source(dot_data) #導(dǎo)出樹
graph

這就得到一棵原始的樹


  • 五鸠项、使用四個(gè)剪枝參數(shù)
clf = tree.DecisionTreeClassifier(max_depth=2  #最大深度是2,這個(gè)也可以填3或4試試看
                                 ,min_samples_leaf=5 #下一個(gè)葉子節(jié)點(diǎn)大于5會進(jìn)行子姜,小于5就不會再分
                                 ,min_samples_split=10 #最小分支節(jié)點(diǎn)祟绊,當(dāng)前樣本大于10才會分
                                 ,max_features=3 #最大特征數(shù),有一個(gè)重要程度為0
                                    )
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)

score

可以把剪枝后的樹畫出來看看(代碼和上面畫樹的一樣)


2.png
dot_data = tree.export_graphviz(clf
                               ,feature_names = feature_name
                               ,class_names=["清風(fēng)藤","云芝","錦葵"]
                               ,filled=True
                               ,rounded=True
                               ) 
graph = graphviz.Source(dot_data)
graph

  • 六哥捕、繪制出在不同的max_depth下的學(xué)習(xí)曲線
test=[] #定義一個(gè)列表放分?jǐn)?shù)
for i in range(10):       #10次循環(huán)map_depth
    clf = tree.DecisionTreeClassifier(max_depth=i+1)  
    clf = clf.fit(Xtrain, Ytrain)
    score = clf.score(Xtest,Ytest)
    test.append(score)
plt.plot(range(1,11),test,color="red") #橫坐標(biāo)是1-10牧抽,縱坐標(biāo)是分?jǐn)?shù),顏色是紅色
plt.xticks(range(1,11))#橫坐標(biāo)是1-10
plt.xlabel("max_depth") #橫坐標(biāo)標(biāo)簽
plt.ylabel("score") #縱坐標(biāo)標(biāo)簽
plt.show() #展示畫好的圖(由圖可知當(dāng)map_depth為2時(shí)分?jǐn)?shù)最高)
3.PNG

  • 七遥赚、運(yùn)用GridSearchCV扬舒,尋找出最優(yōu)參數(shù)
parameters = {'criterion':("gini","entropy")
              ,"max_depth":[*range(1,5)] #前面我們知道這個(gè)應(yīng)該是2,所以我們給定范圍1-5
              ,'min_samples_split':[*range(5,40,5)]#最小分支節(jié)點(diǎn)以步長為5凫佛,在5-39循環(huán)
             }  #定義我們要找的參數(shù)
clf = tree.DecisionTreeClassifier()
GS = GridSearchCV(clf, parameters, cv=10) #cv=10代表交叉驗(yàn)證10次
GS.fit(Xtrain,Ytrain)

GS.best_params_ #打印最好的參數(shù)
GS.best_score_ #打印最好的分?jǐn)?shù)

  • 八讲坎、特朗普和他老婆新冠檢測呈陽性
    sklearn機(jī)器學(xué)習(xí)推薦菜菜的sklearn課堂
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市愧薛,隨后出現(xiàn)的幾起案子晨炕,更是在濱河造成了極大的恐慌,老刑警劉巖毫炉,帶你破解...
    沈念sama閱讀 218,386評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瓮栗,死亡現(xiàn)場離奇詭異,居然都是意外死亡瞄勾,警方通過查閱死者的電腦和手機(jī)遵馆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來丰榴,“玉大人货邓,你說我怎么就攤上這事∷谋簦” “怎么了换况?”我有些...
    開封第一講書人閱讀 164,704評論 0 353
  • 文/不壞的土叔 我叫張陵职辨,是天一觀的道長。 經(jīng)常有香客問我戈二,道長舒裤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,702評論 1 294
  • 正文 為了忘掉前任觉吭,我火速辦了婚禮腾供,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘鲜滩。我一直安慰自己伴鳖,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評論 6 392
  • 文/花漫 我一把揭開白布徙硅。 她就那樣靜靜地躺著榜聂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪嗓蘑。 梳的紋絲不亂的頭發(fā)上须肆,一...
    開封第一講書人閱讀 51,573評論 1 305
  • 那天,我揣著相機(jī)與錄音桩皿,去河邊找鬼豌汇。 笑死,一個(gè)胖子當(dāng)著我的面吹牛泄隔,可吹牛的內(nèi)容都是我干的瘤礁。 我是一名探鬼主播,決...
    沈念sama閱讀 40,314評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼梅尤,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了岩调?” 一聲冷哼從身側(cè)響起巷燥,我...
    開封第一講書人閱讀 39,230評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎号枕,沒想到半個(gè)月后缰揪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡葱淳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評論 3 336
  • 正文 我和宋清朗相戀三年钝腺,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赞厕。...
    茶點(diǎn)故事閱讀 39,991評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡艳狐,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出皿桑,到底是詐尸還是另有隱情毫目,我是刑警寧澤蔬啡,帶...
    沈念sama閱讀 35,706評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站镀虐,受9級特大地震影響箱蟆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜刮便,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評論 3 330
  • 文/蒙蒙 一空猜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧恨旱,春花似錦辈毯、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至入客,卻和暖如春管毙,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背桌硫。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評論 1 270
  • 我被黑心中介騙來泰國打工夭咬, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人铆隘。 一個(gè)月前我還...
    沈念sama閱讀 48,158評論 3 370
  • 正文 我出身青樓卓舵,卻偏偏與公主長得像,于是被迫代替她去往敵國和親膀钠。 傳聞我的和親對象是個(gè)殘疾皇子掏湾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評論 2 355