機器學(xué)習(xí)筆記（10）

學(xué)習(xí)打卡內(nèi)容：

閱讀《李航統(tǒng)計學(xué)習(xí)方法》的65-74頁

學(xué)習(xí)Gini指數(shù)

學(xué)習(xí)回歸樹

剪枝

根據(jù)自己閱讀仑濒，先寫出自己所認(rèn)為的筆記捆愁。

前面學(xué)習(xí)了決策樹的建立方法。

這樣產(chǎn)生的樹往往對訓(xùn)練數(shù)據(jù)的分類很準(zhǔn)確氓奈，但對未知的測試數(shù)據(jù)的分類卻沒有那么準(zhǔn)確瞬欧，即出現(xiàn)過擬合現(xiàn)象。過擬合的原因在于學(xué)習(xí)時過多地考慮如何提高對訓(xùn)練數(shù)據(jù)的正確分類晦鞋，從而構(gòu)建出過于復(fù)雜的決策樹蹲缠。解決這個問題的辦法是考慮決策樹的復(fù)雜度棺克，對已生成的決策樹進行簡化。

如何簡化线定？

剪枝

從已生成的樹上裁掉一些子樹或葉結(jié)點娜谊，并將其根結(jié)點或父結(jié)點作為新的葉結(jié)點，從而簡化分類樹模型斤讥。

決策樹的剪枝往往通過極小化決策樹整體的損失函數(shù)（loss function）或代價函數(shù)（cost function）來實現(xiàn)纱皆。

C(T)表示模型對訓(xùn)練數(shù)據(jù)的預(yù)測誤差，即模型與訓(xùn)練數(shù)據(jù)的擬合程度芭商， |T|表示模型復(fù)雜度派草，參數(shù)a≥0控制兩者之間的影響。較大的a促使選擇較簡單的模型（樹）铛楣，較小的a促使選擇較復(fù)雜的模型（樹）近迁。 a＝0意味著只考慮模型與訓(xùn)練數(shù)據(jù)的擬合程度，不考慮模型的復(fù)雜度簸州。

決策樹生成只考慮了通過提高信息增益（或信息增益比）對訓(xùn)練數(shù)據(jù)進行更好的擬合鉴竭。而決策樹剪枝通過優(yōu)化損失函數(shù)還考慮了減小模型復(fù)雜度。決策樹生成學(xué)習(xí)局部的模型岸浑，而決策樹剪枝學(xué)習(xí)整體的模型搏存。

算法5.4（樹的剪枝算法）

輸入：生成算法產(chǎn)生的整個樹T，參數(shù)a矢洲；

輸出：修剪后的子樹Ta璧眠。

（1）計算每個結(jié)點的經(jīng)驗熵。

（2）遞歸地從樹的葉結(jié)點向上回縮读虏。設(shè)一組葉結(jié)點回縮到其父結(jié)點之前與之后的整體樹分別為TB與TA蛆橡，其對應(yīng)的損失函數(shù)值分別是Ca(TB)與Ca(TA)，如果則進行剪枝掘譬，即將父結(jié)點變?yōu)樾碌娜~結(jié)點。

（3）返回（2）呻拌，直至不能繼續(xù)為止葱轩，得到損失函數(shù)最小的子樹Ta。

CART算法

分類與回歸樹（classification and regression tree藐握， CART）

CART是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率分布的學(xué)習(xí)方法靴拱。CART假設(shè)決策樹是二叉樹，內(nèi)部結(jié)點特征的取值為“是”和“否”猾普，左分支是取值為“是”的分支袜炕，右分支是取值為“否”的分支。這樣的決策樹等價于遞歸地二分每個特征初家，將輸入空間即特征空間劃分為有限個單元偎窘，并在這些單元上確定預(yù)測的概率分布乌助，也就是在輸入給定的條件下輸出的條件概率分布。

CART算法由以下兩步組成：

（1）決策樹生成：基于訓(xùn)練數(shù)據(jù)集生成決策樹陌知，生成的決策樹要盡量大他托；

（2）決策樹剪枝：用驗證數(shù)據(jù)集對已生成的樹進行剪枝并選擇最優(yōu)子樹，這時用損失函數(shù)最小作為剪枝的標(biāo)準(zhǔn)仆葡。

決策樹的生成就是遞歸地構(gòu)建二叉決策樹的過程赏参。對回歸樹用平方誤差最小化準(zhǔn)則，對分類樹用基尼指數(shù)（Gini index）最小化準(zhǔn)則沿盅，進行特征選擇把篓，生成二叉樹。

基尼指數(shù)（Gini index）?

分類問題中腰涧，假設(shè)有K個類韧掩，樣本點屬于第k類的概率為pk，則概率分布的基尼指數(shù)定義為：

基尼指數(shù)Gini(D)表示集合D的不確定性南窗，基尼指數(shù)Gini(D,A)表示經(jīng)A＝a分割后集合D的不確定性揍很。基尼指數(shù)值越大，樣本集合的不確定性也就越大万伤，這一點與熵相似窒悔。

CART剪枝算法從“完全生長”的決策樹的底端剪去一些子樹，使決策樹變械新颉（模型變簡單）简珠，從而能夠?qū)ξ粗獢?shù)據(jù)有更準(zhǔn)確的預(yù)測。CART剪枝算法由兩步組成：首先從生成算法產(chǎn)生的決策樹

T0底端開始不斷剪枝虹钮，直到T0的根結(jié)點聋庵，形成一個子樹序列{T0， T1,…,Tn}芙粱；然后通過交叉驗證法在獨立的驗證數(shù)據(jù)集上對子樹序列進行測試祭玉，從中選擇最優(yōu)子樹。

1．剪枝春畔，形成一個子樹序列

對固定的a脱货，一定存在使損失函數(shù)Ca(T)最小的子樹，將其表示為Ta律姨。 Ta在損失函數(shù)Ca(T)最小的意義下是最優(yōu)的振峻。容易驗證這樣的最優(yōu)子樹是唯一的。當(dāng)a大的時候择份，最優(yōu)子樹Ta偏锌勖稀；當(dāng)a小的時候荣赶，最優(yōu)子樹Ta偏大凤价。極端情況鸽斟，當(dāng)a＝0時，整體樹是最優(yōu)的料仗。當(dāng)a→ 時湾盗，根結(jié)點組成的單結(jié)點樹是最優(yōu)的。

它表示剪枝后整體損失函數(shù)減少的程度立轧。在T0中剪去g(t)最小的Tt格粪，將得到的子樹作為T1，同時將最小的g(t)設(shè)為a1氛改。 T1為區(qū)間[a1,a2)的最優(yōu)子樹帐萎。如此剪枝下去，直至得到根結(jié)點胜卤。在這一過程中疆导，不斷地增加a的值，產(chǎn)生新的區(qū)間葛躏。

2．在剪枝得到的子樹序列T0,T1,…,Tn中通過交叉驗證選取最優(yōu)子樹Ta

利用獨立的驗證數(shù)據(jù)集澈段，測試子樹序列T0,T1,…,Tn中各棵子樹的平方誤差或基尼指數(shù)。平方誤差或基尼指數(shù)最小的決策樹被認(rèn)為是最優(yōu)的決策樹舰攒。在子樹序列中败富，每棵子樹T1,T2,…,Tn都對應(yīng)于一個參數(shù)a1,a2,…,an。所以摩窃，當(dāng)最優(yōu)子樹Tk確定時兽叮，對應(yīng)的ak也確定了，即得到最優(yōu)決策樹Ta猾愿。

最后編輯于：2019.06.20 22:07:44

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末鹦聪，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子蒂秘，更是在濱河造成了極大的恐慌泽本，老刑警劉巖，帶你破解...
沈念sama閱讀 217,734評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件姻僧，死亡現(xiàn)場離奇詭異观挎，居然都是意外死亡，警方通過查閱死者的電腦和手機段化，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來造成，“玉大人显熏，你說我怎么就攤上這事∩故海” “怎么了喘蟆？”我有些...
開封第一講書人閱讀 164,133評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵缓升，是天一觀的道長。經(jīng)常有香客問我蕴轨，道長港谊，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,532評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任橙弱，我火速辦了婚禮歧寺，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘棘脐。我一直安慰自己斜筐，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,585評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布蛀缝。她就那樣靜靜地躺著顷链，像睡著了一般。火紅的嫁衣襯著肌膚如雪屈梁。梳的紋絲不亂的頭發(fā)上嗤练，一...
開封第一講書人閱讀 51,462評論 1贊 302
城市分裂傳說
那天，我揣著相機與錄音在讶，去河邊找鬼煞抬。笑死，一個胖子當(dāng)著我的面吹牛真朗，可吹牛的內(nèi)容都是我干的此疹。我是一名探鬼主播，決...
沈念sama閱讀 40,262評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼遮婶，長吁一口氣：“原來是場噩夢啊……” “哼蝗碎！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起旗扑，我...
開封第一講書人閱讀 39,153評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤蹦骑，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后臀防，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體眠菇，經(jīng)...
沈念sama閱讀 45,587評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,792評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年袱衷，在試婚紗的時候發(fā)現(xiàn)自己被綠了捎废。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,919評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡致燥，死狀恐怖登疗，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤辐益，帶...
沈念sama閱讀 35,635評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布断傲，位于F島的核電站，受9級特大地震影響智政，放射性物質(zhì)發(fā)生泄漏认罩。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,237評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一续捂、第九天我趴在偏房一處隱蔽的房頂上張望垦垂。院中可真熱鬧，春花似錦疾忍、人聲如沸乔外。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,855評論 0贊 22
一樁弒父案一罩，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽杨幼。三九已至，卻和暖如春聂渊，著一層夾襖步出監(jiān)牢的瞬間差购，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,983評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工汉嗽，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留欲逃，地道東北人。一個月前我還...
沈念sama閱讀 48,048評論 3贊 370
代替公主和親
正文我出身青樓饼暑，卻偏偏與公主長得像稳析，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子弓叛，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,864評論 2贊 354

機器學(xué)習(xí)筆記（10）

推薦閱讀更多精彩內(nèi)容