Datawhale七月組隊(duì)學(xué)習(xí)——“吃瓜教程”Task03

這次打卡學(xué)習(xí)的是西瓜書的第四章決策樹。

1. 決策樹基本概念

顧名思義,決策樹是基于樹結(jié)構(gòu)來進(jìn)行決策的郊愧,它也是一種常見的機(jī)器學(xué)習(xí)分類算法。

如上圖所示(來源西瓜書)井佑,決策過程的每一次判定都是對(duì)某一屬性的“測(cè)試”属铁,決策最終結(jié)論則對(duì)應(yīng)最終的判定結(jié)果。一般一顆決策樹包含:一個(gè)根節(jié)點(diǎn)躬翁、若干個(gè)內(nèi)部節(jié)點(diǎn)和若干個(gè)葉子節(jié)點(diǎn)焦蘑,易知:

* 每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性測(cè)試。

* 每個(gè)分支代表這個(gè)特征屬性在某個(gè)值域上的輸出盒发。

* 每個(gè)葉子節(jié)點(diǎn)存放一個(gè)類別例嘱。

* 每個(gè)節(jié)點(diǎn)包含的樣本集合通過屬性測(cè)試被劃分到子節(jié)點(diǎn)中,根節(jié)點(diǎn)包含樣本全集宁舰。

2. 決策樹基本算法流程

決策樹的構(gòu)造是一個(gè)遞歸的過程拼卵,有三種情形會(huì)導(dǎo)致遞歸返回:(1) 當(dāng)前結(jié)點(diǎn)包含的樣本全屬于同一類別,這時(shí)直接將該節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)蛮艰,并設(shè)為相應(yīng)的類別腋腮;(2) 當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分即寡,這時(shí)將該節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)徊哑,并將其類別設(shè)為該節(jié)點(diǎn)所含樣本最多的類別;(3) 當(dāng)前結(jié)點(diǎn)包含的樣本集合為空聪富,不能劃分实柠,這時(shí)也將該節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn),并將其類別設(shè)為父節(jié)點(diǎn)中所含樣本最多的類別善涨。

可以看出:決策樹學(xué)習(xí)的關(guān)鍵在于如何選擇劃分屬性窒盐,不同的劃分屬性得出不同的分支結(jié)構(gòu),從而影響整顆決策樹的性能钢拧。屬性劃分的目標(biāo)是讓各個(gè)劃分出來的子節(jié)點(diǎn)盡可能地“純”蟹漓,即屬于同一類別。因此下面便是介紹量化純度的具體方法源内,決策樹最常用的算法有三種:ID3葡粒,C4.5和CART。

3. 常見算法

3.1 ID3算法

ID3算法使用信息增益為準(zhǔn)則來選擇劃分屬性膜钓,“信息熵”(information entropy)是度量樣本結(jié)合純度的常用指標(biāo)嗽交,假定當(dāng)前樣本集合D中第k類樣本所占比例為pk,則樣本集合D的信息熵定義為:

假定通過屬性劃分樣本集D颂斜,產(chǎn)生了V個(gè)分支節(jié)點(diǎn)夫壁,v表示其中第v個(gè)分支節(jié)點(diǎn),易知:分支節(jié)點(diǎn)包含的樣本數(shù)越多沃疮,表示該分支節(jié)點(diǎn)的影響力越大盒让。故可以計(jì)算出劃分后相比原始數(shù)據(jù)集D獲得的“信息增益”(information gain)

信息增益越大,表示使用該屬性劃分樣本集D的效果越好司蔬,因此ID3算法在遞歸過程中邑茄,每次選擇最大信息增益的屬性作為當(dāng)前的劃分屬性。

3.2 C4.5算法

ID3算法存在一個(gè)問題俊啼,就是偏向于取值數(shù)目較多的屬性肺缕,例如:如果存在一個(gè)唯一標(biāo)識(shí),這樣樣本集D將會(huì)被劃分為|D|個(gè)分支授帕,每個(gè)分支只有一個(gè)樣本同木,這樣劃分后的信息熵為零,十分純凈豪墅,但是對(duì)分類毫無用處泉手。因此C4.5算法使用了“增益率”(gain ratio)來選擇劃分屬性,來避免這個(gè)問題帶來的困擾偶器。首先使用ID3算法計(jì)算出信息增益高于平均水平的候選屬性,接著C4.5計(jì)算這些候選屬性的增益率,增益率定義為:

3.3 CART算法

CART決策樹使用“基尼指數(shù)”(Gini index)來選擇劃分屬性屏轰,基尼指數(shù)反映的是從樣本集D中隨機(jī)抽取兩個(gè)樣本颊郎,其類別標(biāo)記不一致的概率,因此Gini(D)越小越好霎苗,基尼指數(shù)定義如下:

進(jìn)而姆吭,使用屬性α劃分后的基尼指數(shù)為:

4 剪枝處理

從決策樹的構(gòu)造流程中我們可以直觀地看出:不管怎么樣的訓(xùn)練集,決策樹總是能很好地將各個(gè)類別分離開來唁盏,這時(shí)就會(huì)遇到之前提到過的問題:過擬合(overfitting)内狸,即太依賴于訓(xùn)練樣本。剪枝(pruning)則是決策樹算法對(duì)付過擬合的主要手段厘擂,剪枝的策略有兩種如下:

* 預(yù)剪枝(prepruning):在構(gòu)造的過程中先評(píng)估昆淡,再考慮是否分支。

* 后剪枝(post-pruning):在構(gòu)造好一顆完整的決策樹后刽严,自底向上昂灵,評(píng)估分支的必要性。

評(píng)估指的是性能度量舞萄,即決策樹的泛化性能眨补。之前提到:可以使用測(cè)試集作為學(xué)習(xí)器泛化性能的近似,因此可以將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集倒脓。預(yù)剪枝表示在構(gòu)造數(shù)的過程中撑螺,對(duì)一個(gè)節(jié)點(diǎn)考慮是否分支時(shí),首先計(jì)算決策樹不分支時(shí)在測(cè)試集上的性能崎弃,再計(jì)算分支之后的性能实蓬,若分支對(duì)性能沒有提升,則選擇不分支(即剪枝)吊履。后剪枝則表示在構(gòu)造好一顆完整的決策樹后安皱,從最下面的節(jié)點(diǎn)開始,考慮該節(jié)點(diǎn)分支對(duì)模型的性能是否有提升艇炎,若無則剪枝酌伊,即將該節(jié)點(diǎn)標(biāo)記為葉子節(jié)點(diǎn),類別標(biāo)記為其包含樣本最多的類別缀踪。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末居砖,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子驴娃,更是在濱河造成了極大的恐慌奏候,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,978評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件唇敞,死亡現(xiàn)場(chǎng)離奇詭異蔗草,居然都是意外死亡咒彤,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門咒精,熙熙樓的掌柜王于貴愁眉苦臉地迎上來镶柱,“玉大人,你說我怎么就攤上這事模叙⌒穑” “怎么了?”我有些...
    開封第一講書人閱讀 156,623評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵范咨,是天一觀的道長(zhǎng)故觅。 經(jīng)常有香客問我,道長(zhǎng)渠啊,這世上最難降的妖魔是什么输吏? 我笑而不...
    開封第一講書人閱讀 56,324評(píng)論 1 282
  • 正文 為了忘掉前任,我火速辦了婚禮昭抒,結(jié)果婚禮上评也,老公的妹妹穿的比我還像新娘。我一直安慰自己灭返,他們只是感情好盗迟,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評(píng)論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著熙含,像睡著了一般罚缕。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上怎静,一...
    開封第一講書人閱讀 49,741評(píng)論 1 289
  • 那天邮弹,我揣著相機(jī)與錄音,去河邊找鬼蚓聘。 笑死腌乡,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的夜牡。 我是一名探鬼主播与纽,決...
    沈念sama閱讀 38,892評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼塘装!你這毒婦竟也來了急迂?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,655評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤蹦肴,失蹤者是張志新(化名)和其女友劉穎僚碎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體阴幌,經(jīng)...
    沈念sama閱讀 44,104評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡勺阐,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年卷中,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片皆看。...
    茶點(diǎn)故事閱讀 38,569評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡仓坞,死狀恐怖背零,靈堂內(nèi)的尸體忽然破棺而出腰吟,到底是詐尸還是另有隱情,我是刑警寧澤徙瓶,帶...
    沈念sama閱讀 34,254評(píng)論 4 328
  • 正文 年R本政府宣布毛雇,位于F島的核電站,受9級(jí)特大地震影響侦镇,放射性物質(zhì)發(fā)生泄漏灵疮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評(píng)論 3 312
  • 文/蒙蒙 一壳繁、第九天 我趴在偏房一處隱蔽的房頂上張望震捣。 院中可真熱鬧,春花似錦闹炉、人聲如沸蒿赢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽羡棵。三九已至,卻和暖如春嗅钻,著一層夾襖步出監(jiān)牢的瞬間皂冰,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評(píng)論 1 264
  • 我被黑心中介騙來泰國(guó)打工养篓, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留秃流,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,260評(píng)論 2 360
  • 正文 我出身青樓柳弄,卻偏偏與公主長(zhǎng)得像舶胀,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子语御,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容