決策樹

一副签、決策樹簡介

在介紹決策樹之前,先了解一下決策樹的處理流程基矮。如下圖所示淆储,有三個屬性值,分別為Outlook家浇、Humidity本砰、Wind,對應(yīng)的最終分類為Yes和No钢悲。當(dāng)一條新數(shù)據(jù)過來時点额,根據(jù)新數(shù)據(jù)中Outlook舔株、Humidity和Wind就能確定該數(shù)據(jù)的輸出結(jié)果是Yes還是No。而Outlook还棱、Humidity载慈、Wind這三個屬性值的選擇,需要從已標(biāo)記好的訓(xùn)練數(shù)據(jù)集中選擇珍手。


決策樹

二办铡、構(gòu)建決策樹

決策樹是一層層構(gòu)建的,在每一層就要選擇一個屬性琳要,然后根據(jù)它的屬性值將數(shù)據(jù)集進(jìn)行分裂寡具。如何選擇屬性作為節(jié)點(diǎn)以測試實(shí)例是最為關(guān)鍵的一步。不同的算法采取了不同的方法稚补,主要的決策樹算法有這樣幾個:

  1. ID3
  2. C4.5 (數(shù)據(jù)挖掘十大算法之一童叠,也是ID3算法的改進(jìn))
  3. C5.0 (C4.5的改進(jìn),適用于處理大數(shù)據(jù)集课幕,采用Boosting方式提高模型準(zhǔn)確率拯钻,因而又稱BoostingTrees。)
  4. CART(數(shù)據(jù)挖掘十大算法之一)

三撰豺、ID3

ID3算法的核心就是要選取分類能力最好的屬性粪般,那么怎么去確定哪個屬性是分類能力最好的呢?ID3算法中污桦,使用信息增益作為評判標(biāo)準(zhǔn)亩歹。

1. 信息熵

信息熵又稱為香農(nóng)熵,簡稱熵凡橱。信息熵簡單說就是信息不確定性的大小小作。
若用xi,i=1,2,…,n來表示數(shù)據(jù)集所包含的分類結(jié)果稼钩,那么這個數(shù)據(jù)集的熵為:

熵公式(1)

其中顾稀,p(xi)表示選取xi作為分類的最終類別的概率;l(xi)為xi的信息坝撑,定義為:l(xi)=?log2p(xi)

2. 信息增益

簡單來說静秆,一個屬性的信息增益就是:使用這個屬性分割樣例集合進(jìn)一步導(dǎo)致熵值降低。那么要選取分類能力最好的屬性巡李,就是要選取使得信息增益最大的那個屬性抚笔。
假設(shè)數(shù)據(jù)集D,按照屬性A將數(shù)據(jù)進(jìn)行分割侨拦,分割成v類殊橙,則分割后的信息熵為:


分割后的信息熵(2)

其中|D|為樣本的總數(shù),|Dj|為A屬性值為j類的總樣本數(shù),info(Dj)為以Dj為數(shù)據(jù)集的信息熵膨蛮,顧名思義叠纹,就是樣本數(shù)據(jù)集D按照屬性A進(jìn)行分割成V類,將所有類別的信息熵求和敞葛,即可誉察。那么數(shù)據(jù)集D按照A屬性進(jìn)行分割后的信息增益為:


數(shù)據(jù)D按照A屬性進(jìn)行分割后的信息增益(3)

依次計(jì)算數(shù)據(jù)D按照各個屬性的分割后的信息增益,選擇信息增益最大的作為分割屬性制肮,依次進(jìn)行冒窍。

3. 簡單例子

ID3例子(來自Jacky)

4. 信息增益的理解

一般說來递沪,對于一個具有多個屬性的元組豺鼻,用一個屬性就將它們完全分開幾乎不可能,否則的話款慨,決策樹的深度就只能是2了儒飒。從這里可以看出,一旦我們選擇一個屬性A檩奠,假設(shè)將元組分成了兩個部分A1和A2桩了,由于A1和A2還可以用其它屬性接著再分,所以又引出一個新的問題:接下來我們要選擇哪個屬性來分類埠戳?對D中元組分類所需的期望信息(信息熵)是Info(D) ,那么同理井誉,當(dāng)我們通過A將D劃分成v個子集Dj(j=1,2,…,v)之后,我們要對Dj的元組進(jìn)行分類整胃,需要的期望信息就是Info(Dj),而一共有v個類颗圣,所以對v個集合再分類,需要的信息就是公式(2)了屁使。由此可知在岂,如果公式(2)越小,是不是意味著我們接下來對A分出來的幾個集合再進(jìn)行分類所需要的信息就越新拧蔽午?而對于給定的訓(xùn)練集,實(shí)際上Info(D)已經(jīng)固定了酬蹋,所以選擇信息增益最大的屬性作為分裂點(diǎn)及老。

但是,使用信息增益的話其實(shí)是有一個缺點(diǎn)范抓,那就是它偏向于具有大量值的屬性写半。什么意思呢?就是說在訓(xùn)練集中尉咕,某個屬性所取的不同值的個數(shù)越多叠蝇,那么越有可能拿它來作為分裂屬性。例如一個訓(xùn)練集中有10個元組,對于某一個屬相A悔捶,它分別取1-10這十個數(shù)铃慷,如果對A進(jìn)行分裂將會分成10個類,那么對于每一個類Info(Dj)=0蜕该,從而式(2)為0犁柜,該屬性劃分所得到的信息增益(3)最大,但是很顯然堂淡,這種劃分沒有意義

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末馋缅,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子绢淀,更是在濱河造成了極大的恐慌萤悴,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件皆的,死亡現(xiàn)場離奇詭異覆履,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)费薄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進(jìn)店門硝全,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人楞抡,你說我怎么就攤上這事伟众。” “怎么了召廷?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵凳厢,是天一觀的道長。 經(jīng)常有香客問我柱恤,道長数初,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任梗顺,我火速辦了婚禮泡孩,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘寺谤。我一直安慰自己仑鸥,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布变屁。 她就那樣靜靜地躺著眼俊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪粟关。 梳的紋絲不亂的頭發(fā)上疮胖,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼澎灸。 笑死院塞,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的性昭。 我是一名探鬼主播拦止,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼糜颠!你這毒婦竟也來了汹族?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤其兴,失蹤者是張志新(化名)和其女友劉穎顶瞒,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體忌警,經(jīng)...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡搁拙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年秒梳,在試婚紗的時候發(fā)現(xiàn)自己被綠了法绵。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡酪碘,死狀恐怖朋譬,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情兴垦,我是刑警寧澤徙赢,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站探越,受9級特大地震影響狡赐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜钦幔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一枕屉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鲤氢,春花似錦搀擂、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至相种,卻和暖如春威恼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工箫措, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留缭黔,地道東北人。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓蒂破,卻偏偏與公主長得像馏谨,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子附迷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內(nèi)容