決策樹(shù)學(xué)習(xí)及ID3算法

決策樹(shù)學(xué)習(xí)

決策樹(shù)學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一,它是一種逼近離散值函數(shù)的方法,對(duì)噪聲數(shù)據(jù)又很好地健壯性且能夠?qū)W習(xí)析取表達(dá)式屑宠。

下圖是一顆典型的學(xué)習(xí)決策樹(shù)

圖一 一顆典型的學(xué)習(xí)決策樹(shù)

所謂能夠?qū)W習(xí)析取表達(dá)式是指阱表,根據(jù)這顆決策樹(shù)我們可以寫(xiě)出與之對(duì)應(yīng)的表達(dá)式:
(Outlook=Sunny ^ Humidity=Normal) V (Outlook=Overcast) V (Outlook=Rain ^ Wind=Weak)

決策樹(shù)學(xué)習(xí)最適合具有以下特征的問(wèn)題:

  • 實(shí)例是由“屬性-值”對(duì)(pair)表示饺窿;(例如溫度Temperatue用值Hot鸿捧、Mild嗤军、Cold表示而不是連續(xù)的數(shù)值)
  • 目標(biāo)函數(shù)具有離散的輸出值靶瘸;(例如給每一個(gè)實(shí)例賦予一個(gè)bool類(lèi)型的分類(lèi)寝优,如yes和no)
  • 可能需要析取的描述条舔;(上文已描述)
  • 訓(xùn)練數(shù)據(jù)可以包含錯(cuò)誤;(決策樹(shù)學(xué)習(xí)對(duì)錯(cuò)誤有很好的健壯性)
  • 訓(xùn)練數(shù)據(jù)可以包含缺少屬性值的實(shí)例乏矾。

ID3算法

如圖一所示孟抗,該決策樹(shù)把屬性O(shè)utlook作為樹(shù)的根節(jié)點(diǎn)被第一個(gè)測(cè)試,而之后是Humidity和Wind屬性钻心,為什么凄硼?測(cè)試屬性的先后順序有什么關(guān)系和標(biāo)準(zhǔn)?決策樹(shù)算法的核心就是要解決這個(gè)問(wèn)題捷沸。

ID3是一種自頂向下增長(zhǎng)樹(shù)的貪婪算法摊沉,在每個(gè)結(jié)點(diǎn)選取能最好地分類(lèi)樣例的屬性。繼續(xù)這個(gè)過(guò)程指導(dǎo)這棵樹(shù)能完美分類(lèi)訓(xùn)練樣例痒给,或所有的屬性都已被使用過(guò)说墨。

ID3算法概要:



該算法描述并沒(méi)有解決其核心問(wèn)題:在選取樹(shù)的每個(gè)結(jié)點(diǎn)時(shí),哪個(gè)屬性是最佳的分類(lèi)屬性苍柏?

衡量屬性?xún)r(jià)值的一個(gè)好的定量標(biāo)準(zhǔn)是什么呢尼斧?這里定義一個(gè)統(tǒng)計(jì)屬性,稱(chēng)為“信息增益”(information gain)试吁,用來(lái)衡量給定的屬性區(qū)分訓(xùn)練樣例的能力棺棵。ID3算法在增長(zhǎng)樹(shù)的每一步使用這個(gè)信息增益標(biāo)準(zhǔn)從候選屬性中選擇屬性。

信息增益

在學(xué)習(xí)信息增益之前熄捍,先來(lái)了解一個(gè)信息論中的一個(gè)名詞:熵(entropy)烛恤。

熵刻畫(huà)了任意樣例集的純度,它的取值為0-1余耽。舉個(gè)例子缚柏,一個(gè)箱子里有10個(gè)水果,或蘋(píng)果或梨子宾添,如果10個(gè)水果都是蘋(píng)果或都是梨子船惨,那說(shuō)明水果的純度最高,用熵來(lái)描述就是熵最低(0)缕陕,如果5個(gè)蘋(píng)果5個(gè)梨子粱锐,那么純度最低,用熵來(lái)描述就是熵最高(1)扛邑。
信息論中熵的另一種解釋更有利于理解:熵確定了要編碼集合S中任意成員(即以均勻地概率隨機(jī)抽出的一個(gè)成員)的分類(lèi)所需要的最少二進(jìn)制位數(shù)怜浅。
需要進(jìn)一步了解可移步[百度百科-信息熵]

給定樣例集S,計(jì)算對(duì)S進(jìn)行布爾分類(lèi)的熵的公式為:

我們定義0log0為0。

其中恶座,p+是在S中正例的比例搀暑,p-是在S中反例的比例,參考上述水果的例子跨琳,假設(shè)蘋(píng)果為正例自点,蘋(píng)果個(gè)數(shù)為10,梨子個(gè)數(shù)為0時(shí)脉让,1log1=0, 0log0=0桂敛,所以熵為0。如果蘋(píng)果梨子各5個(gè)溅潜,那么p+ = 0.5, p- = 0.5术唬,代入公式,熵為1滚澜。

一般的粗仓,如果目標(biāo)屬性具有c個(gè)不同的值,那么S相對(duì)于c個(gè)狀態(tài)的分類(lèi)的熵定義為:

那么设捐,信息增益是什么意思呢借浊?簡(jiǎn)單地說(shuō),一個(gè)屬性的信息增益就是由于這個(gè)屬性分割樣例而導(dǎo)致的期望熵降低挡育。

舉例來(lái)說(shuō)巴碗,一個(gè)水果是一個(gè)樣例朴爬,如果要驗(yàn)證該水果是蘋(píng)果還是梨子即寒,最準(zhǔn)確地方法是通過(guò)驗(yàn)證該水果的基因。但是水果本身的顏色召噩、形狀母赵、口味等幾個(gè)屬性可以幫助我們對(duì)該水果進(jìn)行分類(lèi),那么具滴,哪個(gè)屬性最有助于判斷這個(gè)水果是蘋(píng)果還是梨子呢凹嘲?如果因?yàn)檫@個(gè)屬性可以將水果進(jìn)行蘋(píng)果/梨子分類(lèi)的熵降低,那么降低的熵的量就是信息增益构韵,當(dāng)然周蹭,如果信息增益越大(即降低的熵越多),那么這個(gè)屬性就是最佳屬性疲恢。

更精確的講凶朗,一個(gè)屬性A相對(duì)樣例集合S的信息增益Gain(S, A)被定義為:

對(duì)水果的幾個(gè)屬性(顏色、形狀显拳、口味..)依次根據(jù)此公式計(jì)算信息增益棚愤,然后再互相比較,選擇信息增益最大的屬性為最佳屬性。

所以宛畦,信息增益正是ID3算法增長(zhǎng)樹(shù)的每一步中選取最佳屬性的度量標(biāo)準(zhǔn)瘸洛。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市次和,隨后出現(xiàn)的幾起案子反肋,更是在濱河造成了極大的恐慌,老刑警劉巖踏施,帶你破解...
    沈念sama閱讀 212,454評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件囚玫,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡读规,警方通過(guò)查閱死者的電腦和手機(jī)抓督,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)束亏,“玉大人铃在,你說(shuō)我怎么就攤上這事“椋” “怎么了定铜?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,921評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)怕敬。 經(jīng)常有香客問(wèn)我揣炕,道長(zhǎng),這世上最難降的妖魔是什么东跪? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,648評(píng)論 1 284
  • 正文 為了忘掉前任畸陡,我火速辦了婚禮,結(jié)果婚禮上虽填,老公的妹妹穿的比我還像新娘丁恭。我一直安慰自己,他們只是感情好斋日,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布牲览。 她就那樣靜靜地躺著,像睡著了一般恶守。 火紅的嫁衣襯著肌膚如雪第献。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,950評(píng)論 1 291
  • 那天兔港,我揣著相機(jī)與錄音庸毫,去河邊找鬼。 笑死押框,一個(gè)胖子當(dāng)著我的面吹牛岔绸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 39,090評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼盒揉,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼晋被!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起刚盈,我...
    開(kāi)封第一講書(shū)人閱讀 37,817評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤羡洛,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后藕漱,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體欲侮,經(jīng)...
    沈念sama閱讀 44,275評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評(píng)論 2 327
  • 正文 我和宋清朗相戀三年肋联,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了威蕉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,724評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡橄仍,死狀恐怖韧涨,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情侮繁,我是刑警寧澤虑粥,帶...
    沈念sama閱讀 34,409評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站宪哩,受9級(jí)特大地震影響娩贷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜锁孟,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評(píng)論 3 316
  • 文/蒙蒙 一彬祖、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧罗岖,春花似錦涧至、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,815評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)纺非。三九已至哑了,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間烧颖,已是汗流浹背弱左。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,043評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留炕淮,地道東北人拆火。 一個(gè)月前我還...
    沈念sama閱讀 46,503評(píng)論 2 361
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親们镜。 傳聞我的和親對(duì)象是個(gè)殘疾皇子币叹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容