決策樹(shù)學(xué)習(xí)及ID3算法

決策樹(shù)學(xué)習(xí)

決策樹(shù)學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一，它是一種逼近離散值函數(shù)的方法，對(duì)噪聲數(shù)據(jù)又很好地健壯性且能夠?qū)W習(xí)析取表達(dá)式屑宠。

下圖是一顆典型的學(xué)習(xí)決策樹(shù)

圖一一顆典型的學(xué)習(xí)決策樹(shù)

所謂能夠?qū)W習(xí)析取表達(dá)式是指阱表，根據(jù)這顆決策樹(shù)我們可以寫(xiě)出與之對(duì)應(yīng)的表達(dá)式：
(Outlook=Sunny ^ Humidity=Normal) V (Outlook=Overcast) V (Outlook=Rain ^ Wind=Weak)

決策樹(shù)學(xué)習(xí)最適合具有以下特征的問(wèn)題：

實(shí)例是由“屬性-值”對(duì)（pair）表示饺窿；（例如溫度Temperatue用值Hot鸿捧、Mild嗤军、Cold表示而不是連續(xù)的數(shù)值）
目標(biāo)函數(shù)具有離散的輸出值靶瘸；（例如給每一個(gè)實(shí)例賦予一個(gè)bool類(lèi)型的分類(lèi)寝优，如yes和no）
可能需要析取的描述条舔；（上文已描述）
訓(xùn)練數(shù)據(jù)可以包含錯(cuò)誤；（決策樹(shù)學(xué)習(xí)對(duì)錯(cuò)誤有很好的健壯性）
訓(xùn)練數(shù)據(jù)可以包含缺少屬性值的實(shí)例乏矾。

ID3算法

如圖一所示孟抗，該決策樹(shù)把屬性O(shè)utlook作為樹(shù)的根節(jié)點(diǎn)被第一個(gè)測(cè)試，而之后是Humidity和Wind屬性钻心，為什么凄硼？測(cè)試屬性的先后順序有什么關(guān)系和標(biāo)準(zhǔn)？決策樹(shù)算法的核心就是要解決這個(gè)問(wèn)題捷沸。

ID3是一種自頂向下增長(zhǎng)樹(shù)的貪婪算法摊沉，在每個(gè)結(jié)點(diǎn)選取能最好地分類(lèi)樣例的屬性。繼續(xù)這個(gè)過(guò)程指導(dǎo)這棵樹(shù)能完美分類(lèi)訓(xùn)練樣例痒给，或所有的屬性都已被使用過(guò)说墨。

ID3算法概要：

該算法描述并沒(méi)有解決其核心問(wèn)題：在選取樹(shù)的每個(gè)結(jié)點(diǎn)時(shí)，哪個(gè)屬性是最佳的分類(lèi)屬性苍柏？

衡量屬性?xún)r(jià)值的一個(gè)好的定量標(biāo)準(zhǔn)是什么呢尼斧？這里定義一個(gè)統(tǒng)計(jì)屬性，稱(chēng)為“信息增益”（information gain）试吁，用來(lái)衡量給定的屬性區(qū)分訓(xùn)練樣例的能力棺棵。ID3算法在增長(zhǎng)樹(shù)的每一步使用這個(gè)信息增益標(biāo)準(zhǔn)從候選屬性中選擇屬性。

信息增益

在學(xué)習(xí)信息增益之前熄捍，先來(lái)了解一個(gè)信息論中的一個(gè)名詞：熵（entropy）烛恤。

熵刻畫(huà)了任意樣例集的純度，它的取值為0-1余耽。舉個(gè)例子缚柏，一個(gè)箱子里有10個(gè)水果，或蘋(píng)果或梨子宾添，如果10個(gè)水果都是蘋(píng)果或都是梨子船惨，那說(shuō)明水果的純度最高，用熵來(lái)描述就是熵最低（0）缕陕，如果5個(gè)蘋(píng)果5個(gè)梨子粱锐，那么純度最低，用熵來(lái)描述就是熵最高（1）扛邑。
信息論中熵的另一種解釋更有利于理解：熵確定了要編碼集合S中任意成員（即以均勻地概率隨機(jī)抽出的一個(gè)成員）的分類(lèi)所需要的最少二進(jìn)制位數(shù)怜浅。
需要進(jìn)一步了解可移步[百度百科-信息熵]

給定樣例集S，計(jì)算對(duì)S進(jìn)行布爾分類(lèi)的熵的公式為：

我們定義0log0為0。

其中恶座，p+是在S中正例的比例搀暑，p-是在S中反例的比例，參考上述水果的例子跨琳，假設(shè)蘋(píng)果為正例自点，蘋(píng)果個(gè)數(shù)為10，梨子個(gè)數(shù)為0時(shí)脉让，1log1=0, 0log0=0桂敛，所以熵為0。如果蘋(píng)果梨子各5個(gè)溅潜，那么p+ = 0.5, p- = 0.5术唬，代入公式，熵為1滚澜。

一般的粗仓，如果目標(biāo)屬性具有c個(gè)不同的值，那么S相對(duì)于c個(gè)狀態(tài)的分類(lèi)的熵定義為：

那么设捐，信息增益是什么意思呢借浊？簡(jiǎn)單地說(shuō)，一個(gè)屬性的信息增益就是由于這個(gè)屬性分割樣例而導(dǎo)致的期望熵降低挡育。

舉例來(lái)說(shuō)巴碗，一個(gè)水果是一個(gè)樣例朴爬，如果要驗(yàn)證該水果是蘋(píng)果還是梨子即寒，最準(zhǔn)確地方法是通過(guò)驗(yàn)證該水果的基因。但是水果本身的顏色召噩、形狀母赵、口味等幾個(gè)屬性可以幫助我們對(duì)該水果進(jìn)行分類(lèi)，那么具滴，哪個(gè)屬性最有助于判斷這個(gè)水果是蘋(píng)果還是梨子呢凹嘲？如果因?yàn)檫@個(gè)屬性可以將水果進(jìn)行蘋(píng)果/梨子分類(lèi)的熵降低，那么降低的熵的量就是信息增益构韵，當(dāng)然周蹭，如果信息增益越大（即降低的熵越多），那么這個(gè)屬性就是最佳屬性疲恢。

更精確的講凶朗，一個(gè)屬性A相對(duì)樣例集合S的信息增益Gain(S, A)被定義為：

對(duì)水果的幾個(gè)屬性（顏色、形狀显拳、口味..）依次根據(jù)此公式計(jì)算信息增益棚愤，然后再互相比較，選擇信息增益最大的屬性為最佳屬性。

所以宛畦，信息增益正是ID3算法增長(zhǎng)樹(shù)的每一步中選取最佳屬性的度量標(biāo)準(zhǔn)瘸洛。

最后編輯于：2017.11.27 02:47:30

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市次和，隨后出現(xiàn)的幾起案子反肋，更是在濱河造成了極大的恐慌，老刑警劉巖踏施，帶你破解...
沈念sama閱讀 212,454評(píng)論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件囚玫，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡读规，警方通過(guò)查閱死者的電腦和手機(jī)抓督，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,553評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)束亏，“玉大人铃在，你說(shuō)我怎么就攤上這事“椋” “怎么了定铜？”我有些...
開(kāi)封第一講書(shū)人閱讀 157,921評(píng)論 0贊 348
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)怕敬。經(jīng)常有香客問(wèn)我揣炕，道長(zhǎng)，這世上最難降的妖魔是什么东跪？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,648評(píng)論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任畸陡，我火速辦了婚禮，結(jié)果婚禮上虽填，老公的妹妹穿的比我還像新娘丁恭。我一直安慰自己，他們只是感情好斋日，可當(dāng)我...
茶點(diǎn)故事閱讀 65,770評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布牲览。她就那樣靜靜地躺著，像睡著了一般恶守。火紅的嫁衣襯著肌膚如雪第献。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 49,950評(píng)論 1贊 291
城市分裂傳說(shuō)
那天兔港，我揣著相機(jī)與錄音庸毫，去河邊找鬼。笑死押框，一個(gè)胖子當(dāng)著我的面吹牛岔绸，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 39,090評(píng)論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼盒揉，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼晋被！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起刚盈，我...
開(kāi)封第一講書(shū)人閱讀 37,817評(píng)論 0贊 268
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤羡洛，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后藕漱，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體欲侮，經(jīng)...
沈念sama閱讀 44,275評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,592評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年肋联，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了威蕉。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,724評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡橄仍，死狀恐怖韧涨，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情侮繁，我是刑警寧澤虑粥，帶...
沈念sama閱讀 34,409評(píng)論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站宪哩，受9級(jí)特大地震影響娩贷，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜锁孟，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,052評(píng)論 3贊 316
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一彬祖、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧罗岖，春花似錦涧至、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,815評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)纺非。三九已至哑了，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間烧颖，已是汗流浹背弱左。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,043評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留炕淮，地道東北人拆火。一個(gè)月前我還...
沈念sama閱讀 46,503評(píng)論 2贊 361
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親们镜。傳聞我的和親對(duì)象是個(gè)殘疾皇子币叹，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,627評(píng)論 2贊 350

決策樹(shù)學(xué)習(xí)及ID3算法