ID3算法

這次上完數(shù)據(jù)挖掘的課之后,我想還是要做做筆記吧贡歧,結(jié)合書上的內(nèi)容以及網(wǎng)上其他博主的經(jīng)驗(yàn),這里我就給出自己的一些理解

參考網(wǎng)址:https://blog.csdn.net/fly_time2012/article/details/70210725

主要概念

  • 分類和預(yù)測(cè)
  • 信息熵(期望信息)
  • 信息增益
  • 屬性選擇度量
  • 決策樹(shù)歸納


分類和預(yù)測(cè)

假設(shè)你是銀行工作人員,有很大一堆貸款者的數(shù)據(jù)锨能,包括這些人的年齡,職業(yè)芍耘,收入址遇,貸款信用等等,你要怎么根據(jù)這些數(shù)據(jù)來(lái)分析出這些貸款者的信用是安全的還是有風(fēng)險(xiǎn)的呢斋竞?
你需要構(gòu)造一個(gè)分類器倔约,根據(jù)這個(gè)分類器來(lái)分析這些數(shù)據(jù)
假設(shè)你通過(guò)大量的數(shù)據(jù)構(gòu)造除了一個(gè)分類器,那么下次又來(lái)了一批貸款者坝初,你就能根據(jù)這個(gè)分類器來(lái)預(yù)測(cè)這些人的貸款信用

數(shù)據(jù)分類是一個(gè)兩階段的過(guò)程浸剩,包括

  • 學(xué)習(xí)階段
  • 分類階段

學(xué)習(xí)階段——構(gòu)建分類模型

就是通過(guò)數(shù)據(jù)分析的算法來(lái)構(gòu)造一個(gè)分類器

分類階段——使用模型預(yù)測(cè)給定數(shù)據(jù)的類標(biāo)號(hào)

所謂類標(biāo)號(hào),比如說(shuō)一個(gè)數(shù)據(jù)的屬性是性別钾军,那么類標(biāo)號(hào)就是男士或者女士,就是一個(gè)屬性的value
那么這里的意思就是绢要,通過(guò)分類器的預(yù)測(cè)吏恭,來(lái)給出屬性的值,比如貸款信用——高 中等 低


決策樹(shù)歸納

好了重罪,現(xiàn)在我們要嘗試去構(gòu)造一個(gè)分類器了
假設(shè)你有這么一堆數(shù)據(jù)
圖片來(lái)源:https://blog.csdn.net/fly_time2012/article/details/70210725

天氣決定我玩不玩耍

現(xiàn)在我們要做的就是通過(guò)過(guò)分析天氣的情況來(lái)分析出他到底play還是不play
那么現(xiàn)在很流行的就是使用決策樹(shù)歸納
假設(shè)分成這個(gè)樣子:


按照Outlook來(lái)分

那這樣我們就可以知道了樱哼,在overcast的天氣,他是絕對(duì)會(huì)出去玩的(僅限于當(dāng)前數(shù)據(jù)集)
像上面那個(gè)分類剿配,我們不妨把Outlook看做屬性A搅幅,而數(shù)據(jù)集叫做D分區(qū),A中有多個(gè)不同的值

{a1,a2,a3,....an}

那么屬性A將D劃分n個(gè)分區(qū)或者子集

{D1,D2,D3,D4....}

停下來(lái)結(jié)合我們剛剛的例子好好想想呼胚,屬性A就是那個(gè)outlook茄唐,每個(gè)a1,a2之類的就是sunny蝇更,rainy之類的沪编,而通過(guò)這幾個(gè)值,就把D這個(gè)數(shù)據(jù)分區(qū)年扩,也就是那個(gè)玩還是不玩數(shù)據(jù)漾抬,分成了幾個(gè)子集
現(xiàn)在應(yīng)該清楚了一些

然后我們繼續(xù)看那張圖,我們按照overcast分了之后常遂,得到的D2纳令,哪個(gè)里面全部都是No,出現(xiàn)這種情況克胳,我們就說(shuō)這種這個(gè)分區(qū)是
純的
像其他幾個(gè)分區(qū)平绩,又有yes又有no,那就是不純的



剛才我們僅僅只是按照了一個(gè)屬性將這塊數(shù)據(jù)D分成了幾個(gè)子集漠另,
假設(shè)我們繼續(xù)分捏雌,比如說(shuō)按照Temperature來(lái)分,又可以將幾個(gè)D1笆搓,D2繼續(xù)分成更細(xì)的部分
那么一直這樣分的話性湿,我們就形成了一顆決策樹(shù)(有點(diǎn)懶,直接在網(wǎng)上拿的圖)
來(lái)源:https://lotabout.me/2018/decision-tree/

決策樹(shù)是一種類似于流程圖的機(jī)構(gòu),其中满败,每個(gè)內(nèi)部結(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試肤频,每個(gè)分支代表該測(cè)試的一個(gè)輸出,而每個(gè)樹(shù)葉節(jié)點(diǎn)存放一個(gè)類標(biāo)號(hào)

好了算墨,現(xiàn)在的問(wèn)題是什么呢宵荒?
難道你們沒(méi)有發(fā)現(xiàn)我們?cè)诜值臅r(shí)候,選取的屬性完全是自己選的嗎?
那這樣怎么才能保證我們的決策樹(shù)能很好地預(yù)測(cè)下一次的數(shù)據(jù)呢报咳?

屬性選擇度量

我們要選擇一個(gè)很好地標(biāo)準(zhǔn)來(lái)幫助我們構(gòu)造一棵決策樹(shù)
也就是選好一個(gè)分裂準(zhǔn)則
這里有三種常見(jiàn)的分裂準(zhǔn)則

  • 信息增益
  • 增益率
  • 基尼指數(shù)(Gini)

好了侠讯,不要被上面的信息看懵了,我現(xiàn)在只做一個(gè)信息增益的介紹

信息熵

香農(nóng)提出來(lái)的暑刃,類似于物理上的熵璃搜,熵越大粟关,意味著物質(zhì)越無(wú)序
而信息熵越大会钝,意味著信息越是無(wú)序蜈七,而無(wú)序和信息量大是由一定關(guān)系的,一般來(lái)說(shuō)婿脸,對(duì)于一堆未處理的數(shù)據(jù)粱胜,信息量大柄驻,這堆數(shù)據(jù)的看起來(lái)就非常的雜亂狐树,那么信息熵也就越大
定義:
假如一個(gè)隨機(jī)變量X的取值是

{X1,X2,X3,....}

對(duì)應(yīng)的出現(xiàn)概率是

{p1,p2,p3,.....}

那么這個(gè)X的信息熵(也叫做期望信息)就是

信息熵

注意

  • 并不是傳統(tǒng)的期望值----概率x取值
  • 使用以2為底的對(duì)數(shù)是因?yàn)樾畔⒂枚M(jìn)制編碼(我不知道)

那好,大伙們鸿脓,我么先計(jì)算一下未分區(qū)之前play的信息熵:


pi對(duì)應(yīng)于的是play和not play兩種概率

當(dāng)我們分完區(qū)之后抑钟,我們來(lái)計(jì)算一下各個(gè)分區(qū)的信息熵,(我知道去翻圖片有點(diǎn)累啊,但是我不想傳兩次了)


各個(gè)分區(qū)的信息熵

那么怎么才能把這幾個(gè)分區(qū)的信息熵結(jié)合起來(lái)野哭,來(lái)和原來(lái)的進(jìn)行比較呢在塔?


使用各個(gè)分區(qū)所占的權(quán)重來(lái)得到熵

所謂各個(gè)分區(qū)所占的權(quán)重,就是

Di/D

比如說(shuō)sunny占了原來(lái)數(shù)據(jù)的1/2拨黔,那么我們就用這個(gè)

∑權(quán)重*分完之后的信息熵


信息增益

好了蛔溃,用原來(lái)的信息熵減去分完之后的信息熵我們就得到了信息增益!


信息增益

那這個(gè)意味著什么呢?
如果信息增益越大,那么就是指分完之后的信息熵越小篱蝇,那也就意味著分完之后的數(shù)據(jù)趨向于有序贺待,而越有序的數(shù)據(jù),意味著我們能更好地預(yù)測(cè)數(shù)據(jù)

所以使用這個(gè)信息增益就能幫我們確定使用什么屬性的優(yōu)先級(jí)來(lái)構(gòu)造決策樹(shù)了

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末零截,一起剝皮案震驚了整個(gè)濱河市麸塞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌涧衙,老刑警劉巖哪工,帶你破解...
    沈念sama閱讀 218,451評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異弧哎,居然都是意外死亡雁比,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門撤嫩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)章贞,“玉大人,你說(shuō)我怎么就攤上這事⊙枷蓿” “怎么了蜕径?”我有些...
    開(kāi)封第一講書人閱讀 164,782評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)败京。 經(jīng)常有香客問(wèn)我兜喻,道長(zhǎng),這世上最難降的妖魔是什么赡麦? 我笑而不...
    開(kāi)封第一講書人閱讀 58,709評(píng)論 1 294
  • 正文 為了忘掉前任朴皆,我火速辦了婚禮,結(jié)果婚禮上泛粹,老公的妹妹穿的比我還像新娘遂铡。我一直安慰自己,他們只是感情好晶姊,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布扒接。 她就那樣靜靜地躺著,像睡著了一般们衙。 火紅的嫁衣襯著肌膚如雪钾怔。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 51,578評(píng)論 1 305
  • 那天蒙挑,我揣著相機(jī)與錄音宗侦,去河邊找鬼。 笑死忆蚀,一個(gè)胖子當(dāng)著我的面吹牛矾利,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播馋袜,決...
    沈念sama閱讀 40,320評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼男旗,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了桃焕?” 一聲冷哼從身側(cè)響起剑肯,我...
    開(kāi)封第一講書人閱讀 39,241評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎观堂,沒(méi)想到半個(gè)月后让网,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,686評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡师痕,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評(píng)論 3 336
  • 正文 我和宋清朗相戀三年溃睹,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胰坟。...
    茶點(diǎn)故事閱讀 39,992評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡因篇,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情竞滓,我是刑警寧澤咐吼,帶...
    沈念sama閱讀 35,715評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站商佑,受9級(jí)特大地震影響锯茄,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜茶没,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評(píng)論 3 330
  • 文/蒙蒙 一肌幽、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧抓半,春花似錦喂急、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,912評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至涣易,卻和暖如春画机,著一層夾襖步出監(jiān)牢的瞬間冶伞,已是汗流浹背新症。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,040評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留响禽,地道東北人徒爹。 一個(gè)月前我還...
    沈念sama閱讀 48,173評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像芋类,于是被迫代替她去往敵國(guó)和親隆嗅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 決策樹(shù)理論在決策樹(shù)理論中侯繁,有這樣一句話胖喳,“用較少的東西,照樣可以做很好的事情贮竟。越是小的決策樹(shù)丽焊,越優(yōu)于大的決策樹(shù)”。...
    制杖灶灶閱讀 5,851評(píng)論 0 25
  • ID3算法是一種貪婪算法咕别,用來(lái)構(gòu)造決策樹(shù)技健。 決策樹(shù)是什么? 決策樹(shù)和你利用車輛用戶手冊(cè)排查你的車到底出了什么問(wèn)題沒(méi)...
    shijiatongxue閱讀 7,294評(píng)論 0 0
  • 決策樹(shù)學(xué)習(xí) 決策樹(shù)學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一惰拱,它是一種逼近離散值函數(shù)的方法雌贱,對(duì)噪聲數(shù)據(jù)又很好地健壯性且能夠?qū)W...
    貳拾貳畫生閱讀 3,040評(píng)論 0 7
  • 決策樹(shù)算法:優(yōu)點(diǎn):計(jì)算復(fù)雜度不高欣孤,輸出結(jié)果易于理解馋没,對(duì)中間值的缺失不敏感,可以處理不相關(guān)的特征數(shù)據(jù)降传。缺點(diǎn):可能會(huì)產(chǎn)...
    Python數(shù)據(jù)分析實(shí)戰(zhàn)閱讀 23,321評(píng)論 2 16
  • 今天是五一節(jié)披泪,五一節(jié)里最正規(guī)的一天,紀(jì)念勞動(dòng)人民最光榮搬瑰。 我的五一款票,用來(lái)回憶。 我的童年算得上不幸泽论,父親與惟一的弟...
    千秋筆閱讀 626評(píng)論 3 13