【No2】決策樹(shù)與分類概述

1,決策樹(shù)模型概述

決策樹(shù)可以同時(shí)用于分類和回歸兩種業(yè)務(wù)處理饭庞。在分類問(wèn)題上舰攒,表示基于特征對(duì)實(shí)例進(jìn)行分類的過(guò)程。相比于樸素貝葉斯分類讥此,決策樹(shù)的優(yōu)勢(shì)在于不需要構(gòu)造任何領(lǐng)域知識(shí)或參數(shù)設(shè)置拢锹。因此在實(shí)際應(yīng)用中,對(duì)于探測(cè)式的知識(shí)發(fā)現(xiàn)暂论,決策樹(shù)更加適用面褐。

舉例如下:

決策樹(shù)基于‘樹(shù)’結(jié)構(gòu)進(jìn)行決策

每個(gè)內(nèi)部節(jié)點(diǎn)對(duì)應(yīng)某個(gè)屬性上的測(cè)試。

每個(gè)分支對(duì)應(yīng)于該測(cè)試的一種可能結(jié)果(即該屬性的某個(gè)取值)取胎。

每個(gè)‘葉節(jié)點(diǎn)’對(duì)應(yīng)于一個(gè)‘預(yù)測(cè)結(jié)果’展哭。

學(xué)習(xí)過(guò)程:通過(guò)訓(xùn)練樣本的分來(lái)確定‘劃分屬性’。

預(yù)測(cè)過(guò)程:將測(cè)試示例從根節(jié)點(diǎn)開(kāi)始闻蛀,沿著劃分屬性所構(gòu)成‘判定測(cè)試序列’下行匪傍,直到葉節(jié)點(diǎn)。

重點(diǎn)需要掌握的分類算法:ID3;C4.5觉痛;CART役衡;RandomForest

2,算法流程與最佳屬性選擇

2.1決策樹(shù)的基本流程

總體流程:

A,自根至葉的遞歸過(guò)程

B薪棒,在每個(gè)中間節(jié)點(diǎn)尋找一個(gè)‘劃分’屬性

劃分的三種停止條件:

(1)手蝎,當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類別。

(2)俐芯,當(dāng)前屬性集為空棵介,或是所有的樣本在所有屬性值上取值相同,無(wú)法劃分吧史。

(3)邮辽,當(dāng)前節(jié)點(diǎn)包含的樣本集合為空,不能劃分贸营。

注:這里需要理解類別和屬性指的概念吨述,以西瓜為例,好瓜與壞瓜就是類別钞脂,瓜的甜度(不甜揣云,微甜,甜)就是屬性值冰啃。

那么當(dāng)某個(gè)節(jié)點(diǎn)的西瓜全是好瓜或者壞瓜時(shí)灵再,劃分停止肋层。

當(dāng)瓜的甜度這個(gè)屬性集里沒(méi)有不甜,微甜翎迁,甜這些屬性值,或者净薛,不甜的瓜全是壞瓜汪榔,微甜與甜的瓜全是好瓜,那么劃分也會(huì)停止肃拜。

或者甜度這個(gè)節(jié)點(diǎn)沒(méi)有西瓜時(shí)痴腌,劃分也會(huì)停止。

換成If...then的規(guī)則理解

2.2最佳屬性選擇方法

信息熵(entroy)是度量樣本集合‘純度’燃领,最常用的一種指標(biāo)士聪,假定當(dāng)前樣本集合D中第k類樣本所占的比例為Pk,則D的信息熵定義為:

信息熵的公式來(lái)源如下:

A猛蔽,首先定義不確定性函數(shù)f是概率P的單調(diào)遞降函數(shù)剥悟;兩個(gè)獨(dú)立符號(hào)所產(chǎn)生的不確定性應(yīng)等于各自不確定性之和,即f(P1,P2)=f(P1)+f(P2)曼库,同時(shí)滿足這兩個(gè)條件的函數(shù)f是對(duì)數(shù)函數(shù)区岗,即f(P)=log(1/p)=-logp

B,在信源中毁枯,考慮的不是單一符號(hào)發(fā)生的不確定性慈缔,而是要考慮整個(gè)信源所有可能發(fā)生情況的平均不確定性。若信源符號(hào)有n種取值:U1…Ui…Un种玛,對(duì)應(yīng)概率為:P1…Pi…Pn藐鹤,且各種符號(hào)的出現(xiàn)彼此獨(dú)立。這時(shí)赂韵,信源的平均不確定性應(yīng)當(dāng)為單個(gè)符號(hào)不確定性-logPi的統(tǒng)計(jì)平均值(E)娱节,可稱為信息熵,即

式中對(duì)數(shù)一般取2為底右锨,單位為比特括堤。但是,也可以取其它對(duì)數(shù)底绍移,采用其它相應(yīng)的單位悄窃,它們間可用換底公式換算。

信息增益直接以信息熵為基礎(chǔ)蹂窖,計(jì)算當(dāng)前劃分對(duì)信息熵所造成的變化轧抗。

接下來(lái)分別講述ID3,C4.5和CART中最佳屬性選擇方法。

(1)ID3中使用信息增益(information gain)

信息增益指的是在一個(gè)條件下瞬测,信息不確定性減少的程度横媚。信息增益的公式如下:

Dv的概念結(jié)合下面的西瓜例子來(lái)理解纠炮,本質(zhì)上是一個(gè)樣本集合。

以西瓜數(shù)據(jù)集為例灯蝴,完全為劃分前恢口,好瓜與壞瓜的熵如下,為0.998穷躁。

通過(guò)‘色澤’屬性劃分后耕肩,屬性‘色澤’的增益為6/17*1+6/17*0.918+5/17*0.722=0.889

那么‘色澤’的信息增益為0.998-0.889=0.109

(2)C4.5中使用信息增益率(gain ratio)

信息增益對(duì)取值數(shù)目較多的屬性有所偏好,例如編號(hào)问潭,他的信息增益是最大的猿诸,但是編號(hào)沒(méi)有泛化能力。因此針對(duì)ID3信息增益的缺陷狡忙,產(chǎn)生了信息增益率的方式來(lái)選擇最佳屬性梳虽,用信息增益除以IV(a)來(lái)‘懲罰’屬性值較多的屬性。

(3)CART中使用基尼指數(shù)(gini index)

基尼指數(shù)的含義和熵很接近灾茁,基尼指數(shù)越大窜觉,包含的類別越雜亂。

注:本文為網(wǎng)易云課堂《機(jī)器學(xué)習(xí)微專業(yè)》學(xué)習(xí)筆記删顶。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末竖螃,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子逗余,更是在濱河造成了極大的恐慌特咆,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件录粱,死亡現(xiàn)場(chǎng)離奇詭異腻格,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)啥繁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門菜职,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人旗闽,你說(shuō)我怎么就攤上這事酬核。” “怎么了适室?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵嫡意,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我捣辆,道長(zhǎng)蔬螟,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任汽畴,我火速辦了婚禮旧巾,結(jié)果婚禮上耸序,老公的妹妹穿的比我還像新娘。我一直安慰自己鲁猩,他們只是感情好坎怪,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著廓握,像睡著了一般芋忿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上疾棵,一...
    開(kāi)封第一講書(shū)人閱讀 51,718評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音痹仙,去河邊找鬼是尔。 笑死,一個(gè)胖子當(dāng)著我的面吹牛开仰,可吹牛的內(nèi)容都是我干的拟枚。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼众弓,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼恩溅!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起谓娃,我...
    開(kāi)封第一講書(shū)人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤脚乡,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后滨达,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體奶稠,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年捡遍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了锌订。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡画株,死狀恐怖辆飘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情谓传,我是刑警寧澤蜈项,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站良拼,受9級(jí)特大地震影響战得,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜庸推,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一常侦、第九天 我趴在偏房一處隱蔽的房頂上張望浇冰。 院中可真熱鬧,春花似錦聋亡、人聲如沸肘习。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)漂佩。三九已至,卻和暖如春罪塔,著一層夾襖步出監(jiān)牢的瞬間投蝉,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工征堪, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留瘩缆,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓佃蚜,卻偏偏與公主長(zhǎng)得像庸娱,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子谐算,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 決策樹(shù)理論在決策樹(shù)理論中熟尉,有這樣一句話,“用較少的東西洲脂,照樣可以做很好的事情斤儿。越是小的決策樹(shù),越優(yōu)于大的決策樹(shù)”腮考。...
    制杖灶灶閱讀 5,851評(píng)論 0 25
  • 轉(zhuǎn)自算法雜貨鋪--決策樹(shù)決策樹(shù)和隨機(jī)森林學(xué)習(xí)筆記-歡迎補(bǔ)充 http://www.cnblogs.com/fion...
    明翼閱讀 10,742評(píng)論 1 6
  • 1雇毫、決策樹(shù)算法 決策樹(shù)(decision tree)又叫判定樹(shù),是基于樹(shù)結(jié)構(gòu)對(duì)樣本屬性進(jìn)行分類的分類算法踩蔚。以二分類...
    JasonJe閱讀 2,776評(píng)論 0 22
  • 姓名:梁祥學(xué)號(hào):17021210935 【嵌牛導(dǎo)讀】:決策樹(shù)算法作為數(shù)據(jù)挖掘領(lǐng)域的十大算法之一棚放,與k-means算...
    Leon_66閱讀 801評(píng)論 0 1
  • 每當(dāng)我看西海都市報(bào)飘蚯,第一眼是要看中國(guó)福利彩票雙色球當(dāng)日中獎(jiǎng)號(hào)碼,因?yàn)槊科诙紩?huì)有一些幸運(yùn)的人中好大金額的頭等獎(jiǎng)福也,著實(shí)...
    冰睿閱讀 471評(píng)論 0 0