機(jī)器學(xué)習(xí)第四章決策樹(shù)學(xué)習(xí)筆記

流程

根結(jié)點(diǎn) 包含樣本全集

結(jié)點(diǎn) 對(duì)應(yīng)一個(gè)屬性測(cè)試

子結(jié)點(diǎn) 包含結(jié)點(diǎn)中屬性測(cè)試的結(jié)果

葉結(jié)點(diǎn) 對(duì)應(yīng)決策結(jié)果

決策樹(shù)需進(jìn)行學(xué)習(xí)過(guò)程和預(yù)測(cè)過(guò)程

學(xué)習(xí)過(guò)程:通過(guò)對(duì)訓(xùn)練樣本的分析來(lái)確定 劃分屬性(內(nèi)部節(jié)點(diǎn)所對(duì)應(yīng)的屬性)

預(yù)測(cè)過(guò)程:從根結(jié)點(diǎn)開(kāi)始沟娱,沿著劃分屬性構(gòu)成的 判定順序列 進(jìn)行屬性值判別 直到葉結(jié)點(diǎn)


可用于回歸任務(wù)(只用得出預(yù)測(cè)值)的決策樹(shù)算法

三種停止條件

1桃漾、樣本為同一類別耸序,沒(méi)有需要?jiǎng)澐值膶傩粤?/p>






2袁梗、有屬性但是全部樣本屬性值一樣無(wú)需劃分






3、沒(méi)有樣本





學(xué)習(xí)過(guò)程

對(duì)劃分屬性(結(jié)點(diǎn))的選擇

信息增益

Y是類別

K類是指結(jié)果類別

P是每類別的占比

信息熵是所有 plog2p的總和

信息增益是 劃分前的信息熵 - 劃分后的信息熵(分支結(jié)點(diǎn)的信息熵 :p變?yōu)槊糠N種屬性值內(nèi)類別占比 plog2p 再乘該屬性值集合占比的和)

信息增益最大(分支結(jié)點(diǎn)的信息熵最小惭每,每種類別的概率泄嵌觥)的屬性被選為劃分屬性(信息增益越大,則意味著使周屬性 α 來(lái)進(jìn)行劃分所獲得的"純 度提升"越大)

信息增益準(zhǔn)則對(duì)可取值數(shù)目較多的屬性有所偏好台腥,為減少這種 偏好可能帶來(lái)的不利影響宏赘,著名的 C4.5 決策樹(shù)算法 [Quinlan, 1993J 不直接使 用信息增益黎侈,而是使用"增益率"


屬性信息熵(負(fù)數(shù))越小的時(shí)候增益率越大? 因此增益率準(zhǔn)則對(duì)可取值數(shù)目較少的屬性有所偏

C4.5 算法并不是直接選擇增益率最大的候選劃分屬性察署,而是使用了一個(gè)啟發(fā)式先從候選劃分屬性中找出信息增益高于平均水平的屬性,再?gòu)?中選擇增益率最高的.

基尼指數(shù)

基尼值等于 正例比率和反例比率的積

反映了從數(shù)據(jù)集 D 中隨機(jī)抽取兩個(gè)樣本峻汉,其類別標(biāo)記 不一致的概率.(方差)越小贴汪,數(shù)據(jù)集的純度越高(類別標(biāo)記越一致,大部分為一類)

某屬性的基尼指數(shù)為 該屬性各值的基尼值的和 基尼指數(shù)最小的屬 性作為最優(yōu)劃分屬性(該屬性劃分下的結(jié)果會(huì)更趨于一致)

剪枝處理 (判斷是否需要該屬性測(cè)試)

剪枝 是決策樹(shù)學(xué)習(xí)算法對(duì)付"過(guò)擬合"(由于學(xué)習(xí)器把某種不具普遍性的特征納入判別正例的標(biāo)準(zhǔn)而導(dǎo)致分類錯(cuò)誤)的主要手段 通過(guò)主動(dòng) 去掉一些分支(判斷是否需要該屬性測(cè)試)來(lái)降低過(guò)擬合的風(fēng)險(xiǎn).

預(yù)剪枝

在決策樹(shù)生成過(guò)程中休吠,對(duì)每個(gè)結(jié)點(diǎn)(對(duì)應(yīng)一個(gè)屬性測(cè)試)在劃 分前先進(jìn)行估計(jì)扳埂,若當(dāng)前結(jié)點(diǎn)的劃分不能帶來(lái)決策樹(shù)泛化性能提升,則停止劃 分并將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)(決策結(jié)果)(該屬性對(duì)結(jié)果的關(guān)聯(lián)性不大)

后剪枝

先從訓(xùn)練集生成一棵完整的決策樹(shù)瘤礁, 然后自底向上地對(duì)非葉結(jié)點(diǎn)進(jìn)行考察阳懂,若將該結(jié)點(diǎn)對(duì)應(yīng)的子樹(shù)替換為葉結(jié)點(diǎn)能帶來(lái)決策樹(shù)泛化性能提升,則將該子樹(shù)替換為葉結(jié)點(diǎn).

判斷決策樹(shù)泛化性能是否提升

留出法(預(yù)留一部分?jǐn)?shù)據(jù)用作"驗(yàn)證集"以進(jìn)行性 能評(píng)估)

樣本屬性取值若為特殊值(連續(xù)值或者缺失值)

連續(xù)值處理

離散化技術(shù) 二分法

對(duì)所有樣本中該屬性的連續(xù)值排序后的每?jī)蓚€(gè)值的中位點(diǎn)作為候選劃分點(diǎn) 對(duì)這些候選劃分點(diǎn)計(jì)算其信息增益(以中位點(diǎn)的值作為分類標(biāo)準(zhǔn)) 選出信息增益最大的中位值 作為劃分點(diǎn)


每個(gè)屬性對(duì)應(yīng)一個(gè)坐標(biāo)軸,每個(gè)樣本都對(duì)應(yīng)該空間中的一個(gè)數(shù)據(jù)點(diǎn)岩调,分類樣本即對(duì)空間區(qū)域分塊巷燥。

二分法所學(xué)習(xí)出的決策樹(shù)所形成的分類邊界有一個(gè)明顯的特點(diǎn): 軸平行(axis-parallel) ,即它的分類邊界由若干個(gè)與坐標(biāo)軸平行的分段組成.(某屬性值是否大于某一值)

優(yōu)缺點(diǎn):具有好的解釋性号枕,但當(dāng)學(xué)習(xí)任務(wù)復(fù)雜時(shí)需要很多段劃分缰揪,開(kāi)銷大。



多變量決策樹(shù)

使用斜的劃分邊界葱淳,則能簡(jiǎn)化決策樹(shù)钝腺。每個(gè)結(jié)點(diǎn)是屬性的線性組合,而不只是對(duì)某個(gè)屬性赞厕。



缺失值處理

現(xiàn)實(shí)任務(wù)中常會(huì)遇到不完整樣本拍屑,即樣本的某些屬性值缺失。(某些樣本由于特殊原因無(wú)法得知某些屬性的值) 如果放棄不完整樣本進(jìn)行學(xué)習(xí)則是對(duì)數(shù)據(jù)信息極大的浪費(fèi)

我們需解決兩個(gè)問(wèn)題

(1) 如何在屬性值缺失的情況 F進(jìn)行劃分屬性選擇?

選擇出不缺失該屬性的樣本坑傅,對(duì)該樣本進(jìn)行該屬性的信息增益的計(jì)算

用這種方法計(jì)算所有屬性的信息增益并比較,選擇信息增益最大的作為劃分屬性喷斋。

(2) 給定劃分屬性?若樣本在該屬性上的值缺失唁毒,如何對(duì)樣本進(jìn)行劃分?

根據(jù)對(duì)應(yīng)的屬性值劃分完所有無(wú)缺失值的樣本后,將每個(gè)屬性值按照(子結(jié)點(diǎn))包含的樣本比例放入所有子結(jié)點(diǎn)星爪。

選劃分點(diǎn)依據(jù)無(wú)缺失值樣本的信息增益浆西,其他樣本按概率放入子結(jié)點(diǎn)。


總結(jié)

信息增益用于對(duì)屬性的選擇

存在連續(xù)值時(shí)先假設(shè)后選擇 (先依次假設(shè)屬性的劃分點(diǎn) 計(jì)算信息增益 這些假設(shè)值中信息增益的最大值即為改屬性的信息增益 并對(duì)應(yīng)劃分點(diǎn) 結(jié)點(diǎn)即包含屬性一個(gè)劃分點(diǎn))

當(dāng)分類任務(wù)復(fù)雜時(shí)把針對(duì)單一屬性的結(jié)點(diǎn)替換成多個(gè)屬性(變量)的線性組合(多變量決策樹(shù))

樣本有缺失值時(shí) 選擇屬性時(shí)不加入含該屬性缺失值的樣本 選完后將缺失值樣本按概率同時(shí)放入所有結(jié)點(diǎn)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末顽腾,一起剝皮案震驚了整個(gè)濱河市近零,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌抄肖,老刑警劉巖久信,帶你破解...
    沈念sama閱讀 211,423評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異漓摩,居然都是意外死亡裙士,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,147評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)管毙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)腿椎,“玉大人,你說(shuō)我怎么就攤上這事夭咬】姓ǎ” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,019評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵卓舵,是天一觀的道長(zhǎng)南用。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么训枢? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,443評(píng)論 1 283
  • 正文 為了忘掉前任托修,我火速辦了婚禮,結(jié)果婚禮上恒界,老公的妹妹穿的比我還像新娘睦刃。我一直安慰自己,他們只是感情好十酣,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,535評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布涩拙。 她就那樣靜靜地躺著,像睡著了一般耸采。 火紅的嫁衣襯著肌膚如雪兴泥。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,798評(píng)論 1 290
  • 那天虾宇,我揣著相機(jī)與錄音搓彻,去河邊找鬼。 笑死嘱朽,一個(gè)胖子當(dāng)著我的面吹牛旭贬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播搪泳,決...
    沈念sama閱讀 38,941評(píng)論 3 407
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼稀轨,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了岸军?” 一聲冷哼從身側(cè)響起奋刽,我...
    開(kāi)封第一講書(shū)人閱讀 37,704評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎艰赞,沒(méi)想到半個(gè)月后佣谐,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,152評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡猖毫,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,494評(píng)論 2 327
  • 正文 我和宋清朗相戀三年台谍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吁断。...
    茶點(diǎn)故事閱讀 38,629評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡趁蕊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出仔役,到底是詐尸還是另有隱情掷伙,我是刑警寧澤,帶...
    沈念sama閱讀 34,295評(píng)論 4 329
  • 正文 年R本政府宣布又兵,位于F島的核電站任柜,受9級(jí)特大地震影響卒废,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宙地,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,901評(píng)論 3 313
  • 文/蒙蒙 一摔认、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧宅粥,春花似錦参袱、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,742評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至企垦,卻和暖如春环壤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背钞诡。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,978評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工郑现, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人荧降。 一個(gè)月前我還...
    沈念sama閱讀 46,333評(píng)論 2 360
  • 正文 我出身青樓懂酱,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親誊抛。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,499評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容