機(jī)器學(xué)習(xí)Decision Tree

? ? 研究了一個(gè)星期多的DecisionTree,簡(jiǎn)單的做一下記錄罗晕。

? ? 決策樹(shù)的目的是為了產(chǎn)生一顆泛化能力強(qiáng),處理未見(jiàn)實(shí)例強(qiáng)的決策樹(shù)赠堵,基本流程就是分治小渊。

? ? 下面是決策樹(shù)學(xué)習(xí)的基本算法(參考南京大學(xué)機(jī)器學(xué)習(xí)周志華教授課件):


決策樹(shù)算法

? ? 主要講解一下ID3決策樹(shù),ID3是通過(guò)information entropy or Gini計(jì)算最大樣本信息增益茫叭,之后對(duì)樣本通過(guò)該特征進(jìn)行劃分酬屉,以此遞歸形成決策樹(shù)。

????遞歸的三種終止方式:1:信息增益為負(fù),2:所有樣本的特征值都相同呐萨,3:所有樣本屬性相同杀饵。

? ? information entropy的計(jì)算方式(參考南京大學(xué)機(jī)器學(xué)習(xí)課件):


entropy

Gini計(jì)算方式(參考南京大學(xué)機(jī)器學(xué)習(xí)課件):


Gini

????兩個(gè)計(jì)算方式同樣都是結(jié)果越小,樣本純度越高垛吗,信息增益是對(duì)樣本進(jìn)行劃分之后凹髓,對(duì)新結(jié)點(diǎn)的熵或基尼不純度賦予權(quán)重之后想加,和原來(lái)的進(jìn)行比較怯屉∥狄ǎ看增益是多少。

? ? 信息增益計(jì)算方式(參考南京大學(xué)機(jī)器學(xué)習(xí)課件):


信息增益

信息增益率(參考南京大學(xué)機(jī)器學(xué)習(xí)課件):


信息增益率

????由此兩個(gè)增益公式可以得到一個(gè)啟發(fā)式:通過(guò)信息增益高于平均水平的锨络,找到信息增益率最高的最為分割數(shù)據(jù)的特征屬性赌躺。

? ? 之后就可以通過(guò)不斷遞歸樣本,進(jìn)行決策樹(shù)的構(gòu)建羡儿。

? ? 由于決策樹(shù)會(huì)對(duì)樣本進(jìn)行充分的訓(xùn)練礼患,很有可能生成的決策樹(shù)對(duì)樣本出現(xiàn)過(guò)擬合的情況,所以要對(duì)決策樹(shù)進(jìn)行剪枝處理:

? ? 剪枝主要是通過(guò)合并子節(jié)點(diǎn)來(lái)計(jì)算預(yù)測(cè)準(zhǔn)確率有沒(méi)有提升掠归,如果有提升缅叠,就舍棄子節(jié)點(diǎn),合并到一個(gè)節(jié)點(diǎn)上虏冻,具體的剪枝方式有預(yù)剪枝和后剪枝肤粱。

? ? 預(yù)剪枝:在構(gòu)建決策樹(shù)的時(shí)候,從頭部開(kāi)始進(jìn)行測(cè)試厨相,是不是要剪枝

? ? 后剪枝:構(gòu)建完成之后领曼,從子葉結(jié)點(diǎn)往根部開(kāi)始進(jìn)行測(cè)試,是不是要剪枝

? ? 當(dāng)然為了避免過(guò)擬合蛮穿,還可以對(duì)決策樹(shù)進(jìn)行超參數(shù)的規(guī)劃庶骄。不過(guò)這樣做會(huì)增加決策樹(shù)欠擬合的風(fēng)險(xiǎn),不過(guò)可以通過(guò)GridsearchCV來(lái)測(cè)量最佳的超參數(shù)規(guī)劃方式践磅,達(dá)到最佳的預(yù)測(cè)效果单刁。

?? ? 一般在構(gòu)建決策樹(shù)的時(shí)候,要對(duì)樣本進(jìn)行離散化處理府适,就是通常說(shuō)的啞變量計(jì)算羔飞。主要是為了將那些不回歸的數(shù)據(jù)離散化之后,容易Building细溅。但是對(duì)于哪些連續(xù)性數(shù)據(jù),就沒(méi)辦法進(jìn)行離散化處理了儡嘶,因?yàn)闊o(wú)法對(duì)其進(jìn)行維度的提升喇聊。

? ? 處理方式為:取兩個(gè)臨近值的中值對(duì)數(shù)據(jù)分割為兩部分,之后進(jìn)行類似于回歸算法一樣的計(jì)算蹦狂。

? ? 但是還有一部分?jǐn)?shù)據(jù)是缺失的誓篱,對(duì)于缺失數(shù)據(jù):如果樣本量超級(jí)大朋贬,缺失量超級(jí)小,那么缺失數(shù)據(jù)可以忽略不計(jì)窜骄,因?yàn)榭赡艹霈F(xiàn)重復(fù)數(shù)據(jù)锦募。但是如果缺失量很大,或者說(shuō)缺失了非常重要的特征屬性邻遏,那么還是建議聯(lián)系DBA把丟失的數(shù)據(jù)找回來(lái)糠亩,或者可以在數(shù)據(jù)由有缺失的時(shí)候,計(jì)算到缺失列了准验,將剩下的特征值按照決策樹(shù)子節(jié)點(diǎn)數(shù)據(jù)量的權(quán)重對(duì)其進(jìn)行加權(quán)赎线,然后分別懟入子節(jié)點(diǎn)。

? ? 如果樣本不大糊饱,可以在構(gòu)建之前對(duì)數(shù)據(jù)進(jìn)行預(yù)分類垂寥,可以讓決策樹(shù)加速構(gòu)建。但是樣本如果很大另锋,就不建議對(duì)其進(jìn)行預(yù)分類了滞项,因?yàn)轭A(yù)分類所消耗的時(shí)間,比加速節(jié)省的時(shí)間還要大夭坪。

? ? 以上是對(duì)分類問(wèn)題的決策樹(shù)構(gòu)建

? ? 對(duì)于回歸問(wèn)題

? ? 主要是計(jì)算Mean Square Error將樣本通過(guò)方差最小的方式進(jìn)行劃分文判。

? ? 之后將懟入到葉子葉結(jié)點(diǎn)的數(shù)據(jù)求平均值。




參考文獻(xiàn):

[1]Aurelien Geron.hands-On Machine learning with Scikit-Learn & TensorFlow[learning ].南京大學(xué)出版社台舱,2017-10:167-179.

[2]周志華.機(jī)器學(xué)習(xí)[learning].清華大學(xué)出版社律杠,2016-01:73-95.

[3]Toby Segaran.集體智慧編程[learning].電子工業(yè)出版社,2015-03:142-165.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末竞惋,一起剝皮案震驚了整個(gè)濱河市柜去,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌拆宛,老刑警劉巖嗓奢,帶你破解...
    沈念sama閱讀 212,816評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異浑厚,居然都是意外死亡股耽,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門钳幅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)物蝙,“玉大人,你說(shuō)我怎么就攤上這事敢艰∥芷颍” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 158,300評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)震嫉。 經(jīng)常有香客問(wèn)我森瘪,道長(zhǎng),這世上最難降的妖魔是什么票堵? 我笑而不...
    開(kāi)封第一講書人閱讀 56,780評(píng)論 1 285
  • 正文 為了忘掉前任扼睬,我火速辦了婚禮,結(jié)果婚禮上悴势,老公的妹妹穿的比我還像新娘窗宇。我一直安慰自己,他們只是感情好瞳浦,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,890評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布担映。 她就那樣靜靜地躺著,像睡著了一般叫潦。 火紅的嫁衣襯著肌膚如雪蝇完。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 50,084評(píng)論 1 291
  • 那天矗蕊,我揣著相機(jī)與錄音短蜕,去河邊找鬼。 笑死傻咖,一個(gè)胖子當(dāng)著我的面吹牛朋魔,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播卿操,決...
    沈念sama閱讀 39,151評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼警检,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了害淤?” 一聲冷哼從身側(cè)響起扇雕,我...
    開(kāi)封第一講書人閱讀 37,912評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎窥摄,沒(méi)想到半個(gè)月后镶奉,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,355評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡崭放,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,666評(píng)論 2 327
  • 正文 我和宋清朗相戀三年哨苛,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片币砂。...
    茶點(diǎn)故事閱讀 38,809評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡建峭,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出决摧,到底是詐尸還是另有隱情亿蒸,我是刑警寧澤使碾,帶...
    沈念sama閱讀 34,504評(píng)論 4 334
  • 正文 年R本政府宣布,位于F島的核電站祝懂,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏拘鞋。R本人自食惡果不足惜砚蓬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,150評(píng)論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望盆色。 院中可真熱鬧灰蛙,春花似錦、人聲如沸隔躲。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)宣旱。三九已至仅父,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間浑吟,已是汗流浹背笙纤。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,121評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留组力,地道東北人省容。 一個(gè)月前我還...
    沈念sama閱讀 46,628評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像燎字,于是被迫代替她去往敵國(guó)和親腥椒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,724評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容

  • 一.樸素貝葉斯 1.分類理論 樸素貝葉斯是一種基于貝葉斯定理和特征條件獨(dú)立性假設(shè)的多分類的機(jī)器學(xué)習(xí)方法候衍,所...
    wlj1107閱讀 3,078評(píng)論 0 5
  • 決策樹(shù)理論在決策樹(shù)理論中笼蛛,有這樣一句話,“用較少的東西脱柱,照樣可以做很好的事情伐弹。越是小的決策樹(shù),越優(yōu)于大的決策樹(shù)”榨为。...
    制杖灶灶閱讀 5,842評(píng)論 0 25
  • 機(jī)器學(xué)習(xí) 經(jīng)驗(yàn) 數(shù)據(jù) 數(shù)據(jù)中產(chǎn)生模型model 的算法 學(xué)習(xí)算法 learning algorithm 數(shù)據(jù)集 d...
    時(shí)待吾閱讀 3,970評(píng)論 0 3
  • 積跬步以致千里,積怠惰以致深淵 注:本篇文章在整理時(shí)主要參考了 周志華 的《機(jī)器學(xué)習(xí)》惨好。 主要內(nèi)容 決策樹(shù)是機(jī)器學(xué)...
    指尖上的魔術(shù)師閱讀 1,385評(píng)論 0 5
  • 孩子已經(jīng)進(jìn)入復(fù)習(xí)階段了,我不知道該怎樣輔導(dǎo)孩子随闺,一味地讓孩子做題日川,就是覺(jué)得題做多了,自然就會(huì)了矩乐,殊不知不但目的沒(méi)達(dá)...
    史響慶閱讀 179評(píng)論 0 0