決策樹知識(shí)總結(jié)

  1. 簡(jiǎn)述決策樹的原理
    決策樹的實(shí)質(zhì)就是一系列的if-else堰燎,根據(jù)決策條件链嘀,從根節(jié)點(diǎn)走到葉子節(jié)點(diǎn)。對(duì)于分類問題潭千,根據(jù)葉子結(jié)點(diǎn)的標(biāo)簽進(jìn)行投票決定;對(duì)于回歸問題是根據(jù)葉子節(jié)點(diǎn)的均值作為預(yù)測(cè)值

  2. 信息量

  • 發(fā)生概率越低的事件信息量越大
  • 信息量必須大于0
  • 信息量的累加性
    基于上述三個(gè)特性借尿,一個(gè)事件的信息量公式定義為h(x)= -log p(x)
  1. 信息熵
    信息熵是度量信息“純度”的指標(biāo)刨晴。信息熵越大,越不純路翻。例如一張二維表狈癞,學(xué)號(hào)字段相比性別字段,信息熵要大得多


    信息熵.png
  2. 決策樹結(jié)點(diǎn)劃分

    • ID3
      ID3是基于信息增益作為節(jié)點(diǎn)劃分的標(biāo)準(zhǔn)帚桩,選擇信息增益最大進(jìn)行劃分亿驾。

      image.png

    • C4.5
      由于ID3只考慮了信息增益,沒有考慮分裂字段本身的“信息熵”账嚎。假如有一個(gè)字段“學(xué)號(hào)”莫瞬,每個(gè)學(xué)號(hào)對(duì)應(yīng)唯一的label,那么根據(jù)信息增益公式郭蕉,這個(gè)字段的信息增益一定是最大的疼邀,但是這個(gè)字段真的適合分裂嗎?肯定不是的召锈。C4.5相比ID3旁振,優(yōu)化了分裂傾向選擇類別多的字段,選擇信息增益率最大進(jìn)行劃分

      image.png

    • CART
      cart是基于基尼系數(shù)進(jìn)行劃分,分別計(jì)算各字段的基尼系數(shù)拐袜,選擇最小的字段進(jìn)行分裂吉嚣,公式如下


      image.png
  3. ID3,C4.5蹬铺,CART對(duì)比


    image.png
  4. 樹的剪枝
    通過剪枝可以防止樹節(jié)點(diǎn)過擬合尝哆,提高模型的泛化能力。剪枝方式分兩種甜攀,預(yù)剪枝后剪枝秋泄。根據(jù)周志華老師在西瓜書中的剪枝內(nèi)容,思想是類似于XGBoost中的early stopping规阀,如果在驗(yàn)證集效果不再提升恒序,那么就不再進(jìn)行分裂

  • 預(yù)剪枝
    在節(jié)點(diǎn)進(jìn)行分裂時(shí),計(jì)算驗(yàn)證集分裂前后精度是否降低谁撼。如果提高歧胁,繼續(xù)分裂;否則停止分裂
  • 后剪枝
    先構(gòu)建完整的決策樹彤敛,自下向上進(jìn)行查找与帆,如果合并葉子節(jié)點(diǎn)后的精度相比合并前有提升了赌,那么進(jìn)行剪枝墨榄,將葉子節(jié)點(diǎn)的樣本進(jìn)行合并,并刪除葉子節(jié)點(diǎn)


    image.png
  1. 連續(xù)值處理
    對(duì)于連續(xù)型特征勿她,假設(shè)有n個(gè)樣本的特征x取值為{x1,x2,...xn}袄秩,那么將x1,x2,...xn從小到大排序,取兩兩值的中點(diǎn)作為分割點(diǎn)逢并,依次遍歷每個(gè)分割點(diǎn)并計(jì)算信息增益(率)或基尼系數(shù)之剧,選擇對(duì)應(yīng)的分割點(diǎn)作為最終的分割條件
    注:對(duì)于連續(xù)型特征,特征選擇后是可以繼續(xù)作為后續(xù)的節(jié)點(diǎn)的分裂條件

  2. 缺失值處理
    根據(jù)是否缺失給樣本賦予不同的權(quán)重砍聊,無缺失是1背稼,缺失是0。當(dāng)計(jì)算信息增益時(shí)玻蝌,只考慮非缺失的樣本蟹肘,將最終結(jié)果乘以(1-缺失率)作為修正后的增益率


    image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市俯树,隨后出現(xiàn)的幾起案子帘腹,更是在濱河造成了極大的恐慌,老刑警劉巖许饿,帶你破解...
    沈念sama閱讀 216,692評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件阳欲,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)球化,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門秽晚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人筒愚,你說我怎么就攤上這事爆惧。” “怎么了锨能?”我有些...
    開封第一講書人閱讀 162,995評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵扯再,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我址遇,道長(zhǎng)熄阻,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,223評(píng)論 1 292
  • 正文 為了忘掉前任倔约,我火速辦了婚禮秃殉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘浸剩。我一直安慰自己钾军,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,245評(píng)論 6 388
  • 文/花漫 我一把揭開白布绢要。 她就那樣靜靜地躺著吏恭,像睡著了一般。 火紅的嫁衣襯著肌膚如雪重罪。 梳的紋絲不亂的頭發(fā)上樱哼,一...
    開封第一講書人閱讀 51,208評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音剿配,去河邊找鬼搅幅。 笑死,一個(gè)胖子當(dāng)著我的面吹牛呼胚,可吹牛的內(nèi)容都是我干的茄唐。 我是一名探鬼主播,決...
    沈念sama閱讀 40,091評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蝇更,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼沪编!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起簿寂,我...
    開封第一講書人閱讀 38,929評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤漾抬,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后常遂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纳令,經(jīng)...
    沈念sama閱讀 45,346評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,570評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了平绩。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片圈匆。...
    茶點(diǎn)故事閱讀 39,739評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖捏雌,靈堂內(nèi)的尸體忽然破棺而出跃赚,到底是詐尸還是另有隱情,我是刑警寧澤性湿,帶...
    沈念sama閱讀 35,437評(píng)論 5 344
  • 正文 年R本政府宣布纬傲,位于F島的核電站,受9級(jí)特大地震影響肤频,放射性物質(zhì)發(fā)生泄漏叹括。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,037評(píng)論 3 326
  • 文/蒙蒙 一宵荒、第九天 我趴在偏房一處隱蔽的房頂上張望汁雷。 院中可真熱鬧,春花似錦报咳、人聲如沸侠讯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽厢漩。三九已至,卻和暖如春稍走,著一層夾襖步出監(jiān)牢的瞬間袁翁,已是汗流浹背柴底。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評(píng)論 1 269
  • 我被黑心中介騙來泰國打工婿脸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人柄驻。 一個(gè)月前我還...
    沈念sama閱讀 47,760評(píng)論 2 369
  • 正文 我出身青樓狐树,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親鸿脓。 傳聞我的和親對(duì)象是個(gè)殘疾皇子抑钟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,647評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 決策樹理論在決策樹理論中,有這樣一句話野哭,“用較少的東西在塔,照樣可以做很好的事情。越是小的決策樹拨黔,越優(yōu)于大的決策樹”蛔溃。...
    制杖灶灶閱讀 5,850評(píng)論 0 25
  • 決策樹基礎(chǔ)概念 決策樹分為分類樹和回歸樹兩種,分類樹對(duì)離散變量做決策樹,回歸樹對(duì)連續(xù)變量做決策樹贺待。每個(gè)內(nèi)部節(jié)點(diǎn)(非...
    我只要喝點(diǎn)果粒橙閱讀 2,580評(píng)論 0 0
  • 一徽曲、決策樹初步認(rèn)識(shí) 葉子節(jié)點(diǎn):存放決策結(jié)果 非葉子節(jié)點(diǎn):特征屬性,及其對(duì)應(yīng)輸出麸塞,按照輸出選擇分支 決策過程:從根節(jié)...
    一杭o(jì)neline閱讀 1,021評(píng)論 0 2
  • 一秃臣、決策樹應(yīng)用體驗(yàn) 分類 ??從上面可以看出,決策樹對(duì)分類具有線性回歸無可比擬的優(yōu)勢(shì), 如果對(duì)未參與訓(xùn)練的數(shù)據(jù)集是...
    楊強(qiáng)AT南京閱讀 1,250評(píng)論 1 3
  • 一哪工、介紹 決策樹(Decision Tree)是一個(gè)樹結(jié)構(gòu)(可以是二叉樹或非二叉樹)奥此,其中每個(gè)非葉節(jié)點(diǎn)表示一個(gè)屬性...
    黑羊的皇冠閱讀 2,479評(píng)論 0 4