機器學習筆記E5--決策樹ID3、C4.5與CART

  • 決策樹思想
  • 特征選擇
    • 信息增益與ID3
    • 信息增益率與C4.5
    • 基尼指數(shù)與CART
    • ID3倦畅、C4.5與CART的對比
  • 決策樹剪枝
  • 對連續(xù)值的處理
  • 對缺失值的處理
  • 多變量決策樹

兩人去軒轅臺路上遇雨,郭靖道:那么咱們快跑。黃蓉搖了搖頭:靖哥哥肖卧,前面也下大雨,跑過去還不是一般的淋濕掸鹅?郭靖笑道:正是塞帐。黃蓉心中卻忽然想起了華箏之事:“前途既已注定了是憂患傷心,不論怎生走法巍沙,終究避不了葵姥、躲不開,便如長嶺遇雨一般句携±菩遥”當下兩人便在大雨中緩緩行去。# 1903 <長嶺遇雨>


一、決策樹(Decision Trees)

決策樹學習算法的構造思想很接近于人做決策的行為削咆,通過 if-then-else 的決策規(guī)則來得到結論或是進入下一次決策中牍疏。

舉個例子,例如中午到飯點了拨齐,我需要決定出去吃還是點外賣鳞陨,

  1. 第一個 if 是外面是否下雨了,如果沒下雨瞻惋,(then)那就出去吃厦滤,做出決定,決策結束歼狼。(else)但是如果下雨了掏导,就再看是否有人約,這就是第二次決策羽峰,依然是 if-then-else 趟咆。
  2. 如果有人約,那么出去吃梅屉,決策結束忍啸。沒人約,那就點外賣履植,并且沒有了其他的 if 條件可以影響決策的计雌,同樣的,決策結束玫霎。
分類決策樹由有向邊和結點組成(別看了凿滤,沒人約你的)

每一次的做決策的結果都是得到結論,或是導出進一步決策的問題庶近,其考慮范圍是在上一次決策結果的限定范圍之內翁脆,例如在 “是否下雨 --> 下雨” 之后再判斷 “是否有約--> ?”鼻种,則只是在考慮下雨時是否有約的情況反番。

決策樹學習算法的目的就是創(chuàng)建一種模型,從數(shù)據(jù)特征中依據(jù)特征的重要程度一步步預測目標樣本的值叉钥。

決策樹學習算法通常包括特征選擇罢缸、決策樹生成和剪枝三個步驟。

二投队、特征選擇

特征選擇的標準有信息增益枫疆、信息增益率和基尼指數(shù), 特征選擇決定用哪個特征劃分特征空間。在介紹信息增益之前敷鸦,先來看信息熵和不純度息楔。

2.1寝贡、信息熵與不純度

本來是表示分子狀態(tài)混亂程度的一個物理量,也可以作為一個系統(tǒng)的混亂程度的標準值依; 信息 是某種確定性的增加 (你掌握了某種信息圃泡,該事物的行為對你而言就可以預見,例如你上班的地方每正點和半小時有一趟車愿险,那你在家的時候就大致可以估計到下一次車什么時候來颇蜡,你趕不趕的上)

信息熵 可以理解為某種信息不穩(wěn)定程度拯啦,即信息熵越小,事件越穩(wěn)定熔任,也就是發(fā)生概率越大褒链,搞清楚這個事件所需要的信息也就越小

香農用信息熵的概念來描述信源的不確定度。

而這個不穩(wěn)定程度疑苔,可以理解為“ 不純度 ”甫匹,數(shù)據(jù)的純度高,意味著在數(shù)據(jù)集里我們要分類的某一種類型的占比很高惦费,會更容易區(qū)分兵迅。例如在一個集合中,結果A占100%薪贫,B占0%恍箭,這個數(shù)據(jù)集就很純(不純度就很低),我們在進行分類時根本不需要費心瞧省。而在這個集合中扯夭,結果A占50%,B占50%鞍匾,這個數(shù)據(jù)集就很不純(不純度很高)交洗,在我們進行分類時,就很難過了橡淑,無異于隨機猜測构拳。

2.2、信息增益-ID3

在有了不純度的概念以后梁棠,我們只需要將決策分類之后的不純度和分類前的不純度相減置森,就可以得到一種純度提升值的概念。我們稱之為 信息增益 符糊。

這里給出具體的數(shù)學表達暇藏。

假定當前樣本集合 D 中第 k 類樣本所占的比例為 P_k(k=1,2,......,|y|),則 D 的信息熵定義為

Ent(D) = - \sum_{k=1}^{|y|} P_k log_2 P_k . \tag 1

約定濒蒋,當p為0時盐碱,P log_2 P=0把兔。 Ent(D) 的最小值為0,最大值為 log_2 |y|.

假定離散屬性 aV 個可能的取值 \{ a^1,a^2,a^3,...a^V\} ,在上面吃飯的例子中瓮顽,是否下雨 就有兩種可能的取值 \{下雨县好、不下雨\}

如果以 a 屬性來對數(shù)據(jù)集 D 進行劃分暖混,就會產生V 個分支結點缕贡,其中第 v 個分支結點包含了 D 中所有在屬性 a 上取值為 a_v 的樣本,記為 D^v拣播。

什么意思呢晾咪,再拿吃飯來講,我們選取 是否下雨 這個屬性來劃分整個數(shù)據(jù)集(假設我每天中午都有記錄)贮配,就會產生 下雨沒下雨 兩個分支結點谍倦,拿第一個結點 下雨 來說,第一個結點包含了我吃飯這個記錄里面所有下雨的情況泪勒,即吃飯數(shù)據(jù)集中 是否下雨 屬性值為 下雨 的樣本昼蛀。就是將數(shù)據(jù)集根據(jù)屬性的取值分為 v 份,每一份對應一種情況圆存,D^v就對應第 v 種情況叼旋。

解釋這么多,是因為我在第一次看的時候繞進去了沦辙,如果專業(yè)看就不用看我這些亂七八糟的例子夫植,自己理解就行。

利用信息熵的公式(1)油讯,我們可以計算出 D^v 的信息熵偷崩,再考慮到不同分支結點所包含的樣本數(shù)目不同,我們再給 D^v 的信息熵加上各自結點的權重 |D^v|/|D|撞羽。而根結點是包括 D 中所有樣本的阐斜,同樣可計算出根節(jié)點的信息熵,這樣我們就可以得到以屬性 a 對樣本集 D 進行劃分時所獲得的 信息增益(information gain)

Gain(D,a) = Ent(D) - \sum^V_{v=1} \frac{|D^v|}{|D|} Ent(D^v)

著名的 ID3決策樹學習算法 就是以信息增益為準則來劃分屬性诀紊。

這里還是以西瓜為例好了谒出。

免得說我只知道吃

今天在肯德基看了一天書,回來聽朋友吐槽同事和直男邻奠。感覺有這么多不好的東西笤喳,人和事物,但這也正好是世界的可愛之處呀碌宴!#190311


這里是一段計算各個特征信息增益的過程杀狡,大晚上的用Markdown寫公式會頭疼睡不著的,明天白天補充

需要注意的有兩點:
1贰镣、在選擇下一結點的時候為什么不直接使用信息熵呜象,誰小就用誰膳凝,而采用信息增益多做一步減法。
2.1恭陡、在西瓜書中蹬音,選擇根結點時,比較信息增益休玩,這個時候根結點的上一結點(不存在著淆,但體現(xiàn)在計算中就是 Ent(D) )選擇的是全樣本,直接分為 好瓜壞瓜 兩類來直接計算信息熵拴疤。
2.2永部、在按紋理劃分完后,計算 D^1 色澤信息增益那一步怎么都算不對呐矾,不知道哪里有問題


2.3苔埋、信息增益率與C4.5

講了這么多 ID3決策樹學習算法,但是他有問題凫佛,而且很大讲坎。在 E1 里面我們有介紹歸納偏好孕惜,而 ID3 就是很明顯的對可取值數(shù)量較多的特征有偏好

當我們的數(shù)據(jù)里面有一項是身份信息的時候衫画,m個樣本就對應 身份 這個特征有m種可取值毫炉,那么在計算信息增益的時候削罩,p_k 會始終為1弥激,這時候 \log_2^{p_k} 就為 0趾疚,那么無關于其他因素糙麦,這時候的信息增益就是 Ent(D) 冶匹,即此時最大的信息增益(也就是此時選身份特征為結點的信息熵為0)。

很多時候這種偏好是沒有意義的节值,只能造成樹生成的時候浪費內存資源徙硅。

為了解決這一問題,ID3 算法的創(chuàng)造者又對他進行了改進搞疗,采用 信息增益率 來代替信息增益作為特征選擇的準則嗓蘑。

信息增益率 就是用信息增益除一個 IV(a)

Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}

其中

IV(a)=-\sum^V_{v=1} \frac{D^v}{D} \log_2 \frac{D^v}{D}

稱為屬性 a 的固有值(instrinsic value)匿乃,屬性 a 的可取值數(shù)目越多(即 V 越大)桩皿,其固有值 IV(a) 通常越大。這樣就消除了使用信息增益帶來的歸納偏好問題幢炸。

但但但是泄隔,說了每一種算法都會存在歸納偏好,那采用信息增益率的這種算法它的歸納偏好是什么呢宛徊?

它所帶來的結果是消除了信息增益的偏好佛嬉,而指向了相反的一面,信息增益率對可取值數(shù)目較少的特征有所偏好闸天。

到這里你可能覺得暖呕,沒完沒了了(╯‵□′)╯︵┴─┴ 。所以苞氮,C4.5算法 并不是簡單的直接選擇信息增益率最大的候選劃分特征湾揽,而是啟發(fā)式的:先從候選劃分特征中找出信息增益高于平均水平的特征,再從中選擇信息增益率最高的

2.4笼吟、基尼指數(shù)與CART

基尼指數(shù)

后續(xù)內容库物,

三種特征選擇方法的表格比較
決策樹剪枝(預剪枝和后剪枝,生成時自上而下和生成后自下而上)
對連續(xù)值的處理
對缺失值的處理
多變量決策樹

三贷帮、決策樹剪枝

四戚揭、對連續(xù)值的處理

五、對缺失值的處理

六撵枢、多變量決策樹

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末民晒,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子诲侮,更是在濱河造成了極大的恐慌镀虐,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件沟绪,死亡現(xiàn)場離奇詭異刮便,居然都是意外死亡,警方通過查閱死者的電腦和手機绽慈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門恨旱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來辈毯,“玉大人,你說我怎么就攤上這事搜贤∽晃郑” “怎么了?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵仪芒,是天一觀的道長唁影。 經常有香客問我,道長掂名,這世上最難降的妖魔是什么据沈? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮饺蔑,結果婚禮上锌介,老公的妹妹穿的比我還像新娘。我一直安慰自己猾警,他們只是感情好孔祸,可當我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著发皿,像睡著了一般崔慧。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上雳窟,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天尊浪,我揣著相機與錄音匣屡,去河邊找鬼封救。 笑死,一個胖子當著我的面吹牛捣作,可吹牛的內容都是我干的誉结。 我是一名探鬼主播,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼券躁,長吁一口氣:“原來是場噩夢啊……” “哼惩坑!你這毒婦竟也來了?” 一聲冷哼從身側響起也拜,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤以舒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后慢哈,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蔓钟,經...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年卵贱,在試婚紗的時候發(fā)現(xiàn)自己被綠了滥沫。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片侣集。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖兰绣,靈堂內的尸體忽然破棺而出世分,到底是詐尸還是另有隱情,我是刑警寧澤缀辩,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布臭埋,位于F島的核電站,受9級特大地震影響臀玄,放射性物質發(fā)生泄漏斋泄。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一镐牺、第九天 我趴在偏房一處隱蔽的房頂上張望炫掐。 院中可真熱鬧,春花似錦睬涧、人聲如沸募胃。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至仓技,卻和暖如春讶请,著一層夾襖步出監(jiān)牢的瞬間祷嘶,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工夺溢, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留论巍,地道東北人。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓风响,卻偏偏與公主長得像嘉汰,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子状勤,可洞房花燭夜當晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內容

  • 一. 決策樹(decision tree):是一種基本的分類與回歸方法鞋怀,此處主要討論分類的決策樹。在分類問題中持搜,表...
    YCzhao閱讀 2,136評論 0 2
  • 1 前言 在了解樹模型之前葫盼,自然想到樹模型和線性模型残腌,他們有什么區(qū)別呢? 樹形模型是一個一個特征進行處理,之前線性...
    高永峰_GYF閱讀 1,394評論 0 1
  • ??決策樹(Decision Tree)是一種基本的分類與回歸方法废累,其模型呈樹狀結構邓梅,在分類問題中,表示基于特征對...
    殉道者之花火閱讀 4,527評論 2 2
  • 天一冷邑滨,聽見「暖鍋」二字就覺得幸福日缨。 自帶溫度的兩個字,寫出來紙面上便升起滾燙的蒸汽掖看。而我總覺得匣距,暖鍋的范圍,聽上...
    一尾羊閱讀 204評論 0 0
  • 很多事哎壳,發(fā)生了毅待,過了后才后悔,當初怎么沒那樣做归榕,為啥沒有選擇另一種方式尸红。 機會過去了,時間過去了刹泄,就再也找不回來外里。...
    當?shù)?/span>閱讀 134評論 0 0