機器學習-決策樹-2020-02-17

RECAP:

從SVR之后,一直說的aggregation。就是將不同的gt曹步,合成Gt。aggregation的方法不同休讳,分為一人一票(Uniform)讲婚,按照權重(Non-Uniform),以及按照條件(Conditional)俊柔。

如果已知gt筹麸,那么可以用bagging的方式將不同的gt進行聚合。

如果gt不知道雏婶,那么首先要根據(jù)有限的資料D物赶,創(chuàng)造出iid的樣本集,使用bootstrapping尚骄。IID的樣本集块差,如果將不同的gt進行聚合,就使用bagging倔丈;如果對一個樣本進行不同權重的調(diào)整憨闰,每次選擇Ein最小的gt,即AdaBoost需五;如果按照條件鹉动,每次條件不同,gt也不同宏邮。按照不同條件進行聚合泽示,叫Decision Tree缸血。

Decision Tree

類似于樹形結(jié)構(gòu)。那么第一刀切的時候械筛,尤其重要捎泻,即選擇什么特征作為分類的第一刀。

另外埋哟,什么時候終止呢笆豁?即當切的不能再切的時候停止。也就是說赤赊,當葉子(leaf)的Ein=0的時候停止闯狱。

最后,從葉子(leaf)到stump全部聚合起來抛计。就組成了Decision Tree哄孤。

選擇什么特征作為切的第一刀呢?

1. 熵 (entropy)

熵是表示隨機變量不確定性的度量吹截。當full decision tree的時候瘦陈,Ein=0,沒有不確定的饭弓,這時双饥,熵=0

2. 信息增益

信息增益是ID3提出的想法媒抠,在C4.5弟断,提出了信息增益比的概念∨可現(xiàn)在又有了Gini的提法阀趴。

信息增益:

1. 先計算沒有任何條件限制下的熵。

2. 在某種條件下苍匆,熵為

3. 信息增益為:

根據(jù)信息增益準則的特征選擇方法:對訓練集D刘急,計算其每個特征的信息增益,并比較大小浸踩,選擇信息增益最大的特征叔汁。

H(D|A1)=-\sum(\frac{A_i}{N} )\sum pi*log  pi=-\frac{5}{15}  (\frac{3}{5}log_2\frac{3}{5} +\frac{2}{5}log_2\frac{2}{5})-\frac{5}{15}  (\frac{3}{5}log_2\frac{3}{5} +\frac{2}{5}log_2\frac{2}{5})-\frac{5}{15}  (\frac{1}{5}log_2\frac{1}{5} +\frac{4}{5}log_2\frac{4}{5})=0.8878

H(D|A2)=-\sum(\frac{A_i}{N} )\sum pi*log  pi=-\frac{10}{15}  (\frac{3}{5}log_2\frac{3}{5} +\frac{2}{5}log_2\frac{2}{5})=0.3238

H(D|A3)=-\sum(\frac{A_i}{N} )\sum pi*log  pi=-\frac{9}{15}  (\frac{3}{9}log_2\frac{3}{9} +\frac{6}{9}log_2\frac{6}{9})=0.5506

H(D|A4)=-\sum(\frac{A_i}{N} )\sum pi*log  pi=-\frac{5}{15}  (\frac{1}{5}log_2\frac{1}{5} +\frac{4}{5}log_2\frac{4}{5})-\frac{6}{15}  (\frac{1}{6}log_2\frac{1}{6} +\frac{5}{6}log_2\frac{5}{6})=0.608

現(xiàn)在則用CRT的概念。Classification and Regression Tree(C&RT)检碗。C&RT算法有兩個簡單的設定据块,首先,分支的個數(shù)C=2折剃,即二叉樹(binary tree)的數(shù)據(jù)結(jié)構(gòu)另假;然后,每個分支最后的gt?(x)(數(shù)的葉子)是一個常數(shù)怕犁。按照最小化Ein?的目標边篮,對于binary/multiclass classification(0/1 error)問題己莺,看正類和負類哪個更多,gt?(x)取所占比例最多的那一類yn?戈轿;對于regression(squared error)問題凌受,gt?(x)則取所有yn?的平均值

在決策樹中預測中,還會遇到一種問題思杯,就是當某些特征缺失的時候胁艰,沒有辦法進行切割和分支選擇。一種常用的方法就是surrogate branch智蝠,即尋找與該特征相似的替代feature腾么。如何確定是相似的feature呢?做法是在決策樹訓練的時候杈湾,找出與該特征相似的feature解虱,如果替代的feature與原feature切割的方式和結(jié)果是類似的,那么就表明二者是相似的漆撞,就把該替代的feature也存儲下來殴泰。當預測時遇到原feature缺失的情況,就用替代feature進行分支判斷和選擇浮驳。

決策樹停止:

1. 預剪枝:例如第三輪就停止

2. 后剪枝:完成full decision tree之后悍汛,去掉一個葉子,比較Ein至会。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末离咐,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子奉件,更是在濱河造成了極大的恐慌宵蛀,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,640評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件县貌,死亡現(xiàn)場離奇詭異,居然都是意外死亡煤痕,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,254評論 3 395
  • 文/潘曉璐 我一進店門摆碉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人馆铁,你說我怎么就攤上這事〔壕蓿” “怎么了?”我有些...
    開封第一講書人閱讀 165,011評論 0 355
  • 文/不壞的土叔 我叫張陵辣垒,是天一觀的道長。 經(jīng)常有香客問我脱衙,道長,這世上最難降的妖魔是什么捐韩? 我笑而不...
    開封第一講書人閱讀 58,755評論 1 294
  • 正文 為了忘掉前任荤胁,我火速辦了婚禮,結(jié)果婚禮上仅政,老公的妹妹穿的比我還像新娘。我一直安慰自己圆丹,他們只是感情好躯喇,可當我...
    茶點故事閱讀 67,774評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著秸讹,像睡著了一般檀咙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蔑匣,一...
    開封第一講書人閱讀 51,610評論 1 305
  • 那天,我揣著相機與錄音棕诵,去河邊找鬼。 笑死价脾,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的侨把。 我是一名探鬼主播,決...
    沈念sama閱讀 40,352評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼秋柄,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了省店?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,257評論 0 276
  • 序言:老撾萬榮一對情侶失蹤懦傍,失蹤者是張志新(化名)和其女友劉穎芦劣,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體源梭,經(jīng)...
    沈念sama閱讀 45,717評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡稍味,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,894評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了烛愧。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,021評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡怜姿,死狀恐怖疼燥,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情醉者,我是刑警寧澤,帶...
    沈念sama閱讀 35,735評論 5 346
  • 正文 年R本政府宣布立磁,位于F島的核電站剥槐,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏粒竖。R本人自食惡果不足惜绍刮,卻給世界環(huán)境...
    茶點故事閱讀 41,354評論 3 330
  • 文/蒙蒙 一孩革、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧膝蜈,春花似錦、人聲如沸饱搏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,936評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽券坞。三九已至,卻和暖如春恨锚,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背课舍。 一陣腳步聲響...
    開封第一講書人閱讀 33,054評論 1 270
  • 我被黑心中介騙來泰國打工他挎, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人办桨。 一個月前我還...
    沈念sama閱讀 48,224評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像贸街,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,974評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 一脓鹃、介紹 決策樹(Decision Tree)是一個樹結(jié)構(gòu)(可以是二叉樹或非二叉樹),其中每個非葉節(jié)點表示一個屬性...
    黑羊的皇冠閱讀 2,479評論 0 4
  • 概念 決策樹(Decision Tree)分為兩大類龄章,回歸樹(Regression Decision Tree)和...
    HRain閱讀 5,496評論 1 30
  • 決策樹理論在決策樹理論中,有這樣一句話岗憋,“用較少的東西,照樣可以做很好的事情仔戈。越是小的決策樹,越優(yōu)于大的決策樹”监徘。...
    制杖灶灶閱讀 5,851評論 0 25
  • 一. 決策樹(decision tree):是一種基本的分類與回歸方法吧碾,此處主要討論分類的決策樹。在分類問題中滤港,表...
    YCzhao閱讀 2,136評論 0 2
  • 運行平臺:Windows Python版本:Python3.x IDE:pycharm 一、決策樹 決策樹是什么溅漾?...
    ghostdogss閱讀 1,884評論 0 1