RECAP:
從SVR之后,一直說的aggregation。就是將不同的gt曹步,合成Gt。aggregation的方法不同休讳,分為一人一票(Uniform)讲婚,按照權重(Non-Uniform),以及按照條件(Conditional)俊柔。
如果已知gt筹麸,那么可以用bagging的方式將不同的gt進行聚合。
如果gt不知道雏婶,那么首先要根據(jù)有限的資料D物赶,創(chuàng)造出iid的樣本集,使用bootstrapping尚骄。IID的樣本集块差,如果將不同的gt進行聚合,就使用bagging倔丈;如果對一個樣本進行不同權重的調(diào)整憨闰,每次選擇Ein最小的gt,即AdaBoost需五;如果按照條件鹉动,每次條件不同,gt也不同宏邮。按照不同條件進行聚合泽示,叫Decision Tree缸血。
Decision Tree
類似于樹形結(jié)構(gòu)。那么第一刀切的時候械筛,尤其重要捎泻,即選擇什么特征作為分類的第一刀。
另外埋哟,什么時候終止呢笆豁?即當切的不能再切的時候停止。也就是說赤赊,當葉子(leaf)的Ein=0的時候停止闯狱。
最后,從葉子(leaf)到stump全部聚合起來抛计。就組成了Decision Tree哄孤。
選擇什么特征作為切的第一刀呢?
1. 熵 (entropy)
熵是表示隨機變量不確定性的度量吹截。當full decision tree的時候瘦陈,Ein=0,沒有不確定的饭弓,這時双饥,熵=0
2. 信息增益
信息增益是ID3提出的想法媒抠,在C4.5弟断,提出了信息增益比的概念∨可現(xiàn)在又有了Gini的提法阀趴。
信息增益:
1. 先計算沒有任何條件限制下的熵。
2. 在某種條件下苍匆,熵為
3. 信息增益為:
根據(jù)信息增益準則的特征選擇方法:對訓練集D刘急,計算其每個特征的信息增益,并比較大小浸踩,選擇信息增益最大的特征叔汁。
現(xiàn)在則用CRT的概念。Classification and Regression Tree(C&RT)检碗。C&RT算法有兩個簡單的設定据块,首先,分支的個數(shù)C=2折剃,即二叉樹(binary tree)的數(shù)據(jù)結(jié)構(gòu)另假;然后,每個分支最后的gt?(x)(數(shù)的葉子)是一個常數(shù)怕犁。按照最小化Ein?的目標边篮,對于binary/multiclass classification(0/1 error)問題己莺,看正類和負類哪個更多,gt?(x)取所占比例最多的那一類yn?戈轿;對于regression(squared error)問題凌受,gt?(x)則取所有yn?的平均值
在決策樹中預測中,還會遇到一種問題思杯,就是當某些特征缺失的時候胁艰,沒有辦法進行切割和分支選擇。一種常用的方法就是surrogate branch智蝠,即尋找與該特征相似的替代feature腾么。如何確定是相似的feature呢?做法是在決策樹訓練的時候杈湾,找出與該特征相似的feature解虱,如果替代的feature與原feature切割的方式和結(jié)果是類似的,那么就表明二者是相似的漆撞,就把該替代的feature也存儲下來殴泰。當預測時遇到原feature缺失的情況,就用替代feature進行分支判斷和選擇浮驳。
決策樹停止:
1. 預剪枝:例如第三輪就停止
2. 后剪枝:完成full decision tree之后悍汛,去掉一個葉子,比較Ein至会。