01 集成學(xué)習(xí) - 概述、Bagging - 隨機(jī)森林、袋外錯(cuò)誤率
五隘竭、特征重要度
作為單個(gè)的決策樹(shù)模型塘秦,在模型建立時(shí)實(shí)際上是尋找到某個(gè)特征合適的分割點(diǎn)。這個(gè)信息可以作為衡量所有特征重要性的一個(gè)指標(biāo)动看。
基本思路如下:
如果一個(gè)特征被選為分割點(diǎn)的次數(shù)越多尊剔,那么這個(gè)特征的重要性就越強(qiáng)。這個(gè)理念可以被推廣到集成算法中菱皆,只要將每棵樹(shù)的特征重要性進(jìn)行簡(jiǎn)單的平均即可须误。
分別根據(jù)特征1和特征4進(jìn)行分割,顯然x1出現(xiàn)的次數(shù)最多仇轻,這里不考慮先分割和后分割的情況京痢,只考慮每次分割屬性出現(xiàn)的次數(shù)。
計(jì)算得:
x1的特征重要度:出現(xiàn)在2棵樹(shù)上篷店,兩棵樹(shù)一共分裂了6次历造,x1出現(xiàn)了3次。
x1特征重要度 = 3/6 = 1/2
x2的特征重要度= 4/6 = 2/3
x3的特征重要度= 3/6 = 1/2
x4的特征重要度: 出現(xiàn)在1棵樹(shù)上船庇,一個(gè)樹(shù)分裂了3次吭产,x4出現(xiàn)了1次。
x4的特征重要度= 1/3
根據(jù)特征重要度進(jìn)行特征選擇鸭轮。
六臣淤、隨機(jī)森林RF推廣算法
隨機(jī)森林推廣算法的作用不是在于做預(yù)測(cè)。
RF推廣算法在實(shí)際應(yīng)用中占有比較好的特性窃爷,應(yīng)用比較廣泛邑蒋,主要應(yīng)用在:分類(lèi)、回歸按厘、特征轉(zhuǎn)換医吊、異常點(diǎn)檢測(cè)等。常見(jiàn)的RF變種算法如下:Extra Tree逮京、Totally Random Tree Embedding(TRTE)卿堂、Isolation Forest
1、Extra Tree
Extra Tree是隨機(jī)森林(RF)的一個(gè)變種懒棉,原理基本和隨機(jī)森林一樣草描,區(qū)別如下:
1、RF會(huì)隨機(jī)采樣來(lái)作為子決策樹(shù)的訓(xùn)練集策严,而Extra Tree每個(gè)子決策樹(shù)采用原始數(shù)據(jù)集訓(xùn)練穗慕。
2、RF在選擇劃分特征點(diǎn)的時(shí)候會(huì)和傳統(tǒng)決策樹(shù)一樣妻导,會(huì)基于信息增益逛绵、信息增益率怀各、基尼系數(shù)、均方差等原則來(lái)選擇最優(yōu)的特征值术浪。Extra Tree則是隨機(jī)選擇一個(gè)特征值來(lái)劃分決策樹(shù)瓢对。
由于Extra Tree是隨機(jī)選擇特征點(diǎn)進(jìn)行劃分,所以最后得到的決策樹(shù)規(guī)模會(huì)大于RF生成的決策樹(shù)添吗,Extra Tree決策樹(shù)的方差會(huì)減少沥曹,泛化能力比RF更強(qiáng)。
2碟联、Totally Random Tree Embedding(TRTE)
TRTE 是一種非監(jiān)督的數(shù)據(jù)轉(zhuǎn)化方式妓美。將低維的數(shù)據(jù)集映射到高維,從而讓高維的數(shù)據(jù)更好得用于分類(lèi)回歸模型鲤孵。
TRTE的算法的轉(zhuǎn)化過(guò)程類(lèi)似于RF算法壶栋,建立T個(gè)決策樹(shù)來(lái)擬合數(shù)據(jù)。當(dāng)決策樹(shù)構(gòu)建完成之后普监,數(shù)據(jù)集里的每個(gè)數(shù)據(jù)在T個(gè)決策樹(shù)中葉子節(jié)點(diǎn)的位置就固定下來(lái)了贵试,將位置信息轉(zhuǎn)換為向量即完成了算法的轉(zhuǎn)換。
有3棵決策樹(shù)凯正,每棵樹(shù)都有五個(gè)葉子節(jié)點(diǎn): □-□-□-□-□
一個(gè)數(shù)據(jù) x
劃分落入樹(shù)1的第三個(gè)子節(jié)點(diǎn):□-□-■-□-□ => 00100
劃分落入樹(shù)2的第一個(gè)子節(jié)點(diǎn):■-□-□-□-□ => 10000
劃分落入樹(shù)3的第五個(gè)子節(jié)點(diǎn):□-□-□-□-■ => 00001
數(shù)據(jù)x的特征映射碼:(0,0,1,0,0, 1,0,0,0,0, 0,0,0,0,1)
樣本根據(jù)TRTE進(jìn)行轉(zhuǎn)化特征毙玻,最后可能得到更高維的數(shù)據(jù),也可能得到更低維的數(shù)據(jù)廊散,如詞袋法中的特征有2000個(gè)桑滩,做完TRTE后只剩下幾百個(gè)。
經(jīng)過(guò)TRTE轉(zhuǎn)化后的編碼可以用于無(wú)監(jiān)督的分類(lèi)操作允睹,將相似的特征碼聚類(lèi)到一起运准,最后完成分類(lèi)的操作。
3缭受、Isolation Forest (IForest)
IForest是一種異常點(diǎn)檢測(cè)算法胁澳,使用類(lèi)似RF的方式來(lái)檢測(cè)異常點(diǎn)。
IForest和RF的區(qū)別在于:
1米者、在隨機(jī)采樣的過(guò)程中韭畸,一般只需要少量的數(shù)據(jù)。
2塘雳、在進(jìn)行決策樹(shù)的構(gòu)建過(guò)程中陆盘,IForest會(huì)隨機(jī)選擇一個(gè)劃分特征,并對(duì)劃分特征隨機(jī)選擇一個(gè)劃分閾值败明。
3、IForest的劃分深度是比較小的太防,即max_depth較小妻顶。
區(qū)分原因:目的是異常點(diǎn)檢測(cè)酸员,所以只要能夠區(qū)分出異常即可,不需要大量的數(shù)據(jù)讳嘱;此外在異常點(diǎn)檢測(cè)過(guò)程中幔嗦,一般也不需要太大規(guī)模的決策樹(shù)。
下面說(shuō)說(shuō) IForest為什么可以做異常點(diǎn)判斷沥潭。
對(duì)于異常點(diǎn)的判斷:將測(cè)試樣本x擬合到T棵決策樹(shù)上邀泉,計(jì)算每棵樹(shù)上該樣本的葉子節(jié)點(diǎn)的深度ht(x),從而計(jì)算出平均深度h(x)钝鸽;然后就可以使用下列公式計(jì)算樣本點(diǎn)x的異常概率值汇恤,p(x,m)的取值范圍為[0,1],越接近1拔恰,說(shuō)明異常點(diǎn)概率越大因谎。
分析: 歐拉常數(shù) ζ ≈ 0.57721566490153286060651209颜懊。當(dāng)樣本個(gè)數(shù)m確定的時(shí)候财岔,c(m) 是一個(gè)定值。所以影響異常點(diǎn)出現(xiàn)的概率-p(x,m)的值河爹,我們只考慮h(x)的取值即可匠璧。
h(x)即每棵樹(shù)上,該樣本的葉子節(jié)點(diǎn)深度的平均值咸这。h(x)越大說(shuō)明葉子節(jié)點(diǎn)的深度越深夷恍,公式右側(cè) - 2的指數(shù)就越小,則說(shuō)明p(x,m)的值越趨向于0炊苫。
結(jié)論: 葉子節(jié)點(diǎn)的深度越深裁厅,異常點(diǎn)的概率越小。樹(shù)平均深度越淺侨艾,說(shuō)明異常值概率越大执虹。
七、RF隨機(jī)森林總結(jié)
RF的主要優(yōu)點(diǎn):
1唠梨、訓(xùn)練可以并行化袋励,對(duì)于大規(guī)模樣本的訓(xùn)練具有速度的優(yōu)勢(shì)。
2当叭、由于進(jìn)行隨機(jī)選擇決策樹(shù)劃分特征列表茬故,這樣在樣本維度比較高的時(shí)候,仍然具有比較高的訓(xùn)練性能蚁鳖。
3磺芭、可以給出各個(gè)特征值的重要性列表。
4醉箕、由于存在隨機(jī)抽樣钾腺,訓(xùn)練出來(lái)的模型方差小徙垫,泛化能力強(qiáng)。
5放棒、RF實(shí)現(xiàn)簡(jiǎn)單姻报。
6、對(duì)于部分特征的丟失不敏感间螟。
RF的缺點(diǎn):
1吴旋、噪音過(guò)大的特征上,容易過(guò)擬合厢破。
2荣瑟、取值比較多的劃分特征對(duì)RF的決策會(huì)產(chǎn)生更大的影響,從而有可能影響模型的效果溉奕。