02 集成學(xué)習(xí) - 特征重要度米罚、Extra Tree、TRTE丈探、IForest录择、隨機(jī)森林總結(jié)

01 集成學(xué)習(xí) - 概述、Bagging - 隨機(jī)森林、袋外錯(cuò)誤率

五隘竭、特征重要度

作為單個(gè)的決策樹(shù)模型塘秦,在模型建立時(shí)實(shí)際上是尋找到某個(gè)特征合適的分割點(diǎn)。這個(gè)信息可以作為衡量所有特征重要性的一個(gè)指標(biāo)动看。

基本思路如下:
如果一個(gè)特征被選為分割點(diǎn)的次數(shù)越多尊剔,那么這個(gè)特征的重要性就越強(qiáng)。這個(gè)理念可以被推廣到集成算法中菱皆,只要將每棵樹(shù)的特征重要性進(jìn)行簡(jiǎn)單的平均即可须误。


分別根據(jù)特征1和特征4進(jìn)行分割,顯然x1出現(xiàn)的次數(shù)最多仇轻,這里不考慮先分割和后分割的情況京痢,只考慮每次分割屬性出現(xiàn)的次數(shù)。

計(jì)算得:
x1的特征重要度:出現(xiàn)在2棵樹(shù)上篷店,兩棵樹(shù)一共分裂了6次历造,x1出現(xiàn)了3次。
x1特征重要度 = 3/6 = 1/2
x2的特征重要度= 4/6 = 2/3
x3的特征重要度= 3/6 = 1/2
x4的特征重要度: 出現(xiàn)在1棵樹(shù)上船庇,一個(gè)樹(shù)分裂了3次吭产,x4出現(xiàn)了1次。
x4的特征重要度= 1/3

根據(jù)特征重要度進(jìn)行特征選擇鸭轮。


六臣淤、隨機(jī)森林RF推廣算法

隨機(jī)森林推廣算法的作用不是在于做預(yù)測(cè)。

RF推廣算法在實(shí)際應(yīng)用中占有比較好的特性窃爷,應(yīng)用比較廣泛邑蒋,主要應(yīng)用在:分類(lèi)、回歸按厘、特征轉(zhuǎn)換医吊、異常點(diǎn)檢測(cè)等。常見(jiàn)的RF變種算法如下:Extra Tree逮京、Totally Random Tree Embedding(TRTE)卿堂、Isolation Forest

1、Extra Tree

Extra Tree是隨機(jī)森林(RF)的一個(gè)變種懒棉,原理基本和隨機(jī)森林一樣草描,區(qū)別如下:
1、RF會(huì)隨機(jī)采樣來(lái)作為子決策樹(shù)的訓(xùn)練集策严,而Extra Tree每個(gè)子決策樹(shù)采用原始數(shù)據(jù)集訓(xùn)練穗慕。
2、RF在選擇劃分特征點(diǎn)的時(shí)候會(huì)和傳統(tǒng)決策樹(shù)一樣妻导,會(huì)基于信息增益逛绵、信息增益率怀各、基尼系數(shù)、均方差等原則來(lái)選擇最優(yōu)的特征值术浪。Extra Tree則是隨機(jī)選擇一個(gè)特征值來(lái)劃分決策樹(shù)瓢对。

由于Extra Tree是隨機(jī)選擇特征點(diǎn)進(jìn)行劃分,所以最后得到的決策樹(shù)規(guī)模會(huì)大于RF生成的決策樹(shù)添吗,Extra Tree決策樹(shù)的方差會(huì)減少沥曹,泛化能力比RF更強(qiáng)。

2碟联、Totally Random Tree Embedding(TRTE)

TRTE 是一種非監(jiān)督的數(shù)據(jù)轉(zhuǎn)化方式妓美。將低維的數(shù)據(jù)集映射到高維,從而讓高維的數(shù)據(jù)更好得用于分類(lèi)回歸模型鲤孵。

TRTE的算法的轉(zhuǎn)化過(guò)程類(lèi)似于RF算法壶栋,建立T個(gè)決策樹(shù)來(lái)擬合數(shù)據(jù)。當(dāng)決策樹(shù)構(gòu)建完成之后普监,數(shù)據(jù)集里的每個(gè)數(shù)據(jù)在T個(gè)決策樹(shù)中葉子節(jié)點(diǎn)的位置就固定下來(lái)了贵试,將位置信息轉(zhuǎn)換為向量即完成了算法的轉(zhuǎn)換。

有3棵決策樹(shù)凯正,每棵樹(shù)都有五個(gè)葉子節(jié)點(diǎn): □-□-□-□-□
一個(gè)數(shù)據(jù) x
劃分落入樹(shù)1的第三個(gè)子節(jié)點(diǎn):□-□-■-□-□ => 00100
劃分落入樹(shù)2的第一個(gè)子節(jié)點(diǎn):■-□-□-□-□ => 10000
劃分落入樹(shù)3的第五個(gè)子節(jié)點(diǎn):□-□-□-□-■ => 00001
數(shù)據(jù)x的特征映射碼:(0,0,1,0,0, 1,0,0,0,0, 0,0,0,0,1)

樣本根據(jù)TRTE進(jìn)行轉(zhuǎn)化特征毙玻,最后可能得到更高維的數(shù)據(jù),也可能得到更低維的數(shù)據(jù)廊散,如詞袋法中的特征有2000個(gè)桑滩,做完TRTE后只剩下幾百個(gè)。

經(jīng)過(guò)TRTE轉(zhuǎn)化后的編碼可以用于無(wú)監(jiān)督的分類(lèi)操作允睹,將相似的特征碼聚類(lèi)到一起运准,最后完成分類(lèi)的操作。

3缭受、Isolation Forest (IForest)

IForest是一種異常點(diǎn)檢測(cè)算法胁澳,使用類(lèi)似RF的方式來(lái)檢測(cè)異常點(diǎn)。
IForest和RF的區(qū)別在于:
1米者、在隨機(jī)采樣的過(guò)程中韭畸,一般只需要少量的數(shù)據(jù)。
2塘雳、在進(jìn)行決策樹(shù)的構(gòu)建過(guò)程中陆盘,IForest會(huì)隨機(jī)選擇一個(gè)劃分特征,并對(duì)劃分特征隨機(jī)選擇一個(gè)劃分閾值败明。
3、IForest的劃分深度是比較小的太防,即max_depth較小妻顶。
區(qū)分原因:目的是異常點(diǎn)檢測(cè)酸员,所以只要能夠區(qū)分出異常即可,不需要大量的數(shù)據(jù)讳嘱;此外在異常點(diǎn)檢測(cè)過(guò)程中幔嗦,一般也不需要太大規(guī)模的決策樹(shù)。

下面說(shuō)說(shuō) IForest為什么可以做異常點(diǎn)判斷沥潭。

對(duì)于異常點(diǎn)的判斷:將測(cè)試樣本x擬合到T棵決策樹(shù)上邀泉,計(jì)算每棵樹(shù)上該樣本的葉子節(jié)點(diǎn)的深度ht(x),從而計(jì)算出平均深度h(x)钝鸽;然后就可以使用下列公式計(jì)算樣本點(diǎn)x的異常概率值汇恤,p(x,m)的取值范圍為[0,1],越接近1拔恰,說(shuō)明異常點(diǎn)概率越大因谎。

ζ是歐拉常數(shù),m為樣本個(gè)數(shù)

分析: 歐拉常數(shù) ζ ≈ 0.57721566490153286060651209颜懊。當(dāng)樣本個(gè)數(shù)m確定的時(shí)候财岔,c(m) 是一個(gè)定值。所以影響異常點(diǎn)出現(xiàn)的概率-p(x,m)的值河爹,我們只考慮h(x)的取值即可匠璧。
h(x)即每棵樹(shù)上,該樣本的葉子節(jié)點(diǎn)深度的平均值咸这。h(x)越大說(shuō)明葉子節(jié)點(diǎn)的深度越深夷恍,公式右側(cè) - 2的指數(shù)就越小,則說(shuō)明p(x,m)的值越趨向于0炊苫。
結(jié)論: 葉子節(jié)點(diǎn)的深度越深裁厅,異常點(diǎn)的概率越小。樹(shù)平均深度越淺侨艾,說(shuō)明異常值概率越大执虹。

七、RF隨機(jī)森林總結(jié)

RF的主要優(yōu)點(diǎn):
1唠梨、訓(xùn)練可以并行化袋励,對(duì)于大規(guī)模樣本的訓(xùn)練具有速度的優(yōu)勢(shì)。
2当叭、由于進(jìn)行隨機(jī)選擇決策樹(shù)劃分特征列表茬故,這樣在樣本維度比較高的時(shí)候,仍然具有比較高的訓(xùn)練性能蚁鳖。
3磺芭、可以給出各個(gè)特征值的重要性列表。
4醉箕、由于存在隨機(jī)抽樣钾腺,訓(xùn)練出來(lái)的模型方差小徙垫,泛化能力強(qiáng)。
5放棒、RF實(shí)現(xiàn)簡(jiǎn)單姻报。
6、對(duì)于部分特征的丟失不敏感间螟。

RF的缺點(diǎn):
1吴旋、噪音過(guò)大的特征上,容易過(guò)擬合厢破。
2荣瑟、取值比較多的劃分特征對(duì)RF的決策會(huì)產(chǎn)生更大的影響,從而有可能影響模型的效果溉奕。

03 集成學(xué)習(xí) - Boosting - AdaBoost算法原理

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末褂傀,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子加勤,更是在濱河造成了極大的恐慌仙辟,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,464評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鳄梅,死亡現(xiàn)場(chǎng)離奇詭異叠国,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)戴尸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)粟焊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人孙蒙,你說(shuō)我怎么就攤上這事项棠。” “怎么了挎峦?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,078評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵香追,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我坦胶,道長(zhǎng)透典,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,979評(píng)論 1 299
  • 正文 為了忘掉前任顿苇,我火速辦了婚禮峭咒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘纪岁。我一直安慰自己凑队,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,001評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布幔翰。 她就那樣靜靜地躺著顽决,像睡著了一般短条。 火紅的嫁衣襯著肌膚如雪导匣。 梳的紋絲不亂的頭發(fā)上才菠,一...
    開(kāi)封第一講書(shū)人閱讀 52,584評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音贡定,去河邊找鬼赋访。 笑死,一個(gè)胖子當(dāng)著我的面吹牛缓待,可吹牛的內(nèi)容都是我干的蚓耽。 我是一名探鬼主播,決...
    沈念sama閱讀 41,085評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼旋炒,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼步悠!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起瘫镇,我...
    開(kāi)封第一講書(shū)人閱讀 40,023評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤鼎兽,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后铣除,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體谚咬,經(jīng)...
    沈念sama閱讀 46,555評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,626評(píng)論 3 342
  • 正文 我和宋清朗相戀三年尚粘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了择卦。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,769評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡郎嫁,死狀恐怖秉继,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情泽铛,我是刑警寧澤尚辑,帶...
    沈念sama閱讀 36,439評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站厚宰,受9級(jí)特大地震影響腌巾,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜铲觉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,115評(píng)論 3 335
  • 文/蒙蒙 一澈蝙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧撵幽,春花似錦灯荧、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,601評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)哆窿。三九已至,卻和暖如春厉斟,著一層夾襖步出監(jiān)牢的瞬間挚躯,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,702評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工擦秽, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留码荔,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,191評(píng)論 3 378
  • 正文 我出身青樓感挥,卻偏偏與公主長(zhǎng)得像缩搅,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子触幼,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,781評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • About 個(gè)人同時(shí)在簡(jiǎn)書(shū)和自制個(gè)人博客兩個(gè)地方同時(shí)更新文章硼瓣,有興趣的話可以來(lái)我的博客玩呀,一般而言排版會(huì)好不少置谦。...
    DeamoV閱讀 2,963評(píng)論 0 1
  • 一堂鲤、bagging的原理 從上圖可以看出,bagging的個(gè)體弱學(xué)習(xí)器的訓(xùn)練集是通過(guò)隨機(jī)采樣得到的霉祸。通過(guò)T次的隨機(jī)...
    owolf閱讀 3,555評(píng)論 0 9
  • 假設(shè)你去隨機(jī)問(wèn)很多人一個(gè)很復(fù)雜的問(wèn)題筑累,然后把它們的答案合并起來(lái)。通常情況下你會(huì)發(fā)現(xiàn)這個(gè)合并的答案比一個(gè)專(zhuān)家的答案要...
    城市中迷途小書(shū)童閱讀 2,511評(píng)論 0 1
  • 薦語(yǔ): 在希臘奧林匹亞阿爾菲斯河岸的巖壁上丝蹭,至今還刻著古希臘的一段格言:“如果你想聰明慢宗,跑步吧;如果你想強(qiáng)壯奔穿,跑步...
    明明德撩碼閱讀 564評(píng)論 0 0
  • (storage番外) 傳統(tǒng)RAID RAID: redundant array of independent d...
    stanf1l閱讀 599評(píng)論 0 0