8.4 基于隨機(jī)森林的決策分類
隨機(jī)森林是一種一個(gè)包含多個(gè)決策樹的分類器,是用隨機(jī)的方法建立一個(gè)森林矛紫,森林里面由很多的決策樹組成牌里,且這些決策樹之間沒有連續(xù)。隨機(jī)森林的算法是由Leo Breiman和Adele Cutle發(fā)展推論出的喳篇。
隨機(jī)森林就是通過集成學(xué)習(xí)的思路將多棵樹集成的一種算法态辛,它的基本單元是決策樹,而它的本質(zhì)是屬于機(jī)器學(xué)習(xí)的一大分支——集成學(xué)習(xí)奏黑。
8.4.1 隨機(jī)森林的特點(diǎn)
1熟史、當(dāng)分類資料集合具有很多資料時(shí),可以產(chǎn)生高準(zhǔn)確度的分類器以故。
2、當(dāng)分類資料集為不平衡的資料集時(shí),隨機(jī)森林可以平衡誤差踪区。
3吊骤、隨機(jī)森林可以計(jì)算出各例中的親近度,在數(shù)據(jù)挖掘白粉、偵測(cè)偏離者及將資料視覺化方面有著重要的作用鸭巴。
4、在大數(shù)據(jù)集上表現(xiàn)良好鹃祖。
5、能夠評(píng)估在分類問題上的各個(gè)特征的重要程度校读。
8.4.2 隨機(jī)森林的構(gòu)造方法
隨機(jī)樹建立由兩部分組成:隨機(jī)采樣和完全分裂祖能。
每棵樹的構(gòu)造方法:
1、用N表示訓(xùn)練例子的個(gè)數(shù)端考,M表示變量的數(shù)目揭厚。
2、用m來表示當(dāng)在一個(gè)結(jié)點(diǎn)上做決定時(shí)會(huì)用到的變量的數(shù)目筛圆。
3裂明、從N個(gè)訓(xùn)練案例中采用可重復(fù)取樣的方式,取樣N次太援,形成一組訓(xùn)練集闽晦,并使用這棵樹來對(duì)剩余變量預(yù)測(cè)其類別,并對(duì)誤差進(jìn)行分析提岔。
4仙蛉、對(duì)于每個(gè)結(jié)點(diǎn),隨機(jī)選擇m個(gè)基于此點(diǎn)上的變量碱蒙。根據(jù)這m個(gè)變量荠瘪,計(jì)算器最佳的分割方式夯巷。
5、對(duì)于森林中的每棵樹都用不采用剪枝技術(shù)哀墓,每棵樹都能完整生長(zhǎng)趁餐。