0. 決策樹的不足
在機(jī)器學(xué)習(xí)方法中,任何一次實(shí)現(xiàn)都是基于一個(gè)特定的數(shù)據(jù)集乏德,而這個(gè)數(shù)據(jù)集可能只是訓(xùn)練集中的一次隨機(jī)抽樣撤奸,所以才有了所謂的10折交叉驗(yàn)證等方法。在不使用該方法的情況下喊括,很多機(jī)器學(xué)習(xí)算法受到了這種隨機(jī)性的影響胧瓜,因此,得到的模型也具有一定的偶然性郑什。而隨機(jī)森林通過與該方式結(jié)合府喳,在一定程度提高了準(zhǔn)確性和推廣能力。
1. 自助法
2. 隨機(jī)森林
2.1 算法流程
- 對樣本數(shù)據(jù)進(jìn)行自舉法重采樣蘑拯,得到多個(gè)樣本集钝满,即:每次從原來的
個(gè)訓(xùn)練樣本中又放回的隨機(jī)抽取
個(gè)樣本(包括可能重復(fù)的樣本)。
- 利用重采樣樣本集作為訓(xùn)練樣本構(gòu)造一個(gè)決策樹申窘,在構(gòu)造決策樹的過程中弯蚜,每次從所有候選特征中隨機(jī)選擇
個(gè)特征(不一定要考慮所有的特征,這是與普通決策樹的區(qū)別所在)剃法,作為當(dāng)前節(jié)點(diǎn)下決策的備選特征碎捺,從該特征中進(jìn)行劃分。
- 重復(fù)步驟1,,2贷洲,得到一定的數(shù)量的決策樹后收厨,通過一種方法對這些樹的輸出進(jìn)行投票,得到票數(shù)最多的類作為最終的輸出結(jié)果优构。
2.2 模型評估與參數(shù)選擇
在第一節(jié)中提到帽氓,自助法大概有的數(shù)據(jù)無法被用于訓(xùn)練,于是俩块,我們可通過包外估計(jì)對算流程步驟2中的
值進(jìn)行選擇黎休,確定最佳的
值。
3. 缺失數(shù)據(jù)
一般來說玉凯,缺失的特征可能會(huì)出現(xiàn)在兩種情況下:
- 在訓(xùn)練集中有部分?jǐn)?shù)據(jù)的特征值缺失势腮。
- 在待分類的樣本中,有部分?jǐn)?shù)據(jù)的特征值缺失漫仆。
3.1 訓(xùn)練數(shù)據(jù)特征缺失
1. 根據(jù)完整樣本填充數(shù)據(jù)
- 離散值:選取該特征中所占比例較大的特征數(shù)據(jù)捎拯。
- 連續(xù)值:取該特征的中位數(shù)或是均值。
在這里插入圖片描述
在上圖中盲厌,第四條數(shù)據(jù)的Blocked Arteries和Weight特征缺失署照。根據(jù)前三條數(shù)據(jù)的信息祸泪,在特征Blocked Arteries中No最多,Weight中位數(shù)為180建芙,因此没隘,填補(bǔ)數(shù)據(jù)為:
在這里插入圖片描述
2. 構(gòu)造隨機(jī)森林,并計(jì)算所有數(shù)據(jù)在隨機(jī)森林模型上的輸出結(jié)果禁荸,構(gòu)造鄰近矩陣(proximity)記錄每條數(shù)據(jù)之間的相似程度右蒲。[圖片上傳失敗...(image-8b7e94-1569722308083)]
由于第三條數(shù)據(jù)和第四條數(shù)據(jù)結(jié)束與同一葉子節(jié)點(diǎn),于是構(gòu)造的鄰近矩陣為:
[圖片上傳失敗...(image-c1d711-1569722308083)]自助法
同樣的赶熟,對于第二個(gè)決策樹瑰妄,假設(shè)有:
[圖片上傳失敗...(image-9b562b-1569722308083)]
于是更新矩陣為:
[圖片上傳失敗...(image-38150e-1569722308083)]
依次類推:
假設(shè)經(jīng)過個(gè)決策樹后,鄰近矩陣的結(jié)果為:
[圖片上傳失敗...(image-7b05f5-1569722308083)]
相似矩陣中每個(gè)元素均除以決策樹個(gè)數(shù)后映砖,結(jié)果如下:
[圖片上傳失敗...(image-22284-1569722308083)]
3. 計(jì)算每個(gè)特征值的權(quán)重
特征值的權(quán)重計(jì)算公式為:
在公式(3.1)中间坐,代表第
個(gè)特征的第
個(gè)特征值,
代表第
個(gè)特征值在完整數(shù)據(jù)中所占的比例邑退,
代表第
個(gè)特征的近似程度竹宋。
舉個(gè)栗子:在特征Blocked Arteries中,有yes和no兩個(gè)特征值瓜饥,其中:
對于yes來說:
對于no來說:
所以:逝撬,,因此乓土,為no的可能性更大些宪潮。
同樣的,對于Weight有:
最后的插補(bǔ)數(shù)據(jù)結(jié)果如下:
4. 重復(fù)步驟1~3趣苏,直到所有數(shù)據(jù)不再變化為止狡相。
3.2 測試數(shù)據(jù)缺失
[圖片上傳失敗...(image-e4172e-1569722308083)]
1. 假定標(biāo)簽值的取值
2. 假定特征值的取值
3.在模型中運(yùn)行該數(shù)據(jù),統(tǒng)計(jì)結(jié)果
在決策樹中食磕,輸出結(jié)果即可確定目標(biāo)值的缺失特征值以及標(biāo)簽值尽棕。
4. 參考文獻(xiàn)
- 《西瓜書》
- 《模式識(shí)別(第三版)》