BaggingClassifier

寫在前面

Ensemble methods 組合模型的方式大致為四個(gè)：/bagging / boosting / voting / stacking 崎脉，此文主要簡單敘述 bagging算法。

算法主要特點(diǎn)

Bagging:

平行合奏：每個(gè)模型獨(dú)立構(gòu)建
旨在減少方差所禀，而不是偏差
適用于高方差低偏差模型（復(fù)雜模型）
基于樹的方法的示例是隨機(jī)森林肴颊，其開發(fā)完全生長的樹（注意空骚，RF修改生長的過程以減少樹之間的相關(guān)性）

接下來進(jìn)入主題

Bagging 算法：

WIKI百科：
Bagging算法（英語：Bootstrap aggregating偷遗，引導(dǎo)聚集算法）粱年，又稱裝袋算法圈盔，是機(jī)器學(xué)習(xí)領(lǐng)域的一種團(tuán)體學(xué)習(xí)算法豹芯。最初由Leo Breiman于1994年提出。Bagging算法可與其他分類驱敲、回歸算法結(jié)合铁蹈，提高其準(zhǔn)確率、穩(wěn)定性的同時(shí)众眨，通過降低結(jié)果的方差握牧，避免過擬合的發(fā)生。

實(shí)現(xiàn)原理：

數(shù)學(xué)基礎(chǔ)

這里寫圖片描述
圖例描述

這里寫圖片描述
實(shí)現(xiàn)描述

在scikit-learn中娩梨，
參數(shù) max_samples 和 max_features 控制子集的大醒匮（在樣本和特征方面）
參數(shù) bootstrap 和 bootstrap_features 控制是否在有或沒有替換的情況下繪制樣本和特征。

Bagging又叫自助聚集狈定，是一種根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣（有放回）的技術(shù)颂龙。
每個(gè)抽樣生成的自助樣本集上习蓬，訓(xùn)練一個(gè)基分類器；對(duì)訓(xùn)練過的分類器進(jìn)行投票措嵌，將測試樣本指派到得票最高的類中躲叼。
每個(gè)自助樣本集都和原數(shù)據(jù)一樣大
有放回抽樣，一些樣本可能在同一訓(xùn)練集中出現(xiàn)多次企巢，一些可能被忽略枫慷。

實(shí)例分析：

實(shí)例環(huán)境

sklearn + anconda + jupyter
實(shí)例步驟
- 數(shù)據(jù)：可以采用 datasets 的數(shù)據(jù)，在此作者使用的是自己整理的股票行情
- 訓(xùn)練浪规、測試數(shù)據(jù)歸一化
- 參數(shù)尋優(yōu)可以使用GridSearch蝙泼，在此不作贅述
參數(shù)描述：
[圖片上傳失敗...(image-2e684a-1518054828425)]
代碼實(shí)現(xiàn)

import time
import pandas as pd
from pandas import Series,DataFrame
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import cross_val_score
from sklearn import preprocessing
from sklearn import datasets
iris = datasets.load_iris()
X,y = iris.data[:,1:3],iris.target

start = time.clock()  # 計(jì)時(shí)
min_max_scaler = preprocessing.MinMaxScaler()

# 讀取訓(xùn)練數(shù)據(jù) 并數(shù)據(jù)規(guī)整化
raw_data  = pd.read_csv('train_data.csv') 
raw_datax = raw_data[:20000]
X1_scaled = min_max_scaler.fit_transform(raw_datax.ix[:,3:7])
y1 = raw_datax['Y1']
y1 = list(y1)

# 讀取測試數(shù)據(jù) 并數(shù)據(jù)規(guī)整化
raw_datat  = pd.read_csv('test_data.csv')
raw_datatx = raw_datat[:10000]
X1t_scaled = min_max_scaler.fit_transform(raw_datatx.ix[:,3:7])
y1t = raw_datatx['Y1']
y1t = list(y1t)

print len(X1_scaled)
print len(X1t_scaled)
end = time.clock()
print '運(yùn)行時(shí)間:',end - start

clf = DecisionTreeClassifier().fit(X1_scaled,y1)
clfb = BaggingClassifier(base_estimator= DecisionTreeClassifier()
                         ,max_samples=0.5,max_features=0.5).fit(X1_scaled,y1)

predict = clf.predict(X1t_scaled)
predictb = clfb.predict(X1t_scaled)

print clf.score(X1t_scaled,y1t)
print clfb.score(X1t_scaled,y1t)

# print Series(predict).value_counts()
# print Series(predictb).value_counts()

[圖片上傳失敗...(image-790f8-1518054828425)]

方法總結(jié)

Bagging通過降低基分類器的方差似舵，改善了泛化誤差
其性能依賴于基分類器的穩(wěn)定性沥匈；如果基分類器不穩(wěn)定挠将，bagging有助于降低訓(xùn)練數(shù)據(jù)的隨機(jī)波動(dòng)導(dǎo)致的誤差；如果穩(wěn)定萌抵，則集成分類器的誤差主要由基分類器的偏倚引起
由于每個(gè)樣本被選中的概率相同，因此bagging并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實(shí)例

1.運(yùn)用注意點(diǎn)
2.優(yōu)化方向點(diǎn)

資料參考：http://blog.csdn.net/qq_30189255/article/details/51532442

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末元镀，一起剝皮案震驚了整個(gè)濱河市绍填，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌栖疑，老刑警劉巖讨永，帶你破解...
沈念sama閱讀 221,888評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異遇革，居然都是意外死亡卿闹，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,677評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門萝快，熙熙樓的掌柜王于貴愁眉苦臉地迎上來锻霎，“玉大人，你說我怎么就攤上這事揪漩⌒眨” “怎么了？”我有些...
開封第一講書人閱讀 168,386評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵奄容，是天一觀的道長冰更。經(jīng)常有香客問我，道長昂勒，這世上最難降的妖魔是什么蜀细？我笑而不...
開封第一講書人閱讀 59,726評(píng)論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮戈盈，結(jié)果婚禮上奠衔，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好涣觉，可當(dāng)我...
茶點(diǎn)故事閱讀 68,729評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布痴荐。她就那樣靜靜地躺著，像睡著了一般官册。火紅的嫁衣襯著肌膚如雪生兆。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,337評(píng)論 1贊 310
城市分裂傳說
那天膝宁，我揣著相機(jī)與錄音鸦难，去河邊找鬼。笑死员淫，一個(gè)胖子當(dāng)著我的面吹牛合蔽，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播介返，決...
沈念sama閱讀 40,902評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼拴事，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼！你這毒婦竟也來了圣蝎？” 一聲冷哼從身側(cè)響起刃宵，我...
開封第一講書人閱讀 39,807評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎徘公，沒想到半個(gè)月后牲证，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,349評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡关面，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,439評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年坦袍，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片等太。...
茶點(diǎn)故事閱讀 40,567評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡捂齐，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出澈驼，到底是詐尸還是另有隱情辛燥，我是刑警寧澤，帶...
沈念sama閱讀 36,242評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布缝其，位于F島的核電站挎塌，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏内边。R本人自食惡果不足惜榴都，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,933評(píng)論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望漠其。院中可真熱鬧嘴高，春花似錦竿音、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,420評(píng)論 0贊 24
一樁弒父案春瞬，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至套啤，卻和暖如春宽气，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背潜沦。一陣腳步聲響...
開封第一講書人閱讀 33,531評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工萄涯，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人唆鸡。一個(gè)月前我還...
沈念sama閱讀 48,995評(píng)論 3贊 377
代替公主和親
正文我出身青樓涝影，卻偏偏與公主長得像，于是被迫代替她去往敵國和親争占。傳聞我的和親對(duì)象是個(gè)殘疾皇子燃逻，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,585評(píng)論 2贊 359