百面機器學(xué)習(xí)|第十二章集成學(xué)習(xí)知識點(一)

前言

如果你能找到這里,真是我的幸運~這里是藍(lán)白絳的學(xué)習(xí)筆記缓淹,本集合主要針對《百面機器學(xué)習(xí)——算法工程師帶你去面試》這本書厌丑。主要記錄我認(rèn)為重要的知識點帮毁,希望對大家有幫助蒲障。

第十二章 集成學(xué)習(xí)

1缸剪、集成學(xué)習(xí)的種類

  1. 集成學(xué)習(xí)是一大類模型融合策略和方法的統(tǒng)稱曹抬,其中包含多種集成學(xué)習(xí)的思想玛界。
  • Boosting:Boosting方法訓(xùn)練基分類器時采用串行的方式棵逊,各個基分類器之間有依賴伤疙。其基本思想是將基分類器層層疊加,每一層在訓(xùn)練的時候辆影,對前一層基分類器分錯的樣本徒像,給予更高的權(quán)重。測試時蛙讥,根據(jù)各層分類器的結(jié)果的加權(quán)得到最終結(jié)果锯蛀。
  • Bagging:Bagging方法在訓(xùn)練過程中,各基分類器之間無強依賴次慢,可以進(jìn)行并行訓(xùn)練旁涤。為了讓基分類器之間相互獨立,將訓(xùn)練集分為若干子集迫像。由于個體之間存在差異性劈愚,最終做出的判斷不會完全一致。在最終做決策時闻妓,每個個體單獨作出判斷菌羽,再通過投票的方式作出最后的集體決策。其中很著名的算法是基于決策樹基分類器的隨機森林由缆。
  1. 從消除基分類器的偏差和方差的角度來理解Boosting和Bagging方法的差異注祖。基分類器的錯誤率要大于集成分類器均唉,基分類器的錯誤是偏差和方差兩種錯誤之和是晨。
  • 偏差主要是由于分類器的表達(dá)能力有限導(dǎo)致的系統(tǒng)性誤差,表現(xiàn)在訓(xùn)練誤差不收斂舔箭。Boosting方法通過逐步聚焦于基分類器分錯的樣本署鸡,減小集成分類器的偏差。
  • 方差是由于分類器對于樣本分布過于敏感限嫌,導(dǎo)致在訓(xùn)練樣本數(shù)較少時,產(chǎn)生過擬合时捌。Bagging方法則是采取分而治之的策略怒医,通過對訓(xùn)練樣本多次采樣,訓(xùn)練多個不同模型進(jìn)行綜合奢讨,來減小集成分類器的方差稚叹。用簡單多數(shù)投票方法來集成結(jié)果,超過半數(shù)基分類器出錯的概率會隨著基分類器的數(shù)量增加而下降

2扒袖、集成學(xué)習(xí)的步驟和例子

  1. 集成學(xué)習(xí)一般可以分為以下3個步驟:
    (1) 找到誤差相互獨立的基分類器塞茅。
    (2) 訓(xùn)練基分類器。
    (3) 合并基分類器的結(jié)果季率。
    第(3)步合并基分類器的方法有voting和stacking兩種野瘦。stacking是用串行的方式,把前一個基分類器的結(jié)果輸出到下一個分類器飒泻,將所有基分類器的輸出結(jié)果相加作為最終的輸出(或用更復(fù)雜的方法鞭光,將各基分類器的輸出作為特征,用邏輯回歸作為融合模型進(jìn)行最后的結(jié)果預(yù)測)泞遗。
  2. Adaboost采取了Boosting的思想惰许,對分類正確的樣本降低了權(quán)重,對分類錯誤的樣本升高或者保持權(quán)重不變史辙。在最后進(jìn)行模型融合的過程中汹买,也根據(jù)錯誤率對基分類器進(jìn)行加權(quán)融合
    另一個非常流行的是梯度提升決策樹聊倔,思想是每一棵樹學(xué)的是之前所有樹結(jié)論和的殘差晦毙,這個殘差是一個加預(yù)測值后能得真實值的累加量。比如預(yù)測年齡方库,真實年齡是25歲结序,第一棵樹預(yù)測22歲,則第二棵樹將年齡設(shè)為3歲去學(xué)習(xí)纵潦。使用殘差繼續(xù)學(xué)習(xí)徐鹤,就是GBDT中的Gradient Boosted所表達(dá)的意思。

3邀层、基分類器

  1. 最常用的基分類器是決策樹返敬,主要有以下3個方面的原因:
    (1) 決策樹可以較為方便地將樣本的權(quán)重整合到訓(xùn)練過程中,而不需要使用過采樣的方法來調(diào)整樣本權(quán)重寥院。
    (2) 決策樹的表達(dá)能力泛化能力劲赠,可以通過調(diào)節(jié)樹的層數(shù)來做折中。
    (3) 數(shù)據(jù)樣本的擾動對于決策樹的影響較大秸谢,因此不同子樣本集合生成的決策樹基分類器隨機性較大凛澎,這樣的“不穩(wěn)定學(xué)習(xí)器”更適合作為基分類器。此外估蹄,在決策樹節(jié)點分裂的時候塑煎,隨機地選擇一個特征子集,從中找出最優(yōu)分類屬性臭蚁,很好地引入了隨機性最铁。
  2. 除了決策樹讯赏,神經(jīng)網(wǎng)絡(luò)模型也適合作為基分類器,主要由于神經(jīng)網(wǎng)絡(luò)模型也比較“不穩(wěn)定”冷尉,而且還可以通過調(diào)整神經(jīng)元數(shù)量漱挎、連接方式、網(wǎng)絡(luò)層數(shù)雀哨、初始權(quán)值等方式引入隨機性磕谅。
  3. Bagging的主要好處是集成后的分類器的方差,比基分類器的方差小震束,所采用的基分類器最好是本身對樣本分布較為敏感的(即所謂不穩(wěn)定的分類器)怜庸,這樣Bagging才能有用武之地。
    線性分類器或者K近鄰都是較為穩(wěn)定的分類器垢村,本身方差就不大割疾,所以用他們做基分類器Bagging并不能在原有基分類器的基礎(chǔ)上獲得更好的表現(xiàn),甚至可能因為Bagging的采樣嘉栓,導(dǎo)致它們在訓(xùn)練中更難收斂宏榕,從而增大了集成分類器的偏差。

4侵佃、偏差與方差

  1. 有監(jiān)督學(xué)習(xí)中麻昼,模型的泛化誤差來源于兩個方面:偏差和方差。
  • 偏差:所有采樣得到的大小為m的訓(xùn)練數(shù)據(jù)集訓(xùn)練出的所有模型的輸出的平均值和真實模型輸出的偏差馋辈。偏差通常是由于我們對學(xué)習(xí)算法作出了錯誤的假設(shè)所導(dǎo)致的抚芦,比如真實模型是某個二次函數(shù),但我們假設(shè)模型是一次函數(shù)迈螟。由偏差帶來的誤差通常在訓(xùn)練誤差上就能體現(xiàn)出來叉抡。
  • 方差:所有采樣得到的大小為m的訓(xùn)練數(shù)據(jù)集訓(xùn)練出的所有模型的輸出的方差。方差通常是由于模型的復(fù)雜度相對于訓(xùn)練樣本m過高導(dǎo)致的答毫,比如一共有100個訓(xùn)練樣本褥民,而我們假設(shè)模型是階數(shù)不大于200的多項式函數(shù)。由方差帶來的誤差通常體現(xiàn)在測試誤差相對于訓(xùn)練誤差的增量上洗搂。
    12-4 偏差與方差示意圖
  1. 從減小方差和偏差的角度解釋Boosting和Bagging的原理:
  • Bagging能夠提高弱分類器性能的原因是降低了方差消返。
  • Boosting能夠提高弱分類器性能的原因是降低了偏差
    Bagging:Bagging是Bootstrap Aggregating的簡稱耘拇,意思就是再抽樣撵颊,然后在每個樣本上訓(xùn)練出來的模型取平均。假設(shè)有n個隨機變量惫叛,方差為\sigma^2秦驯,兩兩變量之間的相關(guān)性為\rho,則n個隨機變量的均值\frac{\sum X_i}{n}的方差為\rho*\sigma^2+(1-\rho)*\sigma^2/n挣棕。在隨機變量完全獨立的情況下(\rho=0)译隘,n個隨機變量的方差為\sigma^2/n,也就是說方差減小到了原來的1/n洛心。當(dāng)然模型之間不可能完全獨立固耘。為了追求模型的獨立性,諸多Bagging的方法做了不同的改進(jìn)词身。比如在隨機森林算法中厅目,每次選取節(jié)點分裂屬性時,會隨機抽取一個屬性子集法严,而不是從所有屬性中選取最優(yōu)屬性损敷,就是為了避免弱分類器之間過強的相關(guān)性。
    Boosting:Boosting訓(xùn)練好弱分類器后深啤,我們計算弱分類器的錯誤或殘差拗馒,作為下一個分類器的輸入。這個過程就是在不斷減小損失函數(shù)溯街,使模型不斷逼近“靶心”诱桂,即使模型偏差不斷降低。(Boosting不會顯著降低方差呈昔,因為Boosting的各弱分類器之間是強相關(guān)的挥等,缺乏獨立性,所以不會對降低方差有作用)
  1. 泛化誤差堤尾、偏差肝劲、方差和模型復(fù)雜度的關(guān)系:
    如下圖所示。對于給定的學(xué)習(xí)任務(wù)和訓(xùn)練數(shù)據(jù)集郭宝,我們需要對模型的復(fù)雜度做合理的假設(shè)辞槐。如果模型復(fù)雜度過低,雖然方差很小剩蟀,但偏差會很高催蝗;如果模型復(fù)雜度過高,雖然偏差低育特,但方差會很高丙号。


    12-4 泛化誤差、偏差缰冤、方差和模型復(fù)雜度

小結(jié)

這是本章的第一部分犬缨,主要講了Bagging、Boosting的訓(xùn)練方法棉浸,典型的用到Bagging的方法有隨機森林怀薛,典型的用到Boosting的方法有Adaboost、梯度提升決策樹迷郑。第一部分還從偏差和方差的角度解釋了Bagging和Boosting的原理枝恋。之前雖然知道Bagging和Boosting创倔,但是并沒有想過模型的偏差和方差,這一點非常有啟發(fā)焚碌。

結(jié)尾

如果您發(fā)現(xiàn)我的文章有任何錯誤畦攘,或?qū)ξ业奈恼掠惺裁春玫慕ㄗh,請聯(lián)系我十电!如果您喜歡我的文章知押,請點喜歡~*我是藍(lán)白絳,感謝你的閱讀鹃骂!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末台盯,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子畏线,更是在濱河造成了極大的恐慌静盅,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件象踊,死亡現(xiàn)場離奇詭異温亲,居然都是意外死亡,警方通過查閱死者的電腦和手機杯矩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進(jìn)店門栈虚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人史隆,你說我怎么就攤上這事魂务。” “怎么了泌射?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵粘姜,是天一觀的道長。 經(jīng)常有香客問我熔酷,道長孤紧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任拒秘,我火速辦了婚禮号显,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘躺酒。我一直安慰自己押蚤,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布羹应。 她就那樣靜靜地躺著揽碘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上雳刺,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天劫灶,我揣著相機與錄音,去河邊找鬼掖桦。 笑死浑此,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的滞详。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼紊馏,長吁一口氣:“原來是場噩夢啊……” “哼料饥!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起朱监,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤岸啡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后赫编,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體巡蘸,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年擂送,在試婚紗的時候發(fā)現(xiàn)自己被綠了悦荒。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡嘹吨,死狀恐怖搬味,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蟀拷,我是刑警寧澤碰纬,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站问芬,受9級特大地震影響悦析,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜此衅,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一强戴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧炕柔,春花似錦酌泰、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至欢嘿,卻和暖如春衰琐,著一層夾襖步出監(jiān)牢的瞬間也糊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工羡宙, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留狸剃,地道東北人。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓狗热,卻偏偏與公主長得像钞馁,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子匿刮,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容