機(jī)器學(xué)習(xí)-聚合-2020-02-12

通常來講,聚合的種類有四種:

1. 多個(gè)g供璧,選取其中Eval最小的那個(gè);G(x)=gt???(x)?with?t??=argmint∈1,2,?,T??Eval?(gt??)

2. 多個(gè)g,每個(gè)g的權(quán)重一樣 , 為1桑寨;G(x)=sign(∑?1?gt?(x))

3. 多個(gè)g,每個(gè)g的權(quán)重不一樣 ,但是為常數(shù)猜憎,?\alpha _t;G(x)=sign(∑?αt??gt?(x))?with?αt?≥0

4.?多個(gè)g搔课,每個(gè)g的權(quán)重不一樣 拉宗,但是不為常數(shù),隨著條件的變化而變化辣辫,q(x)?旦事;G(x)=sign(∑?qt?(x)?gt?(x))?with?qt?(x)≥0

為什么聚合(aggregation) 要比單個(gè)g要做的好呢?

1. 將多條不同的g聚合在一起急灭,得到一個(gè)G姐浮。增強(qiáng)了power,降低Ein葬馋,因此起到了 feature transform的作用卖鲤;

2. 多條不同的g,對(duì)相同的樣本點(diǎn)畴嘶,有的判斷為+1蛋逾,有的判斷為-1;有的離分界線近窗悯,有的離分界線遠(yuǎn)区匣。但是如果將這些g進(jìn)行聚合,那么如果服從“少數(shù)服從多數(shù)”原則蒋院,那么判斷錯(cuò)誤的點(diǎn)有可能會(huì)被修正亏钩,離邊界線近的有可能遠(yuǎn)離margin。這樣就起到了“中庸”的作用欺旧。換句話說姑丑,就是正則化 regulation。

基于以上的兩個(gè)例子辞友,我們得到了aggregation的兩個(gè)優(yōu)勢(shì):feature transform和regularization栅哀。我們之前在機(jī)器學(xué)習(xí)基石課程中就介紹過,feature transform和regularization是對(duì)立的称龙,還把它們分別比作踩油門和踩剎車留拾。如果進(jìn)行feature transform,那么regularization的效果通常很差茵瀑,反之亦然间驮。也就是說,單一模型通常只能傾向于feature transform和regularization之一马昨,在兩者之間做個(gè)權(quán)衡竞帽。但是aggregation卻能將feature transform和regularization各自的優(yōu)勢(shì)結(jié)合起來扛施,好比把油門和剎車都控制得很好,從而得到不錯(cuò)的預(yù)測(cè)模型屹篓。

Uniform Blending for Regression

每個(gè)g的權(quán)重相同疙渣。

推導(dǎo)過程中注意G(t)=avg(gt?)。經(jīng)過推導(dǎo)堆巧,我們發(fā)現(xiàn)等式后面的第一項(xiàng)是大于0的妄荔,因此聚合后G的Eout要比每一個(gè)g與目標(biāo)函數(shù)的Eout還要來的優(yōu)秀。

上述等式中左邊表示演算法誤差的期望值谍肤;右邊第二項(xiàng)表示不同gt?的平均誤差共識(shí)啦租,用偏差bias表示;右邊第一項(xiàng)表示不同gt?與共識(shí)的差距是多少荒揣,反映gt之間的偏差篷角,用方差variance表示。也就是說系任,一個(gè)演算法的平均表現(xiàn)可以被拆成兩項(xiàng)恳蹲,一個(gè)是所有g(shù)t的共識(shí),一個(gè)是不同gt之間的差距是多少俩滥,即bias和variance嘉蕾。而uniform blending的操作時(shí)求平均的過程,這樣就削減弱化了上式第一項(xiàng)variance的值霜旧,從而演算法的表現(xiàn)就更好了错忱,能得到更加穩(wěn)定的表現(xiàn)。

Linear and Any Blending

Linear Blending中使用的gt?是通過模型選擇而得到的颁糟,利用validation航背,從 Dtrain?中得到g1??,g2??,?,gT??。然后將 Dtrain?中每個(gè)數(shù)據(jù)點(diǎn)經(jīng)過各個(gè)矩的計(jì)算得到的值棱貌,代入到相應(yīng)的linear blending計(jì)算公式中,迭代優(yōu)化得到對(duì)應(yīng)α值箕肃。最終婚脱,再利用所有樣本數(shù)據(jù),得到新的gt?代替gt??勺像,則G(t)就是gt?的線性組合而不是gt??障贸,系數(shù)是αt?。

除了linear blending之外吟宦,還可以使用任意形式的blending篮洁。linear blending中,G(t)是g(t)的線性組合殃姓;any blending中袁波,G(t)可以是g(t)的任何函數(shù)形式(非線性)瓦阐。這種形式的blending也叫做Stacking。any blending的優(yōu)點(diǎn)是模型復(fù)雜度提高篷牌,更容易獲得更好的預(yù)測(cè)模型睡蟋;缺點(diǎn)是復(fù)雜模型也容易帶來過擬合的危險(xiǎn)。所以枷颊,在使用any blending的過程中要時(shí)刻注意避免過擬合發(fā)生戳杀,通過采用regularization的方法,讓模型具有更好的泛化能力夭苗。

Bagging

由于資料是有限的信卡,那么要構(gòu)造出Dt,并且要iid题造。這叫bootstrapping傍菇。bootstrapping的做法是,假設(shè)有N筆資料晌梨,先從中選出一個(gè)樣本桥嗤,再放回去,再選擇一個(gè)樣本仔蝌,再放回去泛领,共重復(fù)N次。這樣我們就得到了一個(gè)新的N筆資料敛惊,這個(gè)新的Dt???中可能包含原D里的重復(fù)樣本點(diǎn)渊鞋,也可能沒有原D里的某些樣本,Dt???與D類似但又不完全相同瞧挤。值得一提的是锡宋,抽取-放回的操作不一定非要是N,次數(shù)可以任意設(shè)定特恬。例如原始樣本有10000個(gè)执俩,我們可以抽取-放回3000次,得到包含3000個(gè)樣本的Dt???也是完全可以的癌刽。利用bootstrap進(jìn)行aggregation的操作就被稱為bagging役首。

總結(jié)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市显拜,隨后出現(xiàn)的幾起案子衡奥,更是在濱河造成了極大的恐慌,老刑警劉巖远荠,帶你破解...
    沈念sama閱讀 218,640評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件矮固,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡譬淳,警方通過查閱死者的電腦和手機(jī)档址,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,254評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門盹兢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人辰晕,你說我怎么就攤上這事蛤迎。” “怎么了含友?”我有些...
    開封第一講書人閱讀 165,011評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵替裆,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我窘问,道長(zhǎng)辆童,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,755評(píng)論 1 294
  • 正文 為了忘掉前任惠赫,我火速辦了婚禮把鉴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘儿咱。我一直安慰自己庭砍,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,774評(píng)論 6 392
  • 文/花漫 我一把揭開白布混埠。 她就那樣靜靜地躺著怠缸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪钳宪。 梳的紋絲不亂的頭發(fā)上揭北,一...
    開封第一講書人閱讀 51,610評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音吏颖,去河邊找鬼搔体。 笑死,一個(gè)胖子當(dāng)著我的面吹牛半醉,可吹牛的內(nèi)容都是我干的疚俱。 我是一名探鬼主播,決...
    沈念sama閱讀 40,352評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼缩多,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼计螺!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起瞧壮,我...
    開封第一講書人閱讀 39,257評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎匙握,沒想到半個(gè)月后咆槽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,717評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡圈纺,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,894評(píng)論 3 336
  • 正文 我和宋清朗相戀三年秦忿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了麦射。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,021評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡灯谣,死狀恐怖潜秋,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情胎许,我是刑警寧澤峻呛,帶...
    沈念sama閱讀 35,735評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站辜窑,受9級(jí)特大地震影響钩述,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜穆碎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,354評(píng)論 3 330
  • 文/蒙蒙 一牙勘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧所禀,春花似錦方面、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,936評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至贺氓,卻和暖如春蔚叨,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背辙培。 一陣腳步聲響...
    開封第一講書人閱讀 33,054評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工蔑水, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人扬蕊。 一個(gè)月前我還...
    沈念sama閱讀 48,224評(píng)論 3 371
  • 正文 我出身青樓搀别,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親尾抑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子歇父,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,974評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容