什么是過(guò)擬合渣锦?

各位小伙伴們大家好氢哮,很高興能夠和大家繼續(xù)討論機(jī)器學(xué)習(xí)方面的問(wèn)題,今天想和大家討論下關(guān)于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)中的過(guò)擬合的問(wèn)題听盖,以及解決過(guò)擬合的一些方法。

在正式進(jìn)入正題前仓坞,我想用幾個(gè)我們生活中常見(jiàn)的幾個(gè)簡(jiǎn)單的例子來(lái)讓大家更好地理解下過(guò)擬合的概念悬蔽。其實(shí)簡(jiǎn)單的說(shuō),過(guò)擬合的現(xiàn)象其實(shí)就是機(jī)器學(xué)習(xí)過(guò)于自信已經(jīng)到了自付的階段了。至于什么是自負(fù)禾乘。我們大概都能想到在自己的小圈子里表現(xiàn)非凡虽缕,但是在現(xiàn)實(shí)這個(gè)大環(huán)境中屢屢遭受碰壁。因此我想把自負(fù)比作過(guò)擬合)(自負(fù)=過(guò)擬合)伍派。

那么這個(gè)時(shí)候就可能產(chǎn)生疑問(wèn)剩胁。那么機(jī)器學(xué)習(xí)過(guò)于自負(fù)是一種什么樣的表現(xiàn)呢昵观?

現(xiàn)在在下圖有一張圖,圖上的紅點(diǎn)可以看作為一堆數(shù)據(jù)啊犬,這個(gè)時(shí)候我們一定想到用一條線(xiàn)來(lái)把這些數(shù)據(jù)串起來(lái)觉至,整合起來(lái),所有人都希望數(shù)據(jù)可以分步在這條線(xiàn)周?chē)@個(gè)時(shí)候這條線(xiàn)和數(shù)據(jù)的總誤差可能為10.但是這個(gè)時(shí)候沃暗,機(jī)器就跟我們的學(xué)生一樣,總想考第一名嚼黔,總想拿一百分,這個(gè)時(shí)候機(jī)器就希望獲得盡可能少的誤差疫赎,來(lái)完成對(duì)著一批數(shù)據(jù)的使命碎节。但是機(jī)器這樣想后卻得到了圖中的那根紅線(xiàn),彎彎曲曲胎撇,并且經(jīng)過(guò)了所有的點(diǎn)殖氏,這樣的誤差就會(huì)盡可能的小雅采。但是誤差少真的會(huì)好么?

看起來(lái)我們的模型還是太天真了宝鼓,就跟我們的家長(zhǎng)們總以為只要孩子考試得到了滿(mǎn)分這個(gè)孩子就一定會(huì)得到最好的結(jié)果屑迂。當(dāng)這個(gè)孩子踏出社會(huì)后他的很多方面會(huì)共同決定他的發(fā)展如庭。機(jī)器學(xué)習(xí)模型也類(lèi)似。當(dāng)我們把這個(gè)模型應(yīng)用到具體的情況中的時(shí)候督弓,他的自負(fù)就表現(xiàn)出來(lái)了愚隧。這個(gè)時(shí)候假設(shè)你的公司給了你一批新的數(shù)據(jù)蒂阱,你對(duì)模型說(shuō),模型狂塘,你給我跑出來(lái)录煤。這個(gè)時(shí)候原來(lái)的那根筆直的直線(xiàn)因?yàn)閿?shù)據(jù)都分布在他的周?chē)`差很小荞胡。但是在之前誤差一直很小的模型曲線(xiàn)反而這次獲得了較大的誤差妈踊,表現(xiàn)反而很糟糕。這個(gè)時(shí)候泪漂,曲線(xiàn)就再也驕傲不起來(lái)了廊营,因?yàn)樗o(wú)法很好的符合除了測(cè)試數(shù)據(jù)之外的訓(xùn)練數(shù)據(jù)歪泳。這個(gè)現(xiàn)象就是我們所說(shuō)的過(guò)擬合。

那么在分類(lèi)問(wèn)題中露筒,過(guò)擬合的分割曲線(xiàn)可能會(huì)是下圖這樣,當(dāng)我們?cè)诩由弦恍?shù)據(jù)之后慎式,我們可以很明顯的發(fā)現(xiàn)有一些原本不屬于這個(gè)分類(lèi)的數(shù)據(jù)在這個(gè)分類(lèi)伶氢,對(duì)于這個(gè)現(xiàn)象其實(shí)就是過(guò)擬合的現(xiàn)象在作怪了。那么既然過(guò)擬合的問(wèn)題我們會(huì)時(shí)不時(shí)的遇到瘪吏,那么我們應(yīng)該怎么樣去解決過(guò)擬合的問(wèn)題呢癣防?

方法1:增加數(shù)據(jù)量

大多數(shù)的過(guò)擬合的問(wèn)題是因?yàn)樗麄兊臄?shù)據(jù)量太少了,如果我們有成千上萬(wàn)的數(shù)據(jù)量進(jìn)行訓(xùn)練掌眠。我們那根彎彎曲曲的曲線(xiàn)也會(huì)被糾正的不是那么扭曲劣砍,會(huì)逐漸被拉直,這樣模型誤差就會(huì)進(jìn)一步減少

方法2:運(yùn)用正規(guī)化

正規(guī)化這個(gè)問(wèn)題適用于大多數(shù)的機(jī)器學(xué)習(xí)以及大多數(shù)的神經(jīng)網(wǎng)絡(luò)扇救,其實(shí)他們的方法都大同小異,我們現(xiàn)在進(jìn)行簡(jiǎn)化正規(guī)化的公式為Y=WX(實(shí)際的公式比這個(gè)復(fù)雜得多)香嗓。W為機(jī)器學(xué)習(xí)所需要學(xué)習(xí)到的各種參數(shù)迅腔。在實(shí)際過(guò)程中因?yàn)橛?xùn)練數(shù)據(jù)的參差不齊,W的變化往往會(huì)非常大靠娱,為了避免這個(gè)現(xiàn)象沧烈,現(xiàn)在我們?cè)谟?jì)算誤差值上進(jìn)行一些手腳,對(duì)于誤差我們是這樣計(jì)算的cost=(wx-realy)2+abs(w)像云。預(yù)測(cè)值減去真實(shí)值的平方加上w的絕對(duì)值锌雀。既然W會(huì)越大,我們就用這個(gè)公式讓cost也變得更大迅诬,這樣讓cost作為一個(gè)懲罰機(jī)制腋逆,在加上一個(gè)abs(w),這樣的正規(guī)化就叫做L1正規(guī)化侈贷。Cost=(wx-realy)2+(w)2這樣的現(xiàn)象就叫做L2正規(guī)化惩歉。其他的L系列的方法也都是類(lèi)似的方法。通過(guò)這樣的方法我們就可以使曲線(xiàn)沒(méi)有那么的扭曲俏蛮,變得更加的筆直撑蚌,更加的符合真實(shí)的需求。

還有一種常用于神經(jīng)網(wǎng)絡(luò)的一種正規(guī)化方法:Dropout regularization搏屑。

在訓(xùn)練的時(shí)候争涌,我們隨機(jī)忽略掉一些神經(jīng)元和神經(jīng)連接,使得這個(gè)神經(jīng)網(wǎng)絡(luò)變得不完整辣恋。不完整的神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練到達(dá)第二次后亮垫,這個(gè)時(shí)候我們?cè)龠x擇忽略掉一點(diǎn)模软。讓其再變?yōu)橛忠粋€(gè)不完整的神經(jīng)網(wǎng)絡(luò)。注意每次忽略掉的前提數(shù)據(jù)必須是隨機(jī)不完整包警。其實(shí)想想有了這樣的隨機(jī)忽略drop的方法撵摆,我們其實(shí)就可以猜測(cè)出每一次的訓(xùn)練都不會(huì)太過(guò)于依賴(lài)那些特定的神經(jīng)元就跟L1,L2這樣的正規(guī)化的方法一樣害晦,每一次的訓(xùn)練都過(guò)于依賴(lài)參數(shù)W特铝。L1,L2會(huì)懲罰這些W壹瘟,而drop的方法會(huì)隨即丟失這些w.這個(gè)方法可以從根本上讓神經(jīng)網(wǎng)絡(luò)無(wú)法過(guò)于依賴(lài)W鲫剿。從而有效的緩解過(guò)擬合的問(wèn)題。

好了稻轨,這個(gè)就是這篇文章所包含的什么是過(guò)擬合以及如何解決過(guò)擬合方法的一些問(wèn)題灵莲。如果你想了解更多關(guān)于機(jī)器學(xué)習(xí)的知識(shí),歡迎關(guān)注我的簡(jiǎn)書(shū)殴俱,并且歡迎和我一起交流政冻。謝謝大家的閱讀。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末线欲,一起剝皮案震驚了整個(gè)濱河市明场,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌李丰,老刑警劉巖苦锨,帶你破解...
    沈念sama閱讀 211,123評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異趴泌,居然都是意外死亡舟舒,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)嗜憔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)秃励,“玉大人,你說(shuō)我怎么就攤上這事痹筛≥褐危” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵帚稠,是天一觀(guān)的道長(zhǎng)谣旁。 經(jīng)常有香客問(wèn)我,道長(zhǎng)滋早,這世上最難降的妖魔是什么榄审? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮杆麸,結(jié)果婚禮上搁进,老公的妹妹穿的比我還像新娘浪感。我一直安慰自己,他們只是感情好饼问,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布影兽。 她就那樣靜靜地躺著,像睡著了一般莱革。 火紅的嫁衣襯著肌膚如雪峻堰。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1 289
  • 那天盅视,我揣著相機(jī)與錄音捐名,去河邊找鬼。 笑死闹击,一個(gè)胖子當(dāng)著我的面吹牛镶蹋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播赏半,決...
    沈念sama閱讀 38,904評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼贺归,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了断箫?” 一聲冷哼從身側(cè)響起牧氮,我...
    開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎瑰枫,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體丹莲,經(jīng)...
    沈念sama閱讀 44,118評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡光坝,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了甥材。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盯另。...
    茶點(diǎn)故事閱讀 38,599評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖洲赵,靈堂內(nèi)的尸體忽然破棺而出鸳惯,到底是詐尸還是另有隱情,我是刑警寧澤叠萍,帶...
    沈念sama閱讀 34,264評(píng)論 4 328
  • 正文 年R本政府宣布芝发,位于F島的核電站,受9級(jí)特大地震影響苛谷,放射性物質(zhì)發(fā)生泄漏辅鲸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評(píng)論 3 312
  • 文/蒙蒙 一腹殿、第九天 我趴在偏房一處隱蔽的房頂上張望独悴。 院中可真熱鬧例书,春花似錦、人聲如沸刻炒。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)坟奥。三九已至树瞭,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間筏勒,已是汗流浹背移迫。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留管行,地道東北人厨埋。 一個(gè)月前我還...
    沈念sama閱讀 46,286評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像捐顷,于是被迫代替她去往敵國(guó)和親荡陷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容