機(jī)器學(xué)習(xí)第六課_其他幾個重要概念

1蚊惯、偏差和方差

在機(jī)器學(xué)習(xí)中侠鳄,過擬合和欠擬合都會使訓(xùn)練好的機(jī)器學(xué)習(xí)模型在真實(shí)的數(shù)據(jù)中出現(xiàn)錯誤异剥。我們可以將錯誤分為偏差(Bias)方差(Variance)兩類。下面就來看看偏差和方差的定義济竹、產(chǎn)生原因以及二者之間如何權(quán)衡痕檬。

偏差(bias):偏差衡量了模型的預(yù)測值與實(shí)際值之間的偏離關(guān)系。例如某模型的準(zhǔn)確度為96%送浊,則說明是低偏差梦谜;反之,如果準(zhǔn)確度只有70%罕袋,則說明是高偏差改淑。

方差(variance):方差描述的是訓(xùn)練數(shù)據(jù)在不同迭代階段的訓(xùn)練模型中,預(yù)測值的變化波動情況(或稱之為離散情況)浴讯。從數(shù)學(xué)角度看,可以理解為每個預(yù)測值與預(yù)測均值差的平方和的再求平均數(shù)蔼啦。通常在模型訓(xùn)練中榆纽,初始階段模型復(fù)雜度不高,為低方差捏肢;隨著訓(xùn)練量加大奈籽,模型逐步擬合訓(xùn)練數(shù)據(jù),復(fù)雜度開始變高鸵赫,此時方差會逐漸變高衣屏。

[if !vml]

[endif]


2、偏差和方差的權(quán)衡

有一些算法天生就是高方差的算法辩棒,如kNN算法狼忱。非參數(shù)學(xué)習(xí)算法通常都是高方差,因?yàn)椴粚?shù)據(jù)進(jìn)行任何假設(shè)一睁。

有一些算法天生就是高偏差算法钻弄,如線性回歸。參數(shù)學(xué)習(xí)算法通常都是高偏差算法者吁,因?yàn)閷?shù)據(jù)有跡象窘俺。

關(guān)于解決方差和偏差的問題中:

我們要知道偏差和方差是無法完全避免的,只能盡量減少其影響复凳。

[if !supportLists]1.???[endif]在避免偏差時瘤泪,需盡量選擇正確的模型灶泵,一個非線性問題而我們一直用線性模型去解決,那無論如何对途,高偏差是無法避免的赦邻。

[if !supportLists]2.???[endif]有了正確的模型,我們還要慎重選擇數(shù)據(jù)集的大小掀宋,通常數(shù)據(jù)集越大越好深纲,但大到數(shù)據(jù)集已經(jīng)對整體所有數(shù)據(jù)有了一定的代表性后,再多的數(shù)據(jù)已經(jīng)不能提升模型了劲妙,反而會帶來計(jì)算量的增加湃鹊。而訓(xùn)練數(shù)據(jù)太小一定是不好的,這會帶來過擬合镣奋,模型復(fù)雜度太高币呵,方差很大,不同數(shù)據(jù)集訓(xùn)練出來的模型變化非常大侨颈。

[if !supportLists]3.???[endif]最后余赢,要選擇合適的模型復(fù)雜度,復(fù)雜度高的模型通常對訓(xùn)練數(shù)據(jù)有很好的擬合能力哈垢。

其實(shí)在機(jī)器學(xué)習(xí)領(lǐng)域妻柒,主要的挑戰(zhàn)來自方差。處理高方差的手段有:

[if !supportLists]·???????[endif]降低模型復(fù)雜度

[if !supportLists]·???????[endif]減少數(shù)據(jù)維度耘分;降噪

[if !supportLists]·???????[endif]增加樣本數(shù)

[if !supportLists]·???????[endif]使用驗(yàn)證集

3举塔、模型正則化(未完待續(xù))

其實(shí)還有一個降低方差的重要方法:模型正則化。本文從理論及代碼兩個方面對L1正則求泰、L2正則進(jìn)行了介紹央渣,幫助大家了解其背后的原理以及實(shí)際的使用方法

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市渴频,隨后出現(xiàn)的幾起案子芽丹,更是在濱河造成了極大的恐慌,老刑警劉巖卜朗,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拔第,死亡現(xiàn)場離奇詭異,居然都是意外死亡聊替,警方通過查閱死者的電腦和手機(jī)楼肪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來惹悄,“玉大人春叫,你說我怎么就攤上這事。” “怎么了暂殖?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵价匠,是天一觀的道長。 經(jīng)常有香客問我呛每,道長踩窖,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任晨横,我火速辦了婚禮洋腮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘手形。我一直安慰自己啥供,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布库糠。 她就那樣靜靜地躺著伙狐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪瞬欧。 梳的紋絲不亂的頭發(fā)上贷屎,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機(jī)與錄音艘虎,去河邊找鬼唉侄。 笑死,一個胖子當(dāng)著我的面吹牛野建,可吹牛的內(nèi)容都是我干的美旧。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼贬墩,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了妄呕?” 一聲冷哼從身側(cè)響起陶舞,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎绪励,沒想到半個月后肿孵,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡疏魏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年停做,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片大莫。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡蛉腌,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情烙丛,我是刑警寧澤舅巷,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站河咽,受9級特大地震影響钠右,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜忘蟹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一飒房、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧媚值,春花似錦狠毯、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至喂很,卻和暖如春惜颇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背少辣。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工凌摄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人漓帅。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓锨亏,卻偏偏與公主長得像,于是被迫代替她去往敵國和親忙干。 傳聞我的和親對象是個殘疾皇子器予,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容