【轉(zhuǎn)】 機(jī)器學(xué)習(xí)實(shí)踐中應(yīng)避免的七種常見(jiàn)錯(cuò)誤

轉(zhuǎn)載自:http://www.52cs.org/?p=879



統(tǒng)計(jì)建模和工程開(kāi)發(fā)很相似牲览。

在工程開(kāi)發(fā)中,人們有多種方法搭建一套鍵-值存儲(chǔ)系統(tǒng),每種設(shè)計(jì)針對(duì)使用模式有一套不同的假設(shè)。在統(tǒng)計(jì)建模中曹宴,也有很多算法來(lái)構(gòu)造一個(gè)分類(lèi)器,每種算法對(duì)數(shù)據(jù)也有各自的假設(shè)集合歉提。

當(dāng)處理少量數(shù)據(jù)時(shí)笛坦,因?yàn)閷?shí)驗(yàn)成本很低,我們盡可能多的嘗試各種算法苔巨,從而選出效果最優(yōu)的算法版扩。但提到“大數(shù)據(jù)”,提前分析數(shù)據(jù)侄泽,然后設(shè)計(jì)相應(yīng)“管道”模型(預(yù)處理礁芦,建模,優(yōu)化算法蔬顾,評(píng)價(jià)宴偿,產(chǎn)品化)是事半功倍的。

正如在我以前的文章里提到诀豁,每個(gè)給定的建模問(wèn)題都存在幾十種解法窄刘。每個(gè)模型會(huì)提出不同的假設(shè)條件,我們也很難直觀辨別哪些假設(shè)是合理的舷胜。在業(yè)界娩践,大多數(shù)從業(yè)人員傾向于挑選他們熟悉的建模算法,而不是最適合數(shù)據(jù)集的那個(gè)烹骨。在這篇文章中翻伺,我將分享一些常見(jiàn)的認(rèn)識(shí)誤區(qū)(要避免的)。在今后的文章中再介紹一些最佳實(shí)踐方法(應(yīng)該做的)沮焕。

1. 想當(dāng)然地使用默認(rèn)損失函數(shù)

很多從業(yè)者喜歡用默認(rèn)的損失函數(shù)(比如平方誤差)來(lái)訓(xùn)練和選擇最優(yōu)模型吨岭。事實(shí)上,默認(rèn)的損失函數(shù)很少能滿足我們的業(yè)務(wù)需求峦树。拿詐騙檢測(cè)來(lái)說(shuō)辣辫。當(dāng)我們檢測(cè)詐騙交易時(shí),我們的業(yè)務(wù)需求是盡量減少詐騙帶來(lái)的損失魁巩。然而現(xiàn)有二元分類(lèi)器默認(rèn)的損失函數(shù)對(duì)誤報(bào)和漏報(bào)的危害一視同仁急灭。對(duì)于我們的業(yè)務(wù)需求,損失函數(shù)不僅對(duì)漏報(bào)的懲罰要超過(guò)誤報(bào)谷遂,對(duì)漏報(bào)的懲罰程度也要和詐騙金額成比例葬馋。而且,詐騙檢測(cè)的訓(xùn)練數(shù)據(jù)集往往正負(fù)樣本極度不均衡肾扰。在這種情況下畴嘶,損失函數(shù)就要偏向于照顧稀少類(lèi)(如通過(guò)升/降采樣等)。

2. 用普通線性模型處理非線性問(wèn)題

當(dāng)需要構(gòu)建一個(gè)二元分類(lèi)器時(shí)集晚,很多人馬上就想到用邏輯回歸掠廓,因?yàn)樗芎?jiǎn)單。但是甩恼,他們忘記了邏輯回歸是線性模型蟀瞧,非線性因素的交叉特征需要靠手工編碼處理√趺回到剛才詐騙檢測(cè)的例子悦污,要獲得好的模型效果,就需要引入“帳單地址=送貨地址

&&

交易金額<50”之類(lèi)的高階交叉特征钉蒲。因此切端,在處理包含交叉特征的問(wèn)題上我們應(yīng)該盡可能選擇非線性模型,比如有核函數(shù)的SVM顷啼,或者基于樹(shù)的分類(lèi)器踏枣。

3.忽視異常值

異常值很有意思昌屉。根據(jù)上下文情況,它們要么需要被特別處理茵瀑,要么應(yīng)該被完全忽略间驮。就拿收入預(yù)測(cè)來(lái)說(shuō)。如果觀察到收入有異常尖峰马昨,我們可能要加倍注意他們竞帽,并分析是什么原因造成這些峰值。但如果異常值是由于機(jī)械誤差鸿捧、測(cè)量誤差或者其它任何非普遍化因素導(dǎo)致的屹篓,那我們最好在準(zhǔn)備訓(xùn)練數(shù)據(jù)之前過(guò)濾掉這些異常值。

有些模型算法對(duì)異常值非常靈敏匙奴。比如堆巧,AdaBoost 會(huì)對(duì)它們“倍加關(guān)注”,賦予一個(gè)相當(dāng)大的權(quán)重值泼菌。相反恳邀,決策樹(shù)就簡(jiǎn)單地把它們當(dāng)做錯(cuò)誤分類(lèi)來(lái)處理。如果數(shù)據(jù)集包含相當(dāng)數(shù)量的異常值灶轰,那么谣沸,使用一種具有異常值魯棒性的建模算法或直接過(guò)濾掉異常值是非常重要的。

4. 樣本數(shù)遠(yuǎn)小于特征數(shù)時(shí)使用高方差模型

SVM是最流行的建模算法之一笋颤,它的強(qiáng)大功能之一就在于用不同核函數(shù)去擬合模型乳附。SVM內(nèi)核被認(rèn)為是可以自發(fā)組合現(xiàn)有特征,從而形成更高維度特征空間的方法伴澄。由于獲得這項(xiàng)強(qiáng)大功能的代價(jià)幾乎忽略不計(jì)赋除,大多數(shù)人在訓(xùn)練SVM模型時(shí)默認(rèn)使用核函數(shù)。然而非凌,當(dāng)訓(xùn)練樣本數(shù)遠(yuǎn)遠(yuǎn)少于特征維度時(shí)(n遠(yuǎn)小于p)——

常見(jiàn)于醫(yī)學(xué)數(shù)據(jù)——高維特征空間數(shù)據(jù)過(guò)擬合風(fēng)險(xiǎn)會(huì)隨之增加举农。事實(shí)上,在上述情況下我們應(yīng)該完全避免使用高方差模型敞嗡。

5. 不做標(biāo)準(zhǔn)化的L1/L2正則化

使用L1或L2正則化是線性回歸或邏輯回歸懲罰權(quán)重系數(shù)值過(guò)大的常用方法颁糟。然而,許多人在使用這些正則化方法時(shí)都沒(méi)有意識(shí)到標(biāo)準(zhǔn)化的重要性喉悴。

再回到詐騙檢測(cè)棱貌,設(shè)想一個(gè)把交易金額作為特征的線性回歸模型。如果不做正則化箕肃,當(dāng)交易金額以美元為單位時(shí)婚脱,其擬合系數(shù)將會(huì)是以美分為單位時(shí)的100倍。同時(shí),因?yàn)長(zhǎng)1/L2正則化對(duì)系數(shù)值大的項(xiàng)懲罰更重障贸,美元作為單位時(shí)交易金額這個(gè)維度將會(huì)受到更多的懲罰错森。因此,正則化并不是一視同仁篮洁,它往往在更小尺度上懲罰特征涩维。為了緩解這一問(wèn)題,需要在預(yù)處理過(guò)程中標(biāo)準(zhǔn)化所有特征嘀粱,使它們處在平等的位置激挪。

6.不考慮線性相關(guān)就使用線性模型

假設(shè)構(gòu)建一個(gè)含有X1和X2兩個(gè)變量的線性模型辰狡,真實(shí)的模型是Y = X1 +

X2锋叨。理想情況下,如果數(shù)據(jù)僅含有少量噪點(diǎn)宛篇,線性回歸模型能夠還原真實(shí)模型娃磺。然而,如果X1和X2存在線性相關(guān)叫倍,對(duì)于大多數(shù)優(yōu)化算法而言偷卧,無(wú)論Y = 2

* X1 , Y = 3 * X1-X2 還是 Y = 100 * X1-99 *

X2效果都一樣好。盡管這個(gè)問(wèn)題沒(méi)有造成我們預(yù)測(cè)的偏差吆倦,看上去它似乎并無(wú)大礙听诸。但是,它使問(wèn)題變得病態(tài)了蚕泽,因?yàn)橄禂?shù)權(quán)重?zé)o法得到解釋晌梨。

7. 把線性模型或者邏輯回歸模型系數(shù)的絕對(duì)值解釋為特征重要性

因?yàn)楹芏喱F(xiàn)成的線性回歸方法返回每個(gè)系數(shù)的p值,很多人就認(rèn)為系數(shù)的絕對(duì)值越大须妻,對(duì)應(yīng)的特征就發(fā)揮更大作用仔蝌。事實(shí)并非如此,因?yàn)椋ㄒ唬┛s放變量就會(huì)改變系數(shù)絕對(duì)值荒吏;(二)如果特征是線性相關(guān)的敛惊,其系數(shù)可以從一維特征轉(zhuǎn)移到另一維特征。此外绰更,數(shù)據(jù)集包含的特征維度越多瞧挤,特征之間就越有可能線性相關(guān),用系數(shù)解釋特征重要性就越不靠譜儡湾。



以上就是機(jī)器學(xué)習(xí)實(shí)踐操作中的7個(gè)常見(jiàn)錯(cuò)誤皿伺。這個(gè)列表并不完整,它只是激發(fā)讀者去思考盒粮,模型算法的假設(shè)并不一定適用于手頭的數(shù)據(jù)鸵鸥。在追求模型最佳性能時(shí),重要的是選擇適合數(shù)據(jù)的模型算法,而不是你最熟悉的那個(gè)妒穴。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末宋税,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子讼油,更是在濱河造成了極大的恐慌杰赛,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,807評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件矮台,死亡現(xiàn)場(chǎng)離奇詭異乏屯,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)瘦赫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)辰晕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人确虱,你說(shuō)我怎么就攤上這事含友。” “怎么了校辩?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,589評(píng)論 0 363
  • 文/不壞的土叔 我叫張陵窘问,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我宜咒,道長(zhǎng)惠赫,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,188評(píng)論 1 300
  • 正文 為了忘掉前任故黑,我火速辦了婚禮儿咱,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘倍阐。我一直安慰自己概疆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,185評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布峰搪。 她就那樣靜靜地躺著岔冀,像睡著了一般。 火紅的嫁衣襯著肌膚如雪概耻。 梳的紋絲不亂的頭發(fā)上使套,一...
    開(kāi)封第一講書(shū)人閱讀 52,785評(píng)論 1 314
  • 那天,我揣著相機(jī)與錄音鞠柄,去河邊找鬼侦高。 笑死,一個(gè)胖子當(dāng)著我的面吹牛厌杜,可吹牛的內(nèi)容都是我干的奉呛。 我是一名探鬼主播计螺,決...
    沈念sama閱讀 41,220評(píng)論 3 423
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼瞧壮!你這毒婦竟也來(lái)了登馒?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 40,167評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤咆槽,失蹤者是張志新(化名)和其女友劉穎陈轿,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體秦忿,經(jīng)...
    沈念sama閱讀 46,698評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡麦射,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,767評(píng)論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了灯谣。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片潜秋。...
    茶點(diǎn)故事閱讀 40,912評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖酬屉,靈堂內(nèi)的尸體忽然破棺而出半等,到底是詐尸還是另有隱情揍愁,我是刑警寧澤呐萨,帶...
    沈念sama閱讀 36,572評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站莽囤,受9級(jí)特大地震影響谬擦,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜朽缎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,254評(píng)論 3 336
  • 文/蒙蒙 一惨远、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧话肖,春花似錦北秽、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,746評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至床蜘,卻和暖如春辙培,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背邢锯。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,859評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工扬蕊, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人丹擎。 一個(gè)月前我還...
    沈念sama閱讀 49,359評(píng)論 3 379
  • 正文 我出身青樓尾抑,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子再愈,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,922評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容