【轉(zhuǎn)】機(jī)器學(xué)習(xí)實(shí)踐中應(yīng)避免的七種常見(jiàn)錯(cuò)誤

轉(zhuǎn)載自：http://www.52cs.org/?p=879

統(tǒng)計(jì)建模和工程開(kāi)發(fā)很相似牲览。

在工程開(kāi)發(fā)中，人們有多種方法搭建一套鍵-值存儲(chǔ)系統(tǒng)，每種設(shè)計(jì)針對(duì)使用模式有一套不同的假設(shè)。在統(tǒng)計(jì)建模中曹宴，也有很多算法來(lái)構(gòu)造一個(gè)分類(lèi)器，每種算法對(duì)數(shù)據(jù)也有各自的假設(shè)集合歉提。

當(dāng)處理少量數(shù)據(jù)時(shí)笛坦，因?yàn)閷?shí)驗(yàn)成本很低，我們盡可能多的嘗試各種算法苔巨，從而選出效果最優(yōu)的算法版扩。但提到“大數(shù)據(jù)”，提前分析數(shù)據(jù)侄泽，然后設(shè)計(jì)相應(yīng)“管道”模型（預(yù)處理礁芦，建模，優(yōu)化算法蔬顾，評(píng)價(jià)宴偿，產(chǎn)品化）是事半功倍的。

正如在我以前的文章里提到诀豁，每個(gè)給定的建模問(wèn)題都存在幾十種解法窄刘。每個(gè)模型會(huì)提出不同的假設(shè)條件，我們也很難直觀辨別哪些假設(shè)是合理的舷胜。在業(yè)界娩践，大多數(shù)從業(yè)人員傾向于挑選他們熟悉的建模算法，而不是最適合數(shù)據(jù)集的那個(gè)烹骨。在這篇文章中翻伺，我將分享一些常見(jiàn)的認(rèn)識(shí)誤區(qū)（要避免的）。在今后的文章中再介紹一些最佳實(shí)踐方法（應(yīng)該做的）沮焕。

1. 想當(dāng)然地使用默認(rèn)損失函數(shù)

很多從業(yè)者喜歡用默認(rèn)的損失函數(shù)（比如平方誤差）來(lái)訓(xùn)練和選擇最優(yōu)模型吨岭。事實(shí)上，默認(rèn)的損失函數(shù)很少能滿足我們的業(yè)務(wù)需求峦树。拿詐騙檢測(cè)來(lái)說(shuō)辣辫。當(dāng)我們檢測(cè)詐騙交易時(shí)，我們的業(yè)務(wù)需求是盡量減少詐騙帶來(lái)的損失魁巩。然而現(xiàn)有二元分類(lèi)器默認(rèn)的損失函數(shù)對(duì)誤報(bào)和漏報(bào)的危害一視同仁急灭。對(duì)于我們的業(yè)務(wù)需求，損失函數(shù)不僅對(duì)漏報(bào)的懲罰要超過(guò)誤報(bào)谷遂，對(duì)漏報(bào)的懲罰程度也要和詐騙金額成比例葬馋。而且，詐騙檢測(cè)的訓(xùn)練數(shù)據(jù)集往往正負(fù)樣本極度不均衡肾扰。在這種情況下畴嘶，損失函數(shù)就要偏向于照顧稀少類(lèi)（如通過(guò)升/降采樣等）。

2. 用普通線性模型處理非線性問(wèn)題

當(dāng)需要構(gòu)建一個(gè)二元分類(lèi)器時(shí)集晚，很多人馬上就想到用邏輯回歸掠廓，因?yàn)樗芎?jiǎn)單。但是甩恼，他們忘記了邏輯回歸是線性模型蟀瞧，非線性因素的交叉特征需要靠手工編碼處理√趺回到剛才詐騙檢測(cè)的例子悦污，要獲得好的模型效果，就需要引入“帳單地址=送貨地址

交易金額<50”之類(lèi)的高階交叉特征钉蒲。因此切端，在處理包含交叉特征的問(wèn)題上我們應(yīng)該盡可能選擇非線性模型，比如有核函數(shù)的SVM顷啼，或者基于樹(shù)的分類(lèi)器踏枣。

3.忽視異常值

異常值很有意思昌屉。根據(jù)上下文情況，它們要么需要被特別處理茵瀑，要么應(yīng)該被完全忽略间驮。就拿收入預(yù)測(cè)來(lái)說(shuō)。如果觀察到收入有異常尖峰马昨，我們可能要加倍注意他們竞帽，并分析是什么原因造成這些峰值。但如果異常值是由于機(jī)械誤差鸿捧、測(cè)量誤差或者其它任何非普遍化因素導(dǎo)致的屹篓，那我們最好在準(zhǔn)備訓(xùn)練數(shù)據(jù)之前過(guò)濾掉這些異常值。

有些模型算法對(duì)異常值非常靈敏匙奴。比如堆巧，AdaBoost 會(huì)對(duì)它們“倍加關(guān)注”，賦予一個(gè)相當(dāng)大的權(quán)重值泼菌。相反恳邀，決策樹(shù)就簡(jiǎn)單地把它們當(dāng)做錯(cuò)誤分類(lèi)來(lái)處理。如果數(shù)據(jù)集包含相當(dāng)數(shù)量的異常值灶轰，那么谣沸，使用一種具有異常值魯棒性的建模算法或直接過(guò)濾掉異常值是非常重要的。

4. 樣本數(shù)遠(yuǎn)小于特征數(shù)時(shí)使用高方差模型

SVM是最流行的建模算法之一笋颤，它的強(qiáng)大功能之一就在于用不同核函數(shù)去擬合模型乳附。SVM內(nèi)核被認(rèn)為是可以自發(fā)組合現(xiàn)有特征，從而形成更高維度特征空間的方法伴澄。由于獲得這項(xiàng)強(qiáng)大功能的代價(jià)幾乎忽略不計(jì)赋除，大多數(shù)人在訓(xùn)練SVM模型時(shí)默認(rèn)使用核函數(shù)。然而非凌，當(dāng)訓(xùn)練樣本數(shù)遠(yuǎn)遠(yuǎn)少于特征維度時(shí)（n遠(yuǎn)小于p）——

常見(jiàn)于醫(yī)學(xué)數(shù)據(jù)——高維特征空間數(shù)據(jù)過(guò)擬合風(fēng)險(xiǎn)會(huì)隨之增加举农。事實(shí)上，在上述情況下我們應(yīng)該完全避免使用高方差模型敞嗡。

5. 不做標(biāo)準(zhǔn)化的L1/L2正則化

使用L1或L2正則化是線性回歸或邏輯回歸懲罰權(quán)重系數(shù)值過(guò)大的常用方法颁糟。然而，許多人在使用這些正則化方法時(shí)都沒(méi)有意識(shí)到標(biāo)準(zhǔn)化的重要性喉悴。

再回到詐騙檢測(cè)棱貌，設(shè)想一個(gè)把交易金額作為特征的線性回歸模型。如果不做正則化箕肃，當(dāng)交易金額以美元為單位時(shí)婚脱，其擬合系數(shù)將會(huì)是以美分為單位時(shí)的100倍。同時(shí)，因?yàn)長(zhǎng)1/L2正則化對(duì)系數(shù)值大的項(xiàng)懲罰更重障贸，美元作為單位時(shí)交易金額這個(gè)維度將會(huì)受到更多的懲罰错森。因此，正則化并不是一視同仁篮洁，它往往在更小尺度上懲罰特征涩维。為了緩解這一問(wèn)題，需要在預(yù)處理過(guò)程中標(biāo)準(zhǔn)化所有特征嘀粱，使它們處在平等的位置激挪。

6.不考慮線性相關(guān)就使用線性模型

假設(shè)構(gòu)建一個(gè)含有X1和X2兩個(gè)變量的線性模型辰狡，真實(shí)的模型是Y = X1 +

X2锋叨。理想情況下，如果數(shù)據(jù)僅含有少量噪點(diǎn)宛篇，線性回歸模型能夠還原真實(shí)模型娃磺。然而，如果X1和X2存在線性相關(guān)叫倍，對(duì)于大多數(shù)優(yōu)化算法而言偷卧，無(wú)論Y = 2

* X1 , Y = 3 * X1-X2 還是 Y = 100 * X1-99 *

X2效果都一樣好。盡管這個(gè)問(wèn)題沒(méi)有造成我們預(yù)測(cè)的偏差吆倦，看上去它似乎并無(wú)大礙听诸。但是，它使問(wèn)題變得病態(tài)了蚕泽，因?yàn)橄禂?shù)權(quán)重?zé)o法得到解釋晌梨。

7. 把線性模型或者邏輯回歸模型系數(shù)的絕對(duì)值解釋為特征重要性

因?yàn)楹芏喱F(xiàn)成的線性回歸方法返回每個(gè)系數(shù)的p值，很多人就認(rèn)為系數(shù)的絕對(duì)值越大须妻，對(duì)應(yīng)的特征就發(fā)揮更大作用仔蝌。事實(shí)并非如此，因?yàn)椋ㄒ唬┛s放變量就會(huì)改變系數(shù)絕對(duì)值荒吏；（二）如果特征是線性相關(guān)的敛惊，其系數(shù)可以從一維特征轉(zhuǎn)移到另一維特征。此外绰更，數(shù)據(jù)集包含的特征維度越多瞧挤，特征之間就越有可能線性相關(guān)，用系數(shù)解釋特征重要性就越不靠譜儡湾。

以上就是機(jī)器學(xué)習(xí)實(shí)踐操作中的7個(gè)常見(jiàn)錯(cuò)誤皿伺。這個(gè)列表并不完整，它只是激發(fā)讀者去思考盒粮，模型算法的假設(shè)并不一定適用于手頭的數(shù)據(jù)鸵鸥。在追求模型最佳性能時(shí)，重要的是選擇適合數(shù)據(jù)的模型算法，而不是你最熟悉的那個(gè)妒穴。

最后編輯于：2018.04.12 16:17:49

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末宋税，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子讼油，更是在濱河造成了極大的恐慌杰赛，老刑警劉巖，帶你破解...
沈念sama閱讀 222,807評(píng)論 6贊 518
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件矮台，死亡現(xiàn)場(chǎng)離奇詭異乏屯，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)瘦赫，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,284評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)辰晕，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人确虱，你說(shuō)我怎么就攤上這事含友。” “怎么了校辩？”我有些...
開(kāi)封第一講書(shū)人閱讀 169,589評(píng)論 0贊 363
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵窘问，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我宜咒，道長(zhǎng)惠赫，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 60,188評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任故黑，我火速辦了婚禮儿咱，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘倍阐。我一直安慰自己概疆，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 69,185評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布峰搪。她就那樣靜靜地躺著岔冀，像睡著了一般。火紅的嫁衣襯著肌膚如雪概耻。梳的紋絲不亂的頭發(fā)上使套，一...
開(kāi)封第一講書(shū)人閱讀 52,785評(píng)論 1贊 314
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音鞠柄，去河邊找鬼侦高。笑死，一個(gè)胖子當(dāng)著我的面吹牛厌杜，可吹牛的內(nèi)容都是我干的奉呛。我是一名探鬼主播计螺，決...
沈念sama閱讀 41,220評(píng)論 3贊 423
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼瞧壮！你這毒婦竟也來(lái)了登馒？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 40,167評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤咆槽，失蹤者是張志新（化名）和其女友劉穎陈轿，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體秦忿，經(jīng)...
沈念sama閱讀 46,698評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡麦射，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,767評(píng)論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了灯谣。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片潜秋。...
茶點(diǎn)故事閱讀 40,912評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖酬屉，靈堂內(nèi)的尸體忽然破棺而出半等，到底是詐尸還是另有隱情揍愁，我是刑警寧澤呐萨，帶...
沈念sama閱讀 36,572評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站莽囤，受9級(jí)特大地震影響谬擦，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜朽缎，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,254評(píng)論 3贊 336
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一惨远、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧话肖，春花似錦北秽、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,746評(píng)論 0贊 25
一樁弒父案贺氓，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至床蜘，卻和暖如春辙培，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背邢锯。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,859評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工扬蕊，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人丹擎。一個(gè)月前我還...
沈念sama閱讀 49,359評(píng)論 3贊 379
代替公主和親
正文我出身青樓尾抑，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子再愈，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,922評(píng)論 2贊 361

【轉(zhuǎn)】 機(jī)器學(xué)習(xí)實(shí)踐中應(yīng)避免的七種常見(jiàn)錯(cuò)誤

推薦閱讀更多精彩內(nèi)容

【轉(zhuǎn)】機(jī)器學(xué)習(xí)實(shí)踐中應(yīng)避免的七種常見(jiàn)錯(cuò)誤