新手?jǐn)?shù)據(jù)科學(xué)家的五大誤區(qū)

翻譯自《Top 5 Mistakes of Greenhorn Data Scientists》

您準(zhǔn)備好最終成為一名數(shù)據(jù)科學(xué)家。您參加了Kaggle比賽，然后狂熱的觀看了Coursera上的課程，您已做好準(zhǔn)備哗总，但是現(xiàn)實(shí)生活中的數(shù)據(jù)科學(xué)家的工作將與您的期望大不相同朗鸠。

本文章探討了新手?jǐn)?shù)據(jù)科學(xué)家的5個(gè)常見誤區(qū)秒拔。該文章是與SébastienFoucaud博士共同完成婿脸，他在學(xué)術(shù)界和工業(yè)界負(fù)責(zé)指導(dǎo)和領(lǐng)你年輕數(shù)據(jù)科學(xué)家方面擁有超過20年的經(jīng)驗(yàn)粱胜。這篇文章旨在幫助您更好地為現(xiàn)實(shí)生活中的數(shù)據(jù)科學(xué)工作做好準(zhǔn)備。

1.成為kaggle generation

您參與了Kaggle挑戰(zhàn)并練習(xí)了您的數(shù)據(jù)科學(xué)技能狐树。您可以使用stacking decision tree和神經(jīng)網(wǎng)絡(luò)焙压，這很好。但是說實(shí)話抑钟，現(xiàn)實(shí)生活匯總您將不會(huì)像kaggle里面的數(shù)據(jù)科學(xué)家那樣做很多模型堆疊涯曲。請(qǐng)記住，作為一般規(guī)則在塔，您將花費(fèi)80％的時(shí)間預(yù)處理數(shù)據(jù)幻件，并將20％的剩余時(shí)間用于構(gòu)建模型。

但是參與kaggle也有一定的好處蛔溃。kaggle里面的數(shù)據(jù)經(jīng)常被徹底清洗绰沥，以便您可以花更多時(shí)間調(diào)整模型。但是在您的實(shí)際工作中很少出現(xiàn)這種情況贺待，您必須使用不同的格式和命名約定來收集來自不同來源的數(shù)據(jù)徽曲。

你將使用80％的時(shí)間做艱苦的工作來練習(xí)進(jìn)行數(shù)據(jù)預(yù)處理的技能。抓取圖像或從API收集它們麸塞；收集來自Genius的歌詞秃臣；準(zhǔn)備解決特定問題所需的數(shù)據(jù)，然后將其提取到終端中并訓(xùn)練機(jī)器學(xué)習(xí)生命周期哪工。精通數(shù)據(jù)預(yù)處理無疑會(huì)使您成為一名對(duì)您的公司產(chǎn)生直接影響的數(shù)據(jù)科學(xué)家奥此。

2.神經(jīng)網(wǎng)絡(luò)可以解決一切問題

深度學(xué)習(xí)模型在計(jì)算機(jī)視覺或自然語言處理領(lǐng)域優(yōu)于其他機(jī)器學(xué)習(xí)模型。但它們也有明顯的缺點(diǎn)雁比。

神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)稚虎。在只有較少的樣本時(shí)，使用決策樹或邏輯回歸模型通常會(huì)更好章贞。神經(jīng)網(wǎng)絡(luò)也是一個(gè)黑盒子祥绞。眾所周知非洲，它們難以解釋和解釋鸭限。如果產(chǎn)品所有者或經(jīng)理開始質(zhì)疑模型的輸出，則必須能夠解釋模型两踏，而傳統(tǒng)模型解釋就更容易败京。

下圖James Le的這篇精彩總結(jié)展示了很多很棒的統(tǒng)計(jì)學(xué)習(xí)模型中，學(xué)習(xí)它們并了解它們的優(yōu)缺點(diǎn)梦染，和不同場(chǎng)景下的應(yīng)用規(guī)范赡麦。除非您在計(jì)算機(jī)視覺或自然語音識(shí)別的專業(yè)領(lǐng)域工作朴皆，否則最成功的模型很可能是傳統(tǒng)的機(jī)器學(xué)習(xí)算法。您很快就會(huì)發(fā)現(xiàn)泛粹，最簡(jiǎn)單的模型遂铡，如Logistic回歸在辆，是最好的模型蒂破。

3.機(jī)器學(xué)習(xí)是一個(gè)產(chǎn)品

機(jī)器學(xué)習(xí)在過去十年中享受并遭受了巨大的炒作。太多的初創(chuàng)企業(yè)承諾機(jī)器學(xué)習(xí)能夠解決任何存在的問題袍啡。

機(jī)器學(xué)習(xí)本身永遠(yuǎn)不應(yīng)該是產(chǎn)品们衙。機(jī)器學(xué)習(xí)是創(chuàng)建滿足客戶需求的產(chǎn)品的強(qiáng)大工具钾怔。如果客戶想要從準(zhǔn)確的項(xiàng)目建議中受益，機(jī)器學(xué)習(xí)可以提供幫助蒙挑；如果客戶需要準(zhǔn)確識(shí)別圖像中的對(duì)象宗侦，機(jī)器學(xué)習(xí)可以提供幫助；如果企業(yè)從向用戶展示有價(jià)值的廣告中獲益忆蚀，那么機(jī)器學(xué)習(xí)可以提供幫助矾利。

作為數(shù)據(jù)科學(xué)家，您需要以客戶的目標(biāo)為主要目標(biāo)馋袜。只有這樣梦皮，您才能評(píng)估機(jī)器學(xué)習(xí)是否有幫助。

4.將相關(guān)性與因果關(guān)系混淆

大約90％的數(shù)據(jù)是在過去幾年中生成的桃焕。隨著大數(shù)據(jù)的出現(xiàn)剑肯，機(jī)器學(xué)習(xí)從業(yè)者可以獲得大量數(shù)據(jù)。有了這么多要處理的數(shù)據(jù)观堂，學(xué)習(xí)模型會(huì)發(fā)現(xiàn)隨機(jī)相關(guān)性的可能性增加让网。

上圖顯示了美國(guó)小姐的年齡以及蒸汽，熱蒸汽和熱物體的謀殺總數(shù)师痕。鑒于這些數(shù)據(jù)溃睹，學(xué)習(xí)算法將學(xué)習(xí)美國(guó)小姐的年齡影響某些物體的謀殺數(shù)量的模式，反之亦然胰坟。然而因篇，兩個(gè)數(shù)據(jù)點(diǎn)實(shí)際上是無關(guān)的，并且這兩個(gè)變量對(duì)其他變量絕對(duì)沒有預(yù)測(cè)能力笔横。

在發(fā)現(xiàn)數(shù)據(jù)模式時(shí)竞滓，不要忘記應(yīng)用您的領(lǐng)域知識(shí)。它可能是相關(guān)性還是因果關(guān)系吹缔？回答這些問題是從數(shù)據(jù)中獲取結(jié)果的關(guān)鍵商佑。

5.優(yōu)化錯(cuò)誤的指標(biāo)

開發(fā)機(jī)器學(xué)習(xí)模型遵循敏捷的生命周期。首先厢塘，您定義想法和關(guān)鍵指標(biāo)茶没。其次肌幽，您將結(jié)果原型化。第三抓半，在滿足關(guān)鍵指標(biāo)之前喂急，您會(huì)不斷改進(jìn)。

在構(gòu)建機(jī)器學(xué)習(xí)模型時(shí)笛求，請(qǐng)記住進(jìn)行人工錯(cuò)誤分析煮岁。雖然這個(gè)過程繁瑣且需要付出努力，但它可以幫助您在以下迭代中有效地改進(jìn)模型涣易。請(qǐng)參閱《Andrew Ng’s Deep Learning Specialization》里下面的文章画机，以獲取有關(guān)改進(jìn)模型的額外技巧。

22 nuggets of wisdom to structure your machine learning project

年輕數(shù)據(jù)科學(xué)家為公司提供巨大價(jià)值新症。他們是學(xué)習(xí)在線課程的新手步氏，可以提供即時(shí)幫助。他們經(jīng)常是自學(xué)成才徒爹，因?yàn)楹苌儆写髮W(xué)提供數(shù)據(jù)科學(xué)學(xué)位荚醒，因此表現(xiàn)出巨大的責(zé)任心和好奇心。他們對(duì)自己選擇的領(lǐng)域充滿熱情隆嗅，并渴望了解更多信息界阁。但是要小心上述提到的會(huì)影響到第一份數(shù)據(jù)科學(xué)工作成敗的誤區(qū)

關(guān)鍵建議：

練習(xí)數(shù)據(jù)管理

研究不同模型的優(yōu)缺點(diǎn)

保持模型盡可能簡(jiǎn)單

檢查你的結(jié)論&因果關(guān)系、相關(guān)性

優(yōu)化最有希望的指標(biāo)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末胖喳，一起剝皮案震驚了整個(gè)濱河市泡躯，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌丽焊，老刑警劉巖较剃，帶你破解...
沈念sama閱讀 222,464評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異技健，居然都是意外死亡写穴，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,033評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門雌贱，熙熙樓的掌柜王于貴愁眉苦臉地迎上來啊送，“玉大人，你說我怎么就攤上這事欣孤〔雒唬” “怎么了？”我有些...
開封第一講書人閱讀 169,078評(píng)論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵导街，是天一觀的道長(zhǎng)披泪。經(jīng)常有香客問我，道長(zhǎng)搬瑰，這世上最難降的妖魔是什么款票？我笑而不...
開封第一講書人閱讀 59,979評(píng)論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮泽论，結(jié)果婚禮上艾少，老公的妹妹穿的比我還像新娘。我一直安慰自己翼悴，他們只是感情好缚够，可當(dāng)我...
茶點(diǎn)故事閱讀 69,001評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著鹦赎，像睡著了一般谍椅。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上古话，一...
開封第一講書人閱讀 52,584評(píng)論 1贊 312
城市分裂傳說
那天雏吭，我揣著相機(jī)與錄音，去河邊找鬼陪踩。笑死杖们，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的肩狂。我是一名探鬼主播摘完，決...
沈念sama閱讀 41,085評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼傻谁！你這毒婦竟也來了孝治？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 40,023評(píng)論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤审磁，失蹤者是張志新（化名）和其女友劉穎荆秦，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體力图，經(jīng)...
沈念sama閱讀 46,555評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡步绸，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,626評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吃媒。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瓤介。...
茶點(diǎn)故事閱讀 40,769評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖赘那，靈堂內(nèi)的尸體忽然破棺而出刑桑，到底是詐尸還是另有隱情，我是刑警寧澤募舟，帶...
沈念sama閱讀 36,439評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布祠斧，位于F島的核電站，受9級(jí)特大地震影響拱礁，放射性物質(zhì)發(fā)生泄漏琢锋。R本人自食惡果不足惜辕漂，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,115評(píng)論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望吴超。院中可真熱鬧钉嘹，春花似錦、人聲如沸鲸阻。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,601評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽鸟悴。三九已至陈辱，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間细诸，已是汗流浹背沛贪。一陣腳步聲響...
開封第一講書人閱讀 33,702評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留揍堰，地道東北人鹏浅。一個(gè)月前我還...
沈念sama閱讀 49,191評(píng)論 3贊 378
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像屏歹，于是被迫代替她去往敵國(guó)和親隐砸。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,781評(píng)論 2贊 361