翻譯自《Top 5 Mistakes of Greenhorn Data Scientists》
您準(zhǔn)備好最終成為一名數(shù)據(jù)科學(xué)家。您參加了Kaggle比賽,然后狂熱的觀看了Coursera上的課程,您已做好準(zhǔn)備哗总,但是現(xiàn)實(shí)生活中的數(shù)據(jù)科學(xué)家的工作將與您的期望大不相同朗鸠。
本文章探討了新手?jǐn)?shù)據(jù)科學(xué)家的5個(gè)常見誤區(qū)秒拔。該文章是與SébastienFoucaud博士共同完成婿脸,他在學(xué)術(shù)界和工業(yè)界負(fù)責(zé)指導(dǎo)和領(lǐng)你年輕數(shù)據(jù)科學(xué)家方面擁有超過20年的經(jīng)驗(yàn)粱胜。這篇文章旨在幫助您更好地為現(xiàn)實(shí)生活中的數(shù)據(jù)科學(xué)工作做好準(zhǔn)備。
1.成為kaggle generation
您參與了Kaggle挑戰(zhàn)并練習(xí)了您的數(shù)據(jù)科學(xué)技能狐树。您可以使用stacking decision tree和神經(jīng)網(wǎng)絡(luò)焙压,這很好。但是說實(shí)話抑钟,現(xiàn)實(shí)生活匯總您將不會(huì)像kaggle里面的數(shù)據(jù)科學(xué)家那樣做很多模型堆疊涯曲。請(qǐng)記住,作為一般規(guī)則在塔,您將花費(fèi)80%的時(shí)間預(yù)處理數(shù)據(jù)幻件,并將20%的剩余時(shí)間用于構(gòu)建模型。
但是參與kaggle也有一定的好處蛔溃。kaggle里面的數(shù)據(jù)經(jīng)常被徹底清洗绰沥,以便您可以花更多時(shí)間調(diào)整模型。但是在您的實(shí)際工作中很少出現(xiàn)這種情況贺待,您必須使用不同的格式和命名約定來收集來自不同來源的數(shù)據(jù)徽曲。
你將使用80%的時(shí)間做艱苦的工作來練習(xí)進(jìn)行數(shù)據(jù)預(yù)處理的技能。抓取圖像或從API收集它們麸塞;收集來自Genius的歌詞秃臣;準(zhǔn)備解決特定問題所需的數(shù)據(jù),然后將其提取到終端中并訓(xùn)練機(jī)器學(xué)習(xí)生命周期哪工。精通數(shù)據(jù)預(yù)處理無疑會(huì)使您成為一名對(duì)您的公司產(chǎn)生直接影響的數(shù)據(jù)科學(xué)家奥此。
2.神經(jīng)網(wǎng)絡(luò)可以解決一切問題
深度學(xué)習(xí)模型在計(jì)算機(jī)視覺或自然語言處理領(lǐng)域優(yōu)于其他機(jī)器學(xué)習(xí)模型。但它們也有明顯的缺點(diǎn)雁比。
神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)稚虎。在只有較少的樣本時(shí),使用決策樹或邏輯回歸模型通常會(huì)更好章贞。神經(jīng)網(wǎng)絡(luò)也是一個(gè)黑盒子祥绞。眾所周知非洲,它們難以解釋和解釋鸭限。如果產(chǎn)品所有者或經(jīng)理開始質(zhì)疑模型的輸出,則必須能夠解釋模型两踏,而傳統(tǒng)模型解釋就更容易败京。
下圖James Le的這篇精彩總結(jié)展示了很多很棒的統(tǒng)計(jì)學(xué)習(xí)模型中,學(xué)習(xí)它們并了解它們的優(yōu)缺點(diǎn)梦染,和不同場(chǎng)景下的應(yīng)用規(guī)范赡麦。除非您在計(jì)算機(jī)視覺或自然語音識(shí)別的專業(yè)領(lǐng)域工作朴皆,否則最成功的模型很可能是傳統(tǒng)的機(jī)器學(xué)習(xí)算法。您很快就會(huì)發(fā)現(xiàn)泛粹,最簡(jiǎn)單的模型遂铡,如Logistic回歸在辆,是最好的模型蒂破。
3.機(jī)器學(xué)習(xí)是一個(gè)產(chǎn)品
機(jī)器學(xué)習(xí)在過去十年中享受并遭受了巨大的炒作。太多的初創(chuàng)企業(yè)承諾機(jī)器學(xué)習(xí)能夠解決任何存在的問題袍啡。
機(jī)器學(xué)習(xí)本身永遠(yuǎn)不應(yīng)該是產(chǎn)品们衙。機(jī)器學(xué)習(xí)是創(chuàng)建滿足客戶需求的產(chǎn)品的強(qiáng)大工具钾怔。如果客戶想要從準(zhǔn)確的項(xiàng)目建議中受益,機(jī)器學(xué)習(xí)可以提供幫助蒙挑;如果客戶需要準(zhǔn)確識(shí)別圖像中的對(duì)象宗侦,機(jī)器學(xué)習(xí)可以提供幫助;如果企業(yè)從向用戶展示有價(jià)值的廣告中獲益忆蚀,那么機(jī)器學(xué)習(xí)可以提供幫助矾利。
作為數(shù)據(jù)科學(xué)家,您需要以客戶的目標(biāo)為主要目標(biāo)馋袜。只有這樣梦皮,您才能評(píng)估機(jī)器學(xué)習(xí)是否有幫助。
4.將相關(guān)性與因果關(guān)系混淆
大約90%的數(shù)據(jù)是在過去幾年中生成的桃焕。隨著大數(shù)據(jù)的出現(xiàn)剑肯,機(jī)器學(xué)習(xí)從業(yè)者可以獲得大量數(shù)據(jù)。有了這么多要處理的數(shù)據(jù)观堂,學(xué)習(xí)模型會(huì)發(fā)現(xiàn)隨機(jī)相關(guān)性的可能性增加让网。
上圖顯示了美國(guó)小姐的年齡以及蒸汽,熱蒸汽和熱物體的謀殺總數(shù)师痕。鑒于這些數(shù)據(jù)溃睹,學(xué)習(xí)算法將學(xué)習(xí)美國(guó)小姐的年齡影響某些物體的謀殺數(shù)量的模式,反之亦然胰坟。然而因篇,兩個(gè)數(shù)據(jù)點(diǎn)實(shí)際上是無關(guān)的,并且這兩個(gè)變量對(duì)其他變量絕對(duì)沒有預(yù)測(cè)能力笔横。
在發(fā)現(xiàn)數(shù)據(jù)模式時(shí)竞滓,不要忘記應(yīng)用您的領(lǐng)域知識(shí)。它可能是相關(guān)性還是因果關(guān)系吹缔?回答這些問題是從數(shù)據(jù)中獲取結(jié)果的關(guān)鍵商佑。
5.優(yōu)化錯(cuò)誤的指標(biāo)
開發(fā)機(jī)器學(xué)習(xí)模型遵循敏捷的生命周期。首先厢塘,您定義想法和關(guān)鍵指標(biāo)茶没。其次肌幽,您將結(jié)果原型化。第三抓半,在滿足關(guān)鍵指標(biāo)之前喂急,您會(huì)不斷改進(jìn)。
在構(gòu)建機(jī)器學(xué)習(xí)模型時(shí)笛求,請(qǐng)記住進(jìn)行人工錯(cuò)誤分析煮岁。雖然這個(gè)過程繁瑣且需要付出努力,但它可以幫助您在以下迭代中有效地改進(jìn)模型涣易。請(qǐng)參閱《Andrew Ng’s Deep Learning Specialization》里下面的文章画机,以獲取有關(guān)改進(jìn)模型的額外技巧。
22 nuggets of wisdom to structure your machine learning project
年輕數(shù)據(jù)科學(xué)家為公司提供巨大價(jià)值新症。他們是學(xué)習(xí)在線課程的新手步氏,可以提供即時(shí)幫助。他們經(jīng)常是自學(xué)成才徒爹,因?yàn)楹苌儆写髮W(xué)提供數(shù)據(jù)科學(xué)學(xué)位荚醒,因此表現(xiàn)出巨大的責(zé)任心和好奇心。他們對(duì)自己選擇的領(lǐng)域充滿熱情隆嗅,并渴望了解更多信息界阁。但是要小心上述提到的會(huì)影響到第一份數(shù)據(jù)科學(xué)工作成敗的誤區(qū)
關(guān)鍵建議:
練習(xí)數(shù)據(jù)管理
研究不同模型的優(yōu)缺點(diǎn)
保持模型盡可能簡(jiǎn)單
檢查你的結(jié)論&因果關(guān)系、相關(guān)性
優(yōu)化最有希望的指標(biāo)