新手?jǐn)?shù)據(jù)科學(xué)家的五大誤區(qū)

翻譯自《Top 5 Mistakes of Greenhorn Data Scientists》


您準(zhǔn)備好最終成為一名數(shù)據(jù)科學(xué)家。您參加了Kaggle比賽,然后狂熱的觀看了Coursera上的課程,您已做好準(zhǔn)備哗总,但是現(xiàn)實(shí)生活中的數(shù)據(jù)科學(xué)家的工作將與您的期望大不相同朗鸠。

本文章探討了新手?jǐn)?shù)據(jù)科學(xué)家的5個(gè)常見誤區(qū)秒拔。該文章是與SébastienFoucaud博士共同完成婿脸,他在學(xué)術(shù)界和工業(yè)界負(fù)責(zé)指導(dǎo)和領(lǐng)你年輕數(shù)據(jù)科學(xué)家方面擁有超過20年的經(jīng)驗(yàn)粱胜。這篇文章旨在幫助您更好地為現(xiàn)實(shí)生活中的數(shù)據(jù)科學(xué)工作做好準(zhǔn)備。



1.成為kaggle generation

您參與了Kaggle挑戰(zhàn)并練習(xí)了您的數(shù)據(jù)科學(xué)技能狐树。您可以使用stacking decision tree和神經(jīng)網(wǎng)絡(luò)焙压,這很好。但是說實(shí)話抑钟,現(xiàn)實(shí)生活匯總您將不會(huì)像kaggle里面的數(shù)據(jù)科學(xué)家那樣做很多模型堆疊涯曲。請(qǐng)記住,作為一般規(guī)則在塔,您將花費(fèi)80%的時(shí)間預(yù)處理數(shù)據(jù)幻件,并將20%的剩余時(shí)間用于構(gòu)建模型。

但是參與kaggle也有一定的好處蛔溃。kaggle里面的數(shù)據(jù)經(jīng)常被徹底清洗绰沥,以便您可以花更多時(shí)間調(diào)整模型。但是在您的實(shí)際工作中很少出現(xiàn)這種情況贺待,您必須使用不同的格式和命名約定來收集來自不同來源的數(shù)據(jù)徽曲。

你將使用80%的時(shí)間做艱苦的工作來練習(xí)進(jìn)行數(shù)據(jù)預(yù)處理的技能。抓取圖像或從API收集它們麸塞;收集來自Genius的歌詞秃臣;準(zhǔn)備解決特定問題所需的數(shù)據(jù),然后將其提取到終端中并訓(xùn)練機(jī)器學(xué)習(xí)生命周期哪工。精通數(shù)據(jù)預(yù)處理無疑會(huì)使您成為一名對(duì)您的公司產(chǎn)生直接影響的數(shù)據(jù)科學(xué)家奥此。


2.神經(jīng)網(wǎng)絡(luò)可以解決一切問題

深度學(xué)習(xí)模型在計(jì)算機(jī)視覺或自然語言處理領(lǐng)域優(yōu)于其他機(jī)器學(xué)習(xí)模型。但它們也有明顯的缺點(diǎn)雁比。


神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)稚虎。在只有較少的樣本時(shí),使用決策樹或邏輯回歸模型通常會(huì)更好章贞。神經(jīng)網(wǎng)絡(luò)也是一個(gè)黑盒子祥绞。眾所周知非洲,它們難以解釋和解釋鸭限。如果產(chǎn)品所有者或經(jīng)理開始質(zhì)疑模型的輸出,則必須能夠解釋模型两踏,而傳統(tǒng)模型解釋就更容易败京。


下圖James Le的這篇精彩總結(jié)展示了很多很棒的統(tǒng)計(jì)學(xué)習(xí)模型中,學(xué)習(xí)它們并了解它們的優(yōu)缺點(diǎn)梦染,和不同場(chǎng)景下的應(yīng)用規(guī)范赡麦。除非您在計(jì)算機(jī)視覺或自然語音識(shí)別的專業(yè)領(lǐng)域工作朴皆,否則最成功的模型很可能是傳統(tǒng)的機(jī)器學(xué)習(xí)算法。您很快就會(huì)發(fā)現(xiàn)泛粹,最簡(jiǎn)單的模型遂铡,如Logistic回歸在辆,是最好的模型蒂破。


3.機(jī)器學(xué)習(xí)是一個(gè)產(chǎn)品


機(jī)器學(xué)習(xí)在過去十年中享受并遭受了巨大的炒作。太多的初創(chuàng)企業(yè)承諾機(jī)器學(xué)習(xí)能夠解決任何存在的問題袍啡。


機(jī)器學(xué)習(xí)本身永遠(yuǎn)不應(yīng)該是產(chǎn)品们衙。機(jī)器學(xué)習(xí)是創(chuàng)建滿足客戶需求的產(chǎn)品的強(qiáng)大工具钾怔。如果客戶想要從準(zhǔn)確的項(xiàng)目建議中受益,機(jī)器學(xué)習(xí)可以提供幫助蒙挑;如果客戶需要準(zhǔn)確識(shí)別圖像中的對(duì)象宗侦,機(jī)器學(xué)習(xí)可以提供幫助;如果企業(yè)從向用戶展示有價(jià)值的廣告中獲益忆蚀,那么機(jī)器學(xué)習(xí)可以提供幫助矾利。

作為數(shù)據(jù)科學(xué)家,您需要以客戶的目標(biāo)為主要目標(biāo)馋袜。只有這樣梦皮,您才能評(píng)估機(jī)器學(xué)習(xí)是否有幫助。

4.將相關(guān)性與因果關(guān)系混淆

大約90%的數(shù)據(jù)是在過去幾年中生成的桃焕。隨著大數(shù)據(jù)的出現(xiàn)剑肯,機(jī)器學(xué)習(xí)從業(yè)者可以獲得大量數(shù)據(jù)。有了這么多要處理的數(shù)據(jù)观堂,學(xué)習(xí)模型會(huì)發(fā)現(xiàn)隨機(jī)相關(guān)性的可能性增加让网。


上圖顯示了美國(guó)小姐的年齡以及蒸汽,熱蒸汽和熱物體的謀殺總數(shù)师痕。鑒于這些數(shù)據(jù)溃睹,學(xué)習(xí)算法將學(xué)習(xí)美國(guó)小姐的年齡影響某些物體的謀殺數(shù)量的模式,反之亦然胰坟。然而因篇,兩個(gè)數(shù)據(jù)點(diǎn)實(shí)際上是無關(guān)的,并且這兩個(gè)變量對(duì)其他變量絕對(duì)沒有預(yù)測(cè)能力笔横。

在發(fā)現(xiàn)數(shù)據(jù)模式時(shí)竞滓,不要忘記應(yīng)用您的領(lǐng)域知識(shí)。它可能是相關(guān)性還是因果關(guān)系吹缔?回答這些問題是從數(shù)據(jù)中獲取結(jié)果的關(guān)鍵商佑。

5.優(yōu)化錯(cuò)誤的指標(biāo)

開發(fā)機(jī)器學(xué)習(xí)模型遵循敏捷的生命周期。首先厢塘,您定義想法和關(guān)鍵指標(biāo)茶没。其次肌幽,您將結(jié)果原型化。第三抓半,在滿足關(guān)鍵指標(biāo)之前喂急,您會(huì)不斷改進(jìn)。


在構(gòu)建機(jī)器學(xué)習(xí)模型時(shí)笛求,請(qǐng)記住進(jìn)行人工錯(cuò)誤分析煮岁。雖然這個(gè)過程繁瑣且需要付出努力,但它可以幫助您在以下迭代中有效地改進(jìn)模型涣易。請(qǐng)參閱《Andrew Ng’s Deep Learning Specialization》里下面的文章画机,以獲取有關(guān)改進(jìn)模型的額外技巧。

22 nuggets of wisdom to structure your machine learning project

年輕數(shù)據(jù)科學(xué)家為公司提供巨大價(jià)值新症。他們是學(xué)習(xí)在線課程的新手步氏,可以提供即時(shí)幫助。他們經(jīng)常是自學(xué)成才徒爹,因?yàn)楹苌儆写髮W(xué)提供數(shù)據(jù)科學(xué)學(xué)位荚醒,因此表現(xiàn)出巨大的責(zé)任心和好奇心。他們對(duì)自己選擇的領(lǐng)域充滿熱情隆嗅,并渴望了解更多信息界阁。但是要小心上述提到的會(huì)影響到第一份數(shù)據(jù)科學(xué)工作成敗的誤區(qū)


關(guān)鍵建議:

練習(xí)數(shù)據(jù)管理

研究不同模型的優(yōu)缺點(diǎn)

保持模型盡可能簡(jiǎn)單

檢查你的結(jié)論&因果關(guān)系、相關(guān)性

優(yōu)化最有希望的指標(biāo)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末胖喳,一起剝皮案震驚了整個(gè)濱河市泡躯,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌丽焊,老刑警劉巖较剃,帶你破解...
    沈念sama閱讀 222,464評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異技健,居然都是意外死亡写穴,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門雌贱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來啊送,“玉大人,你說我怎么就攤上這事欣孤〔雒唬” “怎么了?”我有些...
    開封第一講書人閱讀 169,078評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵导街,是天一觀的道長(zhǎng)披泪。 經(jīng)常有香客問我,道長(zhǎng)搬瑰,這世上最難降的妖魔是什么款票? 我笑而不...
    開封第一講書人閱讀 59,979評(píng)論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮泽论,結(jié)果婚禮上艾少,老公的妹妹穿的比我還像新娘。我一直安慰自己翼悴,他們只是感情好缚够,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,001評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鹦赎,像睡著了一般谍椅。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上古话,一...
    開封第一講書人閱讀 52,584評(píng)論 1 312
  • 那天雏吭,我揣著相機(jī)與錄音,去河邊找鬼陪踩。 笑死杖们,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的肩狂。 我是一名探鬼主播摘完,決...
    沈念sama閱讀 41,085評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼傻谁!你這毒婦竟也來了孝治?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,023評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤审磁,失蹤者是張志新(化名)和其女友劉穎荆秦,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體力图,經(jīng)...
    沈念sama閱讀 46,555評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡步绸,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,626評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吃媒。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瓤介。...
    茶點(diǎn)故事閱讀 40,769評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖赘那,靈堂內(nèi)的尸體忽然破棺而出刑桑,到底是詐尸還是另有隱情,我是刑警寧澤募舟,帶...
    沈念sama閱讀 36,439評(píng)論 5 351
  • 正文 年R本政府宣布祠斧,位于F島的核電站,受9級(jí)特大地震影響拱礁,放射性物質(zhì)發(fā)生泄漏琢锋。R本人自食惡果不足惜辕漂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,115評(píng)論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望吴超。 院中可真熱鬧钉嘹,春花似錦、人聲如沸鲸阻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鸟悴。三九已至陈辱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間细诸,已是汗流浹背沛贪。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留揍堰,地道東北人鹏浅。 一個(gè)月前我還...
    沈念sama閱讀 49,191評(píng)論 3 378
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像屏歹,于是被迫代替她去往敵國(guó)和親隐砸。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,781評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容