如何成為一名數(shù)據(jù)科學家

如何成為一名數(shù)據(jù)科學家

本文總結了數(shù)據(jù)科學領域的資源研叫,很大程度上參考了Quora的這篇文章,根據(jù)博主的經(jīng)驗在內(nèi)容上做了適當?shù)恼{整关面,僅供參考

1.基礎知識

課程方面要學的有:多值微積分坦袍、數(shù)值分析、線性幾何等太、概率論捂齐、Python

微積分在機器學習和各種求概率中非常重要。線性幾何缩抡、矩陣對于機器學習的大多數(shù)概念都是必不可少的奠宜。Python這種編程語言非常適合搞數(shù)據(jù)科學。其他的知識(比如隨機森林瞻想,pandas压真,A/B測試)隨著你的工作開展和學習會慢慢接觸到,這些都不是基本的問題蘑险。

如果你還是學生滴肿,一定要學好計算科學和統(tǒng)計學,選課的時候要記得選線性幾何漠其、矩陣嘴高、計算科學、概率論等相關的課程和屎。

2.Python是數(shù)據(jù)科學家最重要的語言

Python有著像matlab一樣強大數(shù)值計算工具包NumPy拴驮;有著繪圖工具包matplotlib;有著科學計算工具包SciPy(基于Numpy和matplotlib的)柴信。這三者為Python提供了像Matlab一樣強大的矩陣控制能力套啤,這是Python完勝Perl和Ruby的地方。

當然随常,除了Python之外潜沦,R,Matlab/Octave绪氛,Mathematica/Sage也正在崛起唆鸡。這些語言也有著一些優(yōu)勢。不過枣察,就拿R來說争占,R的數(shù)據(jù)框架和相關的控制能力已經(jīng)被Python的pandas工具包實現(xiàn)了燃逻。Scikit-learn也提供了像R一樣強大的機器學習算法庫。 Mathematica/Sage中“notebook”的概念也被IPython notebooks實現(xiàn)了臂痕。

當然伯襟,Python也不是萬能的,比如:

語法比起Matlab和Octave來說還是笨重了握童,R的語法就好很多

Python缺少像ggplot2這種靜態(tài)圖和D3這種可交互圖,matplotlib用起來還是比較復雜

處理大數(shù)據(jù)時姆怪,Numpy和pandas這些庫有些捉襟見肘,Continuum正在致力于解決這個問題澡绩,目前來看還沒有完成

對于數(shù)據(jù)控制稽揭,缺少像LINQ那樣的內(nèi)置的聲明式的語言。Pandas對數(shù)據(jù)控制的能力還是比較低級英古,而且當你深入研究Pandas的時候很可能會被它的語法整崩潰

缺少面向數(shù)據(jù)科學家的專門的IDE淀衣,R的R Studio就不錯

對于數(shù)據(jù)科學家而言,Python可能是最重要的語言了召调,如前文所述膨桥,它有著非常豐富的生態(tài)系統(tǒng)。

R語言能夠在處理過的數(shù)據(jù)上運行機器學習算法唠叛,但是Python直接能夠處理數(shù)據(jù)只嚣,而Pandas幾乎可以像SQL那樣對數(shù)據(jù)進行控制。Matplotlib能夠讓你對數(shù)據(jù)和結果進行可視化艺沼,以便快速理解你的數(shù)據(jù)册舞。Scikit-learn提供了機器學習算法支持,Theano提供了深度學習框架(還可以使用GPU加速)障般。用過R调鲸、matlab、Octive挽荡、Python藐石、SAS和Microsoft Analysis Services的人都推薦用Python。

3.加入社區(qū)

Meetup:到Meetup上找一些你感興趣的talk定拟,在線的學習數(shù)據(jù)科學于微,認識一些數(shù)據(jù)科學家或者將來的數(shù)據(jù)科學家。

博客:這里有個國外比較具有影響力的數(shù)據(jù)科學家的博客列表青自,可以選一些follow株依。

Quora、twitter:數(shù)據(jù)科學第一手的信息資源的來源一般是twitter延窜、Quora上的用戶恋腕,例如

Jeff Hammerbacher @hackingdata

Peter Skomoroch @peteskomoroch

Ryan Rosario @datajunkie

Michael E Driscoll @medriscoll

Joseph Turian @turian

Nathan Yau @flowingdata

Peter Skomoroch @peteskomoroch

Russell Jurney @rjurney

Bradford Cross @bradfordcross

J.D. Long @cmastication,Jimmy Lin @lintool

Kevin Weil @kevinweil

Mat Kelcey @mat_kelcey

Edwin Chen @edchedch

Data Drinking Group @chrisalbon/data-drinking-group

Big Data @dataspora/bigdata

Data Science @pinoystartup/sim-data-team

Strata Program Committee @strataconf/strata-committee

到Quora和Twitter上去follow這些人吧逆瑞,別忘了follow自己這個領域最牛的那幾個人吗坚,比如博主follow了Socher祈远。另外,這個網(wǎng)站分析了twitter上哪些人在數(shù)據(jù)科學領域最具影響力商源。Quora上有很多資源,跟stackoverflow不同的是谋减,Quora比較像知乎牡彻,會有人給你一些像survey類型的經(jīng)驗,一般問題都比較抽象出爹,回答比較系統(tǒng)庄吼;stackoverflow更擅長具體的問題,尤其是編程方面的細節(jié)問題严就。

新浪微博:由于博主只是一個普通的微博用戶总寻,且個人較偏向于文本方向,對大咖們的了解還不夠深入梢为,難免有缺漏渐行,如果有缺漏了請多包涵且告知。以下是我個人關注的微博大咖們:

王威廉

王偉DL

劉知遠THU

張棟_機器學習

李航博士

丕子

winsty

黃亮-算法時代

梁斌penny

licstar

老師木

數(shù)盟社區(qū)

52nlp

好東西傳送門

西瓜大丸子湯

數(shù)據(jù)挖掘研究院

愛可可-愛生活

龍星鏢局

另外铸董,好東西傳送門的日報每天都會收錄微博精華祟印,懶得刷微博的同學可以看這里http://memect.com/

個人加的幾個QQ群

自然語言處理 174735435

龍星課程-機器學習 163973179

神經(jīng)網(wǎng)絡?/?深度學習 385206220

Deep Learning高質量 209306058

生物醫(yī)學文本挖掘BIONLP 290210559

數(shù)盟【數(shù)據(jù)分析1群】 321311420

4.配置你的環(huán)境

Python的安裝

RR studio

Sublime Text(比notepad++和ue更適合寫代碼,個人用的eclipse+PyDev)

5.學習相關工具的使用

Python: 可以結合官方教程粟害、笨辦法學Python英文原版)蕴忆、Think Python:How to Think Like a Computer Scientist來學習。書可以從這里找?guī)妆颈.斎惶锥欤业阶钸m合自己的方式是最好的,以上只是提供一些選擇而已汰具,博主當時是學的Udacity的programming language外加Natural Language Processing With Python

R: 推薦swirl卓鹿,一個數(shù)據(jù)科學和R配套學習的教程

Sublime Text:這個網(wǎng)站還不錯,從配置到快捷鍵郁副,里邊的視頻在youtube上

SQL: 個人感覺這個不太重要减牺,而且SQL相對來說較簡單,對找工作也許有點用處

結合概率統(tǒng)計來學習: 以上這些語言比起C存谎、Java來說語法很簡單拔疚,有基礎的同學很輕松就能掌握,對于這類同學來說既荚,可以結合概率統(tǒng)計順便把編程語言給學了稚失。例如:針對Python的Think Statspdf)、針對R的An Introduction to Statistical Learning(MOOC)恰聘、應該掌握的統(tǒng)計學知識點可以參考這里句各。

6.哈佛的data science公開課

不必多說吸占,看了再說,視頻凿宾,配套PPT矾屯,配套實驗配套作業(yè)

7.到Kaggle上找一些基礎的競賽練手

剛開始的時候最好不要直接參加由獎金的競賽初厚,因為這些競賽的數(shù)據(jù)往往很大件蚕、復雜、晦澀产禾,不適合學習排作。可以先學(wan)學(wan)Scikit-learn亚情,拿這個簡單的二元分類任務練手:Data Science London + Scikit-learn妄痪。

接下來可以進軍第二個任務:Titanic: Machine Learning from Disaster,這個任務比第一個要稍微復雜那么一點(有枚舉類型的變量categorical variables楞件,丟失的變量這些情況了)衫生。

第三個任務,可以嘗試Forest Cover Type Prediction履因。

第四個任務睛琳,可以嘗試Bike Sharing Demand闸婴,這里邊有一些時間戳數(shù)據(jù)煌珊。

第五個任務区宇,嘗試一些自然語言處理的任務,如情感分析毅舆。

做完這些之后西篓,再找些自己感興趣的競賽做做。

8.數(shù)據(jù)科學相關的知識

產(chǎn)品指標會教你公司里邊關心什么憋活、看重什么岂津、他們是怎么衡量產(chǎn)品的:The 27 Metrics in Pinterest’s Internal Growth Dashboard

優(yōu)化方法能幫你理解統(tǒng)計學和機器學習:Convex Optimization - Boyd and Vandenberghe

A/B測試其實在醫(yī)學上已經(jīng)應用多年了,只是換了個名字而已:How do I learn about A/B Testing?

用戶行為This Explains Everything " User Behavior

Feature Engineering一些經(jīng)驗悦即,一個案例

大數(shù)據(jù)技術針對大數(shù)據(jù)技術的工具吮成、框架How do I learn big data technologies?

Machine LearningHow do I learn Machine Learning?

Natural Language Processing自然語言處理需要把文本數(shù)據(jù)數(shù)學化,并且要盡量不丟失文本的“含義”辜梳。文本挖掘會讓你接觸全新的粱甫、令人興奮的數(shù)據(jù)(做了都說好,誰做誰知道)How do I learn Natural Language Processing (NLP)?

時間序列分析How do I learn about time series analysis?

數(shù)據(jù)文明data-driven.pdf

9.參與/solo個頂層產(chǎn)品

用已掌握的數(shù)據(jù)科學和軟件工程技能做出個讓別人看了會點贊的成品出來作瞄,可以是網(wǎng)站茶宵、處理數(shù)據(jù)的新方法、炫酷的可視化等等宗挥。要做這么個成品乌庶,可以先看看以下內(nèi)容:

數(shù)據(jù)科學中的toy problem

如何搭建一個推薦引擎

怎么利用利用閑暇時間快速搭建Python項目

如何衡量一個twitter用戶的影響力

開放的大規(guī)模數(shù)據(jù)集

郵件優(yōu)先級相關算法

一些優(yōu)秀的數(shù)據(jù)科學project

10.公開和社交

在github上創(chuàng)建公開的倉庫种蝶,寫博客,把你的研究工作瞒大、參與的項目螃征、Kaggle競賽的解決方案、見解和想法都貼出來糠赦,這會讓你提升影響力会傲,為你的簡歷準備素材,跟通靈玉的其他人建立聯(lián)系拙泽。

11.獲得數(shù)據(jù)科學的實習或工作

BAT都有相關領域的實習崗位,另外這里有些國外的提供實習機會的公司

搞不清自己該申請數(shù)據(jù)科學還是軟件開發(fā)的實習裸燎?參考這里

現(xiàn)在很多公司在初秋一直到冬天都會招聘數(shù)據(jù)科學崗位實習顾瞻,僅僅是實習的話,記得不要花過多的時間去準備德绿,直接去應聘就行荷荤。

12.在線書籍

Elements of Statistical Learning: data mining, inference, and prediction. 2nd Edition.

Introduction to Statistical Learning: Page on usc.edu

Think Stats: Probability and Statistics for Programmers

13.像數(shù)據(jù)科學家一樣思考

以上已經(jīng)詳細的介紹了數(shù)據(jù)科學家所需要的具體技巧。想要像數(shù)據(jù)科學家一樣思考移稳,建立正確的態(tài)度蕴纳,只有這些技術是遠遠不夠的。以下列出了成為合格數(shù)據(jù)科學家的7項挑戰(zhàn):

(1) 保持對數(shù)據(jù)的好奇

作為一名數(shù)據(jù)科學家个粱,你要自己找問題并且自己做出回答古毛。數(shù)據(jù)科學家要自然而然的對他們看到的數(shù)據(jù)產(chǎn)生好奇,并找到解決問題的創(chuàng)新性方法都许。

很多時候數(shù)據(jù)科學并不只是分析稻薇,而是找出一個有趣的問題并且找到解決方案。

這里有兩個典型的案例:

Hilary: the most poisoned baby name in US history

A Look at Fire Response Data

總結: 對你感興趣的問題或者主題進行思考胶征,然后用數(shù)據(jù)的方式作出回答塞椎。

(2) 用懷疑的眼光閱讀新聞

數(shù)據(jù)科學家的很多貢獻往往是,他們從一堆信息里找出了哪些是重要的睛低、哪些是假的(這是機器很難取代數(shù)據(jù)科學家的原因)案狠,這種習慣性的懷疑的眼光在任何科學領域都是有益的,尤其是在發(fā)展速度快的領域钱雷,因為這些領域更容易被假象誤導骂铁。

在看新聞的時候練習批判性的眼光吧,很多文章本質上都是有瑕疵的急波。這里有兩個例子从铲,評論里有答案:

Easier:You Love Your iPhone. Literally

Harder:Who predicted Russia’s military intervention?

總結:每當你看到新的文章時,記得持懷疑的態(tài)度澄暮,對文章進行評論名段,并指出它的問題在哪阱扬。

(3) 把數(shù)據(jù)看成是改善消費者產(chǎn)品的工具

試著了解一款互聯(lián)網(wǎng)產(chǎn)品,檢查它的主要渠道伸辟。有沒有結賬渠道麻惶?注冊渠道?訂單渠道信夫?

反復的檢查這些渠道窃蹋,然后提出一些假設方案來提升核心指標(比如轉化率、用戶分享數(shù)静稻、注冊用戶數(shù)量等)警没。設計實驗來驗證你的假設是否真的會改變這些指標。

總結:通過反饋郵件跟這個網(wǎng)站分享你的idea

(4) 像貝葉斯一樣思考

像貝葉斯一樣思考振湾,用先驗來作判斷杀迹。這意味著,要想樹立起數(shù)據(jù)科學家的思維方式押搪,就必須一方面能夠周詳考慮新觀測到的信息树酪,另一方面又需要以往的直覺和經(jīng)驗(貝葉斯里的先驗)。

比如大州,檢查下數(shù)據(jù)续语,發(fā)現(xiàn)今天的用戶參與量明顯下降了,下面哪種原因是最有可能的呢厦画?

用戶參與量就是會突然的減少

網(wǎng)站的某些功能down掉了

登陸模塊down掉了

盡管1也能夠作為一種解釋疮茄,但是2和3看上去比1更靠譜,因為根據(jù)先驗概率來看苛白,2和3的概率要比1更大娃豹。

再比如,你是Tesla公司的高級工程師购裙,而在上個月中懂版,5輛Tesla S著火了。有可能是什么原因呢躏率?

生產(chǎn)質量下降了躯畴,現(xiàn)在Tesla的安全性應當被重新測試

安全性不是問題,因為與其他同行汽油車相比薇芝,Tesla S著火的概率已經(jīng)算很低的了

即使沒什么經(jīng)驗的人也可能會得出1這樣的結論蓬抄,如果你經(jīng)常做質量測試,那你的先驗對2是否正確就會更有把握夯到。不過嚷缭,你應該繼續(xù)尋找分別支持兩個結論的信息,并繼續(xù)尋找提升質量的辦法,那么問題來了:什么樣的信息應該值得留意呢阅爽?

總結:回想一下你上一次沒有用先驗來指導思考就得出結論是什么時候路幸,從現(xiàn)在開始避免再犯類似的錯誤。

(5) 了解每種工具的能力

“Knowledge is knowing that a tomato is a fruit, wisdom is not putting it in a fruit salad.” - Miles Kington

知識會指導你實現(xiàn)經(jīng)典的線性回歸付翁,而經(jīng)驗會告訴你這在實際當中幾乎不會用到简肴。

知識會讓你了解k-means聚類的5種變種,而經(jīng)驗會告訴你實際當中幾乎不會單獨在數(shù)據(jù)上聚類百侧,以及k-means在特征過多的時候表現(xiàn)是多么的不如人意砰识。

知識會告訴你一堆復雜的技術,而經(jīng)驗會告訴你怎么在有限的時間里從這里邊為你的公司選擇一個最能產(chǎn)生效益的佣渴。

當你到Coursera或EdX上學一門課的時候辫狼,你可能會隨著課程開發(fā)出一堆工具,除非你能搞清楚在什么場合下用哪個合適辛润,否則這一堆工具毫無實際作用予借。

總結:在真實數(shù)據(jù)上嘗試各種工具,發(fā)現(xiàn)他們各自的優(yōu)點和不足频蛔。哪種工具在這種場合下最好,為什么秦叛?

(6) 給別人講一個復雜的概念

Richard Feynman是怎么判斷哪個概念他能懂晦溪,哪個不懂呢?

Feynman稱得上是一位偉大的老師挣跋,他能夠向一些什么都不懂的學生講明白一些較深的知識三圆,這一點他為自己感到自豪。有人告訴他說:“Dick避咆,跟我解釋一下舟肉,為什么自選1/2粒子服從費米 - 狄拉克統(tǒng)計”,他考慮了一下聽眾的知識水平查库,然后說路媚,“我會針對這個專門為新生講一次課的》”過了幾天他說:“我做不到整慎。這個知識沒有辦法簡化到新生能聽懂的地步。這意味著我們并沒有真的搞懂了這個知識點”

Richard Feynman與眾不同的地方就在于他能夠提煉復雜的概念围苫,把他們轉換成可以理解的想法裤园。類似的,一流的數(shù)據(jù)科學家與眾不同的地方就是他們能夠誠懇的分享他們的想法并且對這些想法作出解釋和分析剂府。

總結:把你懂的一種技術概念介紹給你的朋友吧拧揽,也可以是在知乎、Quora或者優(yōu)酷、youtube上淤袜。

(7) 說服其他人什么才是重要的

對一個數(shù)據(jù)科學家來說痒谴,比解釋他們的分析更重要的,可能是與大家交流某個見解的價值和潛在的影響饮怯。

數(shù)據(jù)科學的某個具體的任務將會商品化編程數(shù)據(jù)科學工具闰歪,然后不斷的完善。新工具會讓一些任務更新迭代蓖墅,比如手寫版應用库倘、data wrangling(數(shù)據(jù)清洗)、甚至是某些預測建模论矾。

然而教翩,數(shù)據(jù)科學家發(fā)現(xiàn)并和別人分享什么才是重要的,這種能力永遠不會過時贪壳。數(shù)據(jù)量在逐漸增加饱亿,對數(shù)據(jù)的一些潛在的見解也在增加,公司總會需要數(shù)據(jù)科學家來找出該怎么做才能對任務進行優(yōu)化闰靴。

數(shù)據(jù)科學家在企業(yè)中扮演的角色彪笼,是數(shù)據(jù)和公司之間的使者。數(shù)據(jù)科學家成功與否蚂且,關鍵在于他/她是怎么講故事的配猫、以及對公司帶來了什么樣的影響,其他的技能都是對這種能力的一種放大杏死。

總結:從統(tǒng)計學的角度來講故事吧泵肄,跟別人交流你在數(shù)據(jù)上的重要發(fā)現(xiàn),針對觀眾關心的事做些具有說服力的presentation淑翼。

14.關于找工作

15.不同人群如何成為數(shù)據(jù)科學家定制版

本科生如何成為數(shù)據(jù)科學家

博士生如何成為數(shù)據(jù)科學家

沒有任何技術的人如何數(shù)據(jù)科學家

沒有本科學歷如何成為數(shù)據(jù)科學家

沒有博士學歷如何成為數(shù)據(jù)科學家

物理專業(yè)的博士如何成為數(shù)據(jù)科學家

正在從事其他行業(yè)工作的人如何成為數(shù)據(jù)科學家

不會編程如何成為數(shù)據(jù)科學家

更多的數(shù)據(jù)科學FAQ

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末腐巢,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子玄括,更是在濱河造成了極大的恐慌冯丙,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惠豺,死亡現(xiàn)場離奇詭異银还,居然都是意外死亡,警方通過查閱死者的電腦和手機洁墙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進店門蛹疯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人热监,你說我怎么就攤上這事捺弦。” “怎么了?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵列吼,是天一觀的道長幽崩。 經(jīng)常有香客問我,道長寞钥,這世上最難降的妖魔是什么慌申? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮理郑,結果婚禮上蹄溉,老公的妹妹穿的比我還像新娘。我一直安慰自己您炉,他們只是感情好柒爵,可當我...
    茶點故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著赚爵,像睡著了一般棉胀。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上冀膝,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天唁奢,我揣著相機與錄音,去河邊找鬼窝剖。 笑死驮瞧,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的枯芬。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼采郎,長吁一口氣:“原來是場噩夢啊……” “哼千所!你這毒婦竟也來了?” 一聲冷哼從身側響起蒜埋,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤淫痰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后整份,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體待错,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年烈评,在試婚紗的時候發(fā)現(xiàn)自己被綠了火俄。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,680評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡讲冠,死狀恐怖瓜客,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤谱仪,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布玻熙,位于F島的核電站,受9級特大地震影響疯攒,放射性物質發(fā)生泄漏嗦随。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一敬尺、第九天 我趴在偏房一處隱蔽的房頂上張望枚尼。 院中可真熱鬧,春花似錦筷转、人聲如沸姑原。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锭汛。三九已至,卻和暖如春袭蝗,著一層夾襖步出監(jiān)牢的瞬間唤殴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工到腥, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留朵逝,地道東北人。 一個月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓乡范,卻偏偏與公主長得像配名,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子晋辆,可洞房花燭夜當晚...
    茶點故事閱讀 45,691評論 2 361

推薦閱讀更多精彩內(nèi)容