50年前吹艇,John Tukey他老人家就預(yù)言有個類似今天的數(shù)據(jù)科學(xué)的東西會出現(xiàn)。早在1962年抛猖,他在“數(shù)據(jù)分析的未來(The Future of Data Analysis)”中John Tukey [1] 就嚷著要對學(xué)術(shù)統(tǒng)計進(jìn)行改革财著。這篇文章當(dāng)時發(fā)表在“數(shù)理統(tǒng)計年鑒(The Annals of Mathematical Statistics)”上撑碴,他的觀點震驚了許多統(tǒng)計界的同事,這都是一群根正苗紅的數(shù)理統(tǒng)計出身的大神們伟姐,那會數(shù)理統(tǒng)計年鑒中的文章都是滿滿的數(shù)學(xué)公式推導(dǎo)愤兵,從定義秆乳,定理到證明,邏輯縝密屹堰,理論精確双藕。
當(dāng)然牛人最大的特點就是可以隨時任性忧陪。John推了大半輩子公式突然有天發(fā)現(xiàn)統(tǒng)計不是這么玩的嘶摊,于是他跳出來說:
"很長一段時間我覺得自己是統(tǒng)計學(xué)家叶堆,對統(tǒng)計推斷情有獨鐘斥杜,將從小樣本上研究得到的結(jié)論推廣到更大的群體蔗喂。但隨著數(shù)理統(tǒng)計的發(fā)展,我越發(fā)覺得這個路數(shù)不大對...總的來說畦粮,我覺得自己感興趣的是數(shù)據(jù)分析乖阵,它包括:分析數(shù)據(jù)的過程,解釋該過程得到結(jié)果的技術(shù)儒将,合理計劃收集數(shù)據(jù)的方案使得之后的分析過程更方便準(zhǔn)確钩蚊,以及所有分析中需要用到的儀器和數(shù)學(xué)理論齐蔽。”
用簡短的一句話概括就是:僅僅研究數(shù)學(xué)理論不是數(shù)據(jù)科學(xué)诱渤,數(shù)據(jù)科學(xué)的內(nèi)容涵蓋更廣谈况。
美國密歇根大學(xué)在2015年9月宣布了一個1億美金的“數(shù)據(jù)科學(xué)項目(Data Science Initiative)”递胧,計劃在未來4年聘請35名新教授缎脾,支持與數(shù)據(jù)相關(guān)的跨學(xué)科研究遗菠。大學(xué)媒體大膽的宣稱:
"數(shù)據(jù)科學(xué)已經(jīng)成為第4大科學(xué)發(fā)現(xiàn)手段辙纬,前三個為:實驗叭喜,模型和計算捂蕴。"
這里的數(shù)據(jù)科學(xué)指的是什么?該項目的網(wǎng)站上有如下對數(shù)據(jù)科學(xué)的描述:
"數(shù)據(jù)科學(xué)是科學(xué)發(fā)現(xiàn)和實踐的結(jié)合涡匀,其包括對大量類型各異的數(shù)據(jù)進(jìn)行收集渊跋,管理拾酝,清理卡者,分析崇决,可視化和結(jié)果解釋恒傻。其應(yīng)用遍及各種科學(xué)盈厘,平移和交叉領(lǐng)域。"
如前所述外遇,數(shù)據(jù)科學(xué)是一個新興領(lǐng)域。在美國诡渴,對數(shù)據(jù)分析類專業(yè)人才的需求不斷上升妄辩。研究估計[2]山上,從2015到2018年,美國預(yù)計有400-500萬工作崗位要求數(shù)據(jù)分析技能胶哲,大部分這些崗位的人才需要經(jīng)過特殊訓(xùn)練。前面已經(jīng)介紹過各種和數(shù)據(jù)分析相關(guān)的行業(yè)把敢,這些行業(yè)對專業(yè)訓(xùn)練的要求參差不齊婶恼。其中數(shù)據(jù)科學(xué)家的門檻是最高的。成為一個數(shù)據(jù)科學(xué)家不是容易的事勾邦。不可否認(rèn)眷篇,即使是數(shù)據(jù)科學(xué)家這個職業(yè)名稱蕉饼,當(dāng)前也被濫用了昧港。這些工作的本質(zhì)都是從數(shù)據(jù)中獲取信息。但不是每個都能稱為“科學(xué)”支子。什么樣的東西能夠稱為科學(xué)创肥?我們看看John Tukey在50年前是怎么說的[1]:
怎樣才能稱為科學(xué)呢?回答因人而異。但下面3點大多數(shù)人都同意:
1. 學(xué)術(shù)知識(intellectual content)
2. 用能讓人理解的方式組織起來
3. 實踐是檢驗其結(jié)果的最終標(biāo)準(zhǔn)
也就是說瓤的,數(shù)據(jù)分析要通過上面3條檢驗才能稱為數(shù)據(jù)科學(xué)休弃。我是這樣定義數(shù)據(jù)科學(xué)的:
數(shù)據(jù)科學(xué)=數(shù)據(jù)+科學(xué)=從數(shù)據(jù)中獲取信息的科學(xué)
這是一門新的科學(xué),有各種因素推動了這門科學(xué)的產(chǎn)生圈膏。John提到了4個驅(qū)動因素:
- 正統(tǒng)統(tǒng)計學(xué)理論
- 計算機和電子顯示設(shè)備的高速發(fā)展
- 很多領(lǐng)域內(nèi)更多更大的數(shù)據(jù)提出的挑戰(zhàn)
- 定量分析在更廣的領(lǐng)域受到重視
很難想象這些觀點是在1962年提出的塔猾,現(xiàn)在看來一點也不過時。7年之后稽坤,Tukey和Wilk在1969年又將這門科學(xué)和已經(jīng)存在的科學(xué)進(jìn)行對比丈甸,進(jìn)一步限定了統(tǒng)計學(xué)在數(shù)據(jù)科學(xué)中所扮演的角色:
“...數(shù)據(jù)科學(xué)是一個困難的領(lǐng)域。它需要和人們能用數(shù)據(jù)做什么和想用數(shù)據(jù)做什么這樣的外在條件相適應(yīng)尿褪。從某種意義上說,生物比物理困難臼闻,行為科學(xué)比這兩者都難,很可能總體數(shù)據(jù)科學(xué)的問題比這三者還要難乓搬。無論在現(xiàn)在還是短期的將來坷澡,要建立一個正式的能夠給數(shù)據(jù)分析實踐提供高效指導(dǎo)的數(shù)據(jù)科學(xué)的結(jié)構(gòu)還有很長的路要走。數(shù)據(jù)科學(xué)可以從正規(guī)正統(tǒng)統(tǒng)計學(xué)那里獲得很多,但它們之間也需要保持適當(dāng)?shù)木嚯x拗军。”
數(shù)據(jù)科學(xué)不僅是個科學(xué)領(lǐng)域,而且和其它已經(jīng)存在很久的科學(xué)領(lǐng)域一樣困難挪鹏。統(tǒng)計理論只在數(shù)據(jù)科學(xué)中扮演了部分角色步责,因為數(shù)據(jù)科學(xué)還有藝術(shù)的一面,藝術(shù)部分的發(fā)揮就需要數(shù)據(jù)科學(xué)家啦!
什么是數(shù)據(jù)科學(xué)家?
數(shù)據(jù)科學(xué)家=數(shù)據(jù)+科學(xué)+藝術(shù)家=用數(shù)據(jù)和科學(xué)從事藝術(shù)創(chuàng)作的人
數(shù)據(jù)科學(xué)家立足于科學(xué),但不止于科學(xué)淘钟。從數(shù)據(jù)中提取出信息無疑是重要且有意義的過程毡琉,但這還不夠慧耍。因為分析的終極目標(biāo)是能夠解決問題煌珊,實現(xiàn)價值践美。而從信息到具體應(yīng)用領(lǐng)域的知識兴革,進(jìn)而應(yīng)用所得知識創(chuàng)造價值,這兩步都是需要一些藝術(shù)的咱揍,需要一點想象力硼砰。在之后“數(shù)據(jù)分析一般流程”那章中我會進(jìn)一步討論這個職業(yè)中藝術(shù)的部分诈胜。科學(xué)家需要不斷學(xué)習(xí)坞笙,數(shù)據(jù)科學(xué)家是一個需要終身學(xué)習(xí)職業(yè)梯澜,其實很多職業(yè)都要求這一點吮龄。當(dāng)然午磁,你進(jìn)入這個領(lǐng)域之前有一個門檻得要跨過去搅荞,有些基本的技能需要掌握。上面關(guān)于數(shù)據(jù)科學(xué)以及數(shù)據(jù)科學(xué)家的定義聽起來非常高大上,可能有些抽象庄敛,感覺自己是個文藝女青年涎显。其實也可以用一種更接地氣的方式表達(dá):
數(shù)據(jù)科學(xué)=從數(shù)據(jù)中得到問題答案的科學(xué)
數(shù)據(jù)科學(xué)家=通過科學(xué)方法從數(shù)據(jù)中得到有實際意義 的問題答案的人
數(shù)據(jù)科學(xué)結(jié)合了一整套科學(xué)工具與技術(shù)(數(shù)學(xué),計算脊岳,視覺嘹黔,分析,統(tǒng)計,試驗蹬铺,問題界定啡捶,模型建立與檢驗等),用于從數(shù)據(jù)收集中獲得新發(fā)現(xiàn)、洞察與價值郭卫。使用數(shù)據(jù)科學(xué)的根本目的是解決實際問題。David Donoho在他2015年的文章“數(shù)據(jù)科學(xué)50年(50 years of Data Science)”中[3]討論了當(dāng)今數(shù)據(jù)科學(xué)的全貌舵盈,其中他將數(shù)據(jù)科學(xué)這個大領(lǐng)域分成6塊:
- 數(shù)據(jù)探索和準(zhǔn)備
- 數(shù)據(jù)表示和變換
- 數(shù)據(jù)編程計算
- 數(shù)據(jù)建模
- 數(shù)據(jù)可視化和展示
- 數(shù)據(jù)科學(xué)的科學(xué)
而一個合格的數(shù)據(jù)科學(xué)家扯再,應(yīng)該掌握這6個子領(lǐng)域的相關(guān)技能。
[1] Tukey, John. 1962. “The Future of Data Analysis.” The Annals of Mathematical Statistics, 1–67.
[2] Berkeley. 2015. “What Is Data Science?” https://datascience.berkeley.edu/about/what-is-data-science/.
[3] Donoho, David. 2015. “50 Years of Data Science.”