數(shù)據(jù)科學(xué)家、大數(shù)據(jù)州胳、統(tǒng)計學(xué)

本文觀點來自對《如何成為一位數(shù)據(jù)科學(xué)家——大數(shù)據(jù)時代的統(tǒng)計學(xué)思考》（Rachel Schutt, Cathy O'Neil）的閱讀记焊。

文中并沒有給出數(shù)據(jù)科學(xué)家的定義，但是給出了其應(yīng)具有的技能：統(tǒng)計學(xué)栓撞、線性代數(shù)遍膜、編程技能、數(shù)據(jù)預(yù)處理瓤湘、數(shù)據(jù)再加工瓢颅、數(shù)據(jù)建模、可視化和有效溝通弛说。而該篇文章只對統(tǒng)計學(xué)進行了介紹挽懦。

一、統(tǒng)計推斷

“數(shù)據(jù)就是現(xiàn)實世界運轉(zhuǎn)留下來的痕跡木人。而這些痕跡會被如何展示出來信柿，則取決于我們采用什么樣的數(shù)據(jù)收集和樣本采集方法”。作為數(shù)據(jù)科學(xué)家醒第，其任務(wù)是將現(xiàn)實世界轉(zhuǎn)化為抽象數(shù)據(jù)渔嚷，然后從抽象數(shù)據(jù)中發(fā)現(xiàn)知識，再將該知識應(yīng)用于現(xiàn)實世界稠曼。這個過程可能不是一次性的圃伶，更可能是迭代的。因為未必一次發(fā)現(xiàn)的知識就是完全正確的蒲列≈吓螅可能還要將該知識在現(xiàn)實世界中再進行驗證，然后根據(jù)驗證結(jié)果再進行一輪現(xiàn)實世界——數(shù)據(jù)抽象——現(xiàn)實世界的過程蝗岖。這一從現(xiàn)實世界到數(shù)據(jù)侥猩，再從數(shù)據(jù)到現(xiàn)實世界的流程就是統(tǒng)計推斷的領(lǐng)域。這門學(xué)科關(guān)注從過程產(chǎn)生的數(shù)據(jù)中提取信息抵赢，包含流程欺劳、方法和理論。由于整個過程中人（數(shù)據(jù)科學(xué)家）的存在铅鲤，因此這并不是像人們想的那樣是客觀的划提，而是明顯主觀的。例如可以選擇不同的過程邢享，以及通過不同的方式采集得到不同的數(shù)據(jù)鹏往。

二、總體和樣本

這個比較好理解骇塘，總體就是全部的觀察對象伊履，樣本就是總體中的選取的一個子集韩容。但這涉及到如何選取這個子集，即采樣方法的問題唐瀑。如果采樣方法存在偏差群凶，那么通過對樣本的研究得出的結(jié)論也是有偏差的。

這里哄辣，作者提到了大數(shù)據(jù)请梢。即如果有能力對所有數(shù)據(jù)進行分析，還需要進行采樣分析嗎力穗？作者也并沒有直接回答這個問題毅弧，而是指出即使在谷歌，數(shù)據(jù)科學(xué)家和統(tǒng)計學(xué)家都在用到采樣來處理大數(shù)據(jù)睛廊。而且是否采樣也取決于個人想實際解決的問題形真。

我的理解是，大數(shù)據(jù)技術(shù)（Hadoop超全，Spark等）提供了更有力量的一個手段來幫助人們進行更全面的分析咆霜，但它也有相應(yīng)的代價，包括人力成本嘶朱、計算成本和時間成本蛾坯。就像殺雞是否要用牛刀一樣，不同問題還是適合用不同的工具來解決疏遏。因此采樣統(tǒng)計仍然是解決問題的一個可選手段脉课。

三、偏差

這里舉了個有趣的例子财异，微軟研究院的Kate Crawford女士提到倘零，如果對颶風(fēng)桑迪前后對推特數(shù)據(jù)進行分析，會得到如下結(jié)論：人們在颶風(fēng)來臨前在購物戳寸，颶風(fēng)過后在聚會呈驶。這里的購物可不是為了應(yīng)對颶風(fēng)而大采購。好像這個結(jié)論告訴大家颶風(fēng)對人們沒什么影響疫鹊。但實際上袖瞻，由于分析的樣本就不對，結(jié)論自然不對拆吆。推特的重度用戶是紐約人聋迎，他們的確是完全不受颶風(fēng)影響的，但那些受颶風(fēng)影響的人們卻不怎么發(fā)推特枣耀。這就是采樣導(dǎo)致的偏差的一個例子霉晕。

四、新的數(shù)據(jù)類型

由于互聯(lián)網(wǎng)的快速發(fā)展，要分析的數(shù)據(jù)類型也從原來簡單的數(shù)據(jù)（數(shù)字娄昆、分類變量和二進制變量）發(fā)展為更加豐富的數(shù)據(jù)類型佩微，包括：

文字：電子郵件缝彬、微博萌焰、網(wǎng)站上的文章等；

記錄：用戶數(shù)據(jù)谷浅、帶有時間戳的事件記錄和JSON格式的日志文件扒俯；

地理位置信息數(shù)據(jù)；

網(wǎng)絡(luò)：這里應(yīng)該指的是例如朋友關(guān)聯(lián)一疯、人際關(guān)系等事物之間連接關(guān)系構(gòu)成的網(wǎng)絡(luò)或圖撼玄；

多媒體信息：包括圖片、音頻和視頻等墩邀。

這些新數(shù)據(jù)類型的出現(xiàn)使得數(shù)據(jù)科學(xué)家在選擇數(shù)據(jù)時應(yīng)更謹(jǐn)慎掌猛，并且需要研究不同類型的分析方法。

作者還給出了其對“大數(shù)據(jù)”的理解：大數(shù)據(jù)是大是相對的眉睹，20世紀(jì)70年代的大數(shù)據(jù)概念和現(xiàn)在的大數(shù)據(jù)概念是不一樣的荔茬。當(dāng)用一臺機器無法處理時，就可以稱為“大數(shù)據(jù)”竹海。

另外慕蔚，作者并不認(rèn)同庫克耶和邁爾-舍恩伯格的文章“The Rise of Big Data”中的觀點：接受數(shù)據(jù)中存在雜亂噪聲；重視結(jié)論斋配，放棄探究產(chǎn)生結(jié)果的原因孔飒。他們提出這觀點的原因是，認(rèn)為總體就是全部艰争，有了全部坏瞄，就能夠得出正確的結(jié)論。但本文作者認(rèn)為總體并不等于全部甩卓。因為總體其實也取決于數(shù)據(jù)科學(xué)家的判斷鸠匀，一旦判斷出錯，認(rèn)為是全體研究對象產(chǎn)生了這些數(shù)據(jù)猛频，但實際上只是部分研究對象產(chǎn)生的狮崩，就會發(fā)生錯誤。正如同上述的通過推特用戶研究颶風(fēng)影響的例子鹿寻。也正因為此睦柴，作者提出“數(shù)據(jù)是不客觀的”。

五毡熏、建模

作為一名數(shù)據(jù)科學(xué)家坦敌，建模是不可避免的研究數(shù)據(jù)的手段。通過建模找出數(shù)據(jù)的規(guī)律，并采用模型表示這些規(guī)律狱窘，以及用于在現(xiàn)實世界中進行進一步驗證杜顺。模型有很多表達(dá)方式，在不同的學(xué)科和領(lǐng)域有不同的形式蘸炸，比如建筑學(xué)中用藍(lán)圖和三維立體模型躬络，分子生物學(xué)中用連接氨基酸的三維圖像表示蛋白質(zhì)結(jié)構(gòu)，數(shù)據(jù)科學(xué)家用函數(shù)來描述數(shù)據(jù)的規(guī)律搭儒。

那么等于一堆看起來雜亂無章的數(shù)據(jù)穷当，應(yīng)該怎么建模呢？應(yīng)該怎么選擇模型呢淹禾？作者認(rèn)為模型的選擇一半是藝術(shù)馁菜，一半是科學(xué)。無非還是需要依靠假設(shè)铃岔、從最簡單模型起步汪疮、探索性分析、反復(fù)嘗試以及模型復(fù)雜度（建模代價）與模型準(zhǔn)確率之間的權(quán)衡等方式毁习。接著作者對建模時用到的最基本的概率分布進行了介紹智嚷。這些就是概率書本上的一些經(jīng)典概率分布，這里直接引用了原文中的圖：

幾種典型概率分布

另外蜓洪，要避免建模過程中出現(xiàn)過擬合問題纤勒。所謂過擬合，也就是模型對于樣本數(shù)據(jù)特別符合隆檀，但對于樣本之外的數(shù)據(jù)卻并不能準(zhǔn)確描述摇天。也就是說建立的模型失去了其普適性，往往是因為對于樣本數(shù)據(jù)過于調(diào)優(yōu)所致恐仑。

六泉坐、數(shù)據(jù)科學(xué)的工作流程

這里也直接引用原文中的圖：

數(shù)據(jù)科學(xué)工作流程

該流程中的幾個活動從字面上都比較能直觀地理解其含義。但可以看到幾個特點：

活動之間有迭代裳仆。從探索性數(shù)據(jù)分析可能會回到收集原始數(shù)據(jù)腕让，再進行一次迭代。因為探索性分析就有可能出現(xiàn)分析錯誤歧斟，所以需要再次進行從頭開始纯丸。

活動不是按照固定步驟進行。沒有固定的流程静袖，有些活動是可以跳過的觉鼻。例如清理數(shù)據(jù)后，可以選擇機器學(xué)習(xí)算法訓(xùn)練模型队橙，然后再進行溝通坠陈、可視化和報告萨惑，也可以清理數(shù)據(jù)結(jié)束就進入到溝通、可視化和報告仇矾。還有就是機器學(xué)習(xí)之后可以進入到構(gòu)建數(shù)據(jù)產(chǎn)品庸蔼。其實這些活動往往取決于此次數(shù)據(jù)分析的目的，有時候可以跳過某些活動贮匕，有時候這些活動可以并行執(zhí)行姐仅。

模型結(jié)果要反饋回現(xiàn)實世界。就是圖中的虛線箭頭粗合。因為一次分析往往只是對采樣樣本進行研究得到模型萍嬉，但是否能夠適用于更廣大的未采樣樣本乌昔，還需要進一步驗證隙疚。另外，得到了數(shù)據(jù)模型磕道，往往是需要依據(jù)該模型進行決策供屉，調(diào)整系統(tǒng)，然后將調(diào)整的系統(tǒng)再次在現(xiàn)實世界中運行溺蕉，看是否能夠達(dá)到調(diào)整預(yù)期伶丐。例如，根據(jù)對網(wǎng)站用戶行為的建模疯特，調(diào)整了推薦系統(tǒng)的推薦策略哗魂，實施后是否真的提升了網(wǎng)站的產(chǎn)品銷售量，就需要進一步驗證研究了漓雅。

七录别、數(shù)據(jù)科學(xué)家在數(shù)據(jù)科學(xué)工作流程中的角色

這里也引用了原文中的圖：

數(shù)據(jù)科學(xué)家的活動

其實，大家要注意邻吞，這張圖只是舉例這幾個環(huán)節(jié)需要數(shù)據(jù)科學(xué)家做哪些活動组题，但并不是說數(shù)據(jù)科學(xué)家僅僅參與這幾個環(huán)節(jié)，其實很容易想到他們肯定還要參與所有后續(xù)活動抱冷，如探索性數(shù)據(jù)分析崔列、機器學(xué)習(xí)、溝通和構(gòu)建數(shù)據(jù)產(chǎn)品等旺遮。

以上赵讯，就是基于原文對數(shù)據(jù)科學(xué)家的一個簡單介紹。原文對幾個觀點的質(zhì)疑還是比較中肯耿眉。例如對2008年《Wired》雜志主編Chris Anderson在雜志上發(fā)表的文章“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”中所認(rèn)為的边翼，數(shù)據(jù)即信息，有了數(shù)據(jù)就不需要哦行了跷敬，了解相關(guān)性就夠了讯私。并且說以海量數(shù)據(jù)為例热押，“谷歌根本沒有使用模型”。顯然上述說法明顯是有問題的斤寇。還有就是對庫克耶和邁爾-舍恩伯格提的“N=全部”觀點的質(zhì)疑桶癣。因此意見領(lǐng)袖由于不是該行業(yè)的專家，因此只是向廣大群眾介紹了相關(guān)概念和問題娘锁，但其說法并不一定準(zhǔn)確牙寞。因此要對意見領(lǐng)袖的話保持自己一定的判斷。

參考文獻

1. 如何成為一位數(shù)據(jù)科學(xué)家——大數(shù)據(jù)時代的統(tǒng)計學(xué)思考莫秆， Rachel Schutt, Cathy O'Neil

最后編輯于：2017.12.04 07:21:30

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末间雀，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子镊屎，更是在濱河造成了極大的恐慌惹挟，老刑警劉巖，帶你破解...
沈念sama閱讀 218,858評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件缝驳，死亡現(xiàn)場離奇詭異连锯，居然都是意外死亡，警方通過查閱死者的電腦和手機用狱，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,372評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門运怖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來夏伊，“玉大人摇展，你說我怎么就攤上這事∧缬牵” “怎么了咏连？”我有些...
開封第一講書人閱讀 165,282評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長砸狞。經(jīng)常有香客問我捻勉，道長，這世上最難降的妖魔是什么刀森？我笑而不...
開封第一講書人閱讀 58,842評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任踱启，我火速辦了婚禮，結(jié)果婚禮上研底，老公的妹妹穿的比我還像新娘埠偿。我一直安慰自己，他們只是感情好榜晦，可當(dāng)我...
茶點故事閱讀 67,857評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布冠蒋。她就那樣靜靜地躺著，像睡著了一般乾胶。火紅的嫁衣襯著肌膚如雪抖剿。梳的紋絲不亂的頭發(fā)上朽寞，一...
開封第一講書人閱讀 51,679評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音斩郎，去河邊找鬼脑融。笑死，一個胖子當(dāng)著我的面吹牛缩宜，可吹牛的內(nèi)容都是我干的肘迎。我是一名探鬼主播，決...
沈念sama閱讀 40,406評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼锻煌，長吁一口氣：“原來是場噩夢啊……” “哼妓布！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起宋梧，我...
開封第一講書人閱讀 39,311評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤匣沼，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后乃秀，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肛著，經(jīng)...
沈念sama閱讀 45,767評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年跺讯，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片殉农。...
茶點故事閱讀 40,090評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡刀脏，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出超凳，到底是詐尸還是另有隱情愈污，我是刑警寧澤，帶...
沈念sama閱讀 35,785評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布轮傍，位于F島的核電站暂雹，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏创夜。R本人自食惡果不足惜杭跪，卻給世界環(huán)境...
茶點故事閱讀 41,420評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望驰吓。院中可真熱鬧涧尿，春花似錦、人聲如沸檬贰。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,988評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽翁涤。三九已至桥言，卻和暖如春萌踱，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背号阿。一陣腳步聲響...
開封第一講書人閱讀 33,101評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工虫蝶，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人倦西。一個月前我還...
沈念sama閱讀 48,298評論 3贊 372
代替公主和親
正文我出身青樓能真，卻偏偏與公主長得像，于是被迫代替她去往敵國和親扰柠。傳聞我的和親對象是個殘疾皇子粉铐，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,033評論 2贊 355

數(shù)據(jù)科學(xué)家、大數(shù)據(jù)刊殉、統(tǒng)計學(xué)

數(shù)據(jù)科學(xué)家、大數(shù)據(jù)州胳、統(tǒng)計學(xué)

推薦閱讀更多精彩內(nèi)容