數(shù)據(jù)科學(xué)家、大數(shù)據(jù)州胳、統(tǒng)計學(xué)

本文觀點來自對《如何成為一位數(shù)據(jù)科學(xué)家——大數(shù)據(jù)時代的統(tǒng)計學(xué)思考》(Rachel Schutt, Cathy O'Neil)的閱讀记焊。

文中并沒有給出數(shù)據(jù)科學(xué)家的定義,但是給出了其應(yīng)具有的技能:統(tǒng)計學(xué)栓撞、線性代數(shù)遍膜、編程技能、數(shù)據(jù)預(yù)處理瓤湘、數(shù)據(jù)再加工瓢颅、數(shù)據(jù)建模、可視化和有效溝通弛说。而該篇文章只對統(tǒng)計學(xué)進行了介紹挽懦。

一、統(tǒng)計推斷

“數(shù)據(jù)就是現(xiàn)實世界運轉(zhuǎn)留下來的痕跡木人。而這些痕跡會被如何展示出來信柿,則取決于我們采用什么樣的數(shù)據(jù)收集和樣本采集方法”。作為數(shù)據(jù)科學(xué)家醒第,其任務(wù)是將現(xiàn)實世界轉(zhuǎn)化為抽象數(shù)據(jù)渔嚷,然后從抽象數(shù)據(jù)中發(fā)現(xiàn)知識,再將該知識應(yīng)用于現(xiàn)實世界稠曼。這個過程可能不是一次性的圃伶,更可能是迭代的。因為未必一次發(fā)現(xiàn)的知識就是完全正確的蒲列≈吓螅可能還要將該知識在現(xiàn)實世界中再進行驗證,然后根據(jù)驗證結(jié)果再進行一輪現(xiàn)實世界——數(shù)據(jù)抽象——現(xiàn)實世界的過程蝗岖。這一從現(xiàn)實世界到數(shù)據(jù)侥猩,再從數(shù)據(jù)到現(xiàn)實世界的流程就是統(tǒng)計推斷的領(lǐng)域。這門學(xué)科關(guān)注從過程產(chǎn)生的數(shù)據(jù)中提取信息抵赢,包含流程欺劳、方法和理論。由于整個過程中人(數(shù)據(jù)科學(xué)家)的存在铅鲤,因此這并不是像人們想的那樣是客觀的划提,而是明顯主觀的。例如可以選擇不同的過程邢享,以及通過不同的方式采集得到不同的數(shù)據(jù)鹏往。

二、總體和樣本

這個比較好理解骇塘,總體就是全部的觀察對象伊履,樣本就是總體中的選取的一個子集韩容。但這涉及到如何選取這個子集,即采樣方法的問題唐瀑。如果采樣方法存在偏差群凶,那么通過對樣本的研究得出的結(jié)論也是有偏差的。

這里哄辣,作者提到了大數(shù)據(jù)请梢。即如果有能力對所有數(shù)據(jù)進行分析,還需要進行采樣分析嗎力穗?作者也并沒有直接回答這個問題毅弧,而是指出即使在谷歌,數(shù)據(jù)科學(xué)家和統(tǒng)計學(xué)家都在用到采樣來處理大數(shù)據(jù)睛廊。而且是否采樣也取決于個人想實際解決的問題形真。

我的理解是,大數(shù)據(jù)技術(shù)(Hadoop超全,Spark等)提供了更有力量的一個手段來幫助人們進行更全面的分析咆霜,但它也有相應(yīng)的代價,包括人力成本嘶朱、計算成本和時間成本蛾坯。就像殺雞是否要用牛刀一樣,不同問題還是適合用不同的工具來解決疏遏。因此采樣統(tǒng)計仍然是解決問題的一個可選手段脉课。

三、偏差

這里舉了個有趣的例子财异,微軟研究院的Kate Crawford女士提到倘零,如果對颶風(fēng)桑迪前后對推特數(shù)據(jù)進行分析,會得到如下結(jié)論:人們在颶風(fēng)來臨前在購物戳寸,颶風(fēng)過后在聚會呈驶。這里的購物可不是為了應(yīng)對颶風(fēng)而大采購。好像這個結(jié)論告訴大家颶風(fēng)對人們沒什么影響疫鹊。但實際上袖瞻,由于分析的樣本就不對,結(jié)論自然不對拆吆。推特的重度用戶是紐約人聋迎,他們的確是完全不受颶風(fēng)影響的,但那些受颶風(fēng)影響的人們卻不怎么發(fā)推特枣耀。這就是采樣導(dǎo)致的偏差的一個例子霉晕。

四、新的數(shù)據(jù)類型

由于互聯(lián)網(wǎng)的快速發(fā)展,要分析的數(shù)據(jù)類型也從原來簡單的數(shù)據(jù)(數(shù)字娄昆、分類變量和二進制變量)發(fā)展為更加豐富的數(shù)據(jù)類型佩微,包括:

文字:電子郵件缝彬、微博萌焰、網(wǎng)站上的文章等;

記錄:用戶數(shù)據(jù)谷浅、帶有時間戳的事件記錄和JSON格式的日志文件扒俯;

地理位置信息數(shù)據(jù);

網(wǎng)絡(luò):這里應(yīng)該指的是例如朋友關(guān)聯(lián)一疯、人際關(guān)系等事物之間連接關(guān)系構(gòu)成的網(wǎng)絡(luò)或圖撼玄;

多媒體信息:包括圖片、音頻和視頻等墩邀。

這些新數(shù)據(jù)類型的出現(xiàn)使得數(shù)據(jù)科學(xué)家在選擇數(shù)據(jù)時應(yīng)更謹(jǐn)慎掌猛,并且需要研究不同類型的分析方法。

作者還給出了其對“大數(shù)據(jù)”的理解:大數(shù)據(jù)是大是相對的眉睹,20世紀(jì)70年代的大數(shù)據(jù)概念和現(xiàn)在的大數(shù)據(jù)概念是不一樣的荔茬。當(dāng)用一臺機器無法處理時,就可以稱為“大數(shù)據(jù)”竹海。

另外慕蔚,作者并不認(rèn)同庫克耶和邁爾-舍恩伯格的文章“The Rise of Big Data”中的觀點:接受數(shù)據(jù)中存在雜亂噪聲;重視結(jié)論斋配,放棄探究產(chǎn)生結(jié)果的原因孔飒。他們提出這觀點的原因是,認(rèn)為總體就是全部艰争,有了全部坏瞄,就能夠得出正確的結(jié)論。但本文作者認(rèn)為總體并不等于全部甩卓。因為總體其實也取決于數(shù)據(jù)科學(xué)家的判斷鸠匀,一旦判斷出錯,認(rèn)為是全體研究對象產(chǎn)生了這些數(shù)據(jù)猛频,但實際上只是部分研究對象產(chǎn)生的狮崩,就會發(fā)生錯誤。正如同上述的通過推特用戶研究颶風(fēng)影響的例子鹿寻。也正因為此睦柴,作者提出“數(shù)據(jù)是不客觀的”。

五毡熏、建模

作為一名數(shù)據(jù)科學(xué)家坦敌,建模是不可避免的研究數(shù)據(jù)的手段。通過建模找出數(shù)據(jù)的規(guī)律,并采用模型表示這些規(guī)律狱窘,以及用于在現(xiàn)實世界中進行進一步驗證杜顺。模型有很多表達(dá)方式,在不同的學(xué)科和領(lǐng)域有不同的形式蘸炸,比如建筑學(xué)中用藍(lán)圖和三維立體模型躬络,分子生物學(xué)中用連接氨基酸的三維圖像表示蛋白質(zhì)結(jié)構(gòu),數(shù)據(jù)科學(xué)家用函數(shù)來描述數(shù)據(jù)的規(guī)律搭儒。

那么等于一堆看起來雜亂無章的數(shù)據(jù)穷当,應(yīng)該怎么建模呢?應(yīng)該怎么選擇模型呢淹禾?作者認(rèn)為模型的選擇一半是藝術(shù)馁菜,一半是科學(xué)。無非還是需要依靠假設(shè)铃岔、從最簡單模型起步汪疮、探索性分析、反復(fù)嘗試以及模型復(fù)雜度(建模代價)與模型準(zhǔn)確率之間的權(quán)衡等方式毁习。接著作者對建模時用到的最基本的概率分布進行了介紹智嚷。這些就是概率書本上的一些經(jīng)典概率分布,這里直接引用了原文中的圖:

幾種典型概率分布

另外蜓洪,要避免建模過程中出現(xiàn)過擬合問題纤勒。所謂過擬合,也就是模型對于樣本數(shù)據(jù)特別符合隆檀,但對于樣本之外的數(shù)據(jù)卻并不能準(zhǔn)確描述摇天。也就是說建立的模型失去了其普適性,往往是因為對于樣本數(shù)據(jù)過于調(diào)優(yōu)所致恐仑。

六泉坐、數(shù)據(jù)科學(xué)的工作流程

這里也直接引用原文中的圖:

數(shù)據(jù)科學(xué)工作流程

該流程中的幾個活動從字面上都比較能直觀地理解其含義。但可以看到幾個特點:

活動之間有迭代裳仆。從探索性數(shù)據(jù)分析可能會回到收集原始數(shù)據(jù)腕让,再進行一次迭代。因為探索性分析就有可能出現(xiàn)分析錯誤歧斟,所以需要再次進行從頭開始纯丸。

活動不是按照固定步驟進行。沒有固定的流程静袖,有些活動是可以跳過的觉鼻。例如清理數(shù)據(jù)后,可以選擇機器學(xué)習(xí)算法訓(xùn)練模型队橙,然后再進行溝通坠陈、可視化和報告萨惑,也可以清理數(shù)據(jù)結(jié)束就進入到溝通、可視化和報告仇矾。還有就是機器學(xué)習(xí)之后可以進入到構(gòu)建數(shù)據(jù)產(chǎn)品庸蔼。其實這些活動往往取決于此次數(shù)據(jù)分析的目的,有時候可以跳過某些活動贮匕,有時候這些活動可以并行執(zhí)行姐仅。

模型結(jié)果要反饋回現(xiàn)實世界。就是圖中的虛線箭頭粗合。因為一次分析往往只是對采樣樣本進行研究得到模型萍嬉,但是否能夠適用于更廣大的未采樣樣本乌昔,還需要進一步驗證隙疚。另外,得到了數(shù)據(jù)模型磕道,往往是需要依據(jù)該模型進行決策供屉,調(diào)整系統(tǒng),然后將調(diào)整的系統(tǒng)再次在現(xiàn)實世界中運行溺蕉,看是否能夠達(dá)到調(diào)整預(yù)期伶丐。例如,根據(jù)對網(wǎng)站用戶行為的建模疯特,調(diào)整了推薦系統(tǒng)的推薦策略哗魂,實施后是否真的提升了網(wǎng)站的產(chǎn)品銷售量,就需要進一步驗證研究了漓雅。

七录别、數(shù)據(jù)科學(xué)家在數(shù)據(jù)科學(xué)工作流程中的角色

這里也引用了原文中的圖:

數(shù)據(jù)科學(xué)家的活動

其實,大家要注意邻吞,這張圖只是舉例這幾個環(huán)節(jié)需要數(shù)據(jù)科學(xué)家做哪些活動组题,但并不是說數(shù)據(jù)科學(xué)家僅僅參與這幾個環(huán)節(jié),其實很容易想到他們肯定還要參與所有后續(xù)活動抱冷,如探索性數(shù)據(jù)分析崔列、機器學(xué)習(xí)、溝通和構(gòu)建數(shù)據(jù)產(chǎn)品等旺遮。

以上赵讯,就是基于原文對數(shù)據(jù)科學(xué)家的一個簡單介紹。原文對幾個觀點的質(zhì)疑還是比較中肯耿眉。例如對2008年《Wired》雜志主編Chris Anderson在雜志上發(fā)表的文章“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”中所認(rèn)為的边翼,數(shù)據(jù)即信息,有了數(shù)據(jù)就不需要哦行了跷敬,了解相關(guān)性就夠了讯私。并且說以海量數(shù)據(jù)為例热押,“谷歌根本沒有使用模型”。顯然上述說法明顯是有問題的斤寇。還有就是對庫克耶和邁爾-舍恩伯格提的“N=全部”觀點的質(zhì)疑桶癣。因此意見領(lǐng)袖由于不是該行業(yè)的專家,因此只是向廣大群眾介紹了相關(guān)概念和問題娘锁,但其說法并不一定準(zhǔn)確牙寞。因此要對意見領(lǐng)袖的話保持自己一定的判斷。

參考文獻

1. 如何成為一位數(shù)據(jù)科學(xué)家——大數(shù)據(jù)時代的統(tǒng)計學(xué)思考莫秆, Rachel Schutt, Cathy O'Neil

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末间雀,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子镊屎,更是在濱河造成了極大的恐慌惹挟,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缝驳,死亡現(xiàn)場離奇詭異连锯,居然都是意外死亡,警方通過查閱死者的電腦和手機用狱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門运怖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來夏伊,“玉大人摇展,你說我怎么就攤上這事∧缬牵” “怎么了咏连?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長砸狞。 經(jīng)常有香客問我捻勉,道長,這世上最難降的妖魔是什么刀森? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任踱启,我火速辦了婚禮,結(jié)果婚禮上研底,老公的妹妹穿的比我還像新娘埠偿。我一直安慰自己,他們只是感情好榜晦,可當(dāng)我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布冠蒋。 她就那樣靜靜地躺著,像睡著了一般乾胶。 火紅的嫁衣襯著肌膚如雪抖剿。 梳的紋絲不亂的頭發(fā)上朽寞,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天,我揣著相機與錄音斩郎,去河邊找鬼脑融。 笑死,一個胖子當(dāng)著我的面吹牛缩宜,可吹牛的內(nèi)容都是我干的肘迎。 我是一名探鬼主播,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼锻煌,長吁一口氣:“原來是場噩夢啊……” “哼妓布!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起宋梧,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤匣沼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后乃秀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肛著,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年跺讯,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片殉农。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡刀脏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出超凳,到底是詐尸還是另有隱情愈污,我是刑警寧澤,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布轮傍,位于F島的核電站暂雹,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏创夜。R本人自食惡果不足惜杭跪,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望驰吓。 院中可真熱鬧涧尿,春花似錦、人聲如沸檬贰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽翁涤。三九已至桥言,卻和暖如春萌踱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背号阿。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工虫蝶, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人倦西。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓能真,卻偏偏與公主長得像,于是被迫代替她去往敵國和親扰柠。 傳聞我的和親對象是個殘疾皇子粉铐,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容