本文觀點來自對《如何成為一位數(shù)據(jù)科學(xué)家——大數(shù)據(jù)時代的統(tǒng)計學(xué)思考》(Rachel Schutt, Cathy O'Neil)的閱讀记焊。
文中并沒有給出數(shù)據(jù)科學(xué)家的定義,但是給出了其應(yīng)具有的技能:統(tǒng)計學(xué)栓撞、線性代數(shù)遍膜、編程技能、數(shù)據(jù)預(yù)處理瓤湘、數(shù)據(jù)再加工瓢颅、數(shù)據(jù)建模、可視化和有效溝通弛说。而該篇文章只對統(tǒng)計學(xué)進行了介紹挽懦。
一、統(tǒng)計推斷
“數(shù)據(jù)就是現(xiàn)實世界運轉(zhuǎn)留下來的痕跡木人。而這些痕跡會被如何展示出來信柿,則取決于我們采用什么樣的數(shù)據(jù)收集和樣本采集方法”。作為數(shù)據(jù)科學(xué)家醒第,其任務(wù)是將現(xiàn)實世界轉(zhuǎn)化為抽象數(shù)據(jù)渔嚷,然后從抽象數(shù)據(jù)中發(fā)現(xiàn)知識,再將該知識應(yīng)用于現(xiàn)實世界稠曼。這個過程可能不是一次性的圃伶,更可能是迭代的。因為未必一次發(fā)現(xiàn)的知識就是完全正確的蒲列≈吓螅可能還要將該知識在現(xiàn)實世界中再進行驗證,然后根據(jù)驗證結(jié)果再進行一輪現(xiàn)實世界——數(shù)據(jù)抽象——現(xiàn)實世界的過程蝗岖。這一從現(xiàn)實世界到數(shù)據(jù)侥猩,再從數(shù)據(jù)到現(xiàn)實世界的流程就是統(tǒng)計推斷的領(lǐng)域。這門學(xué)科關(guān)注從過程產(chǎn)生的數(shù)據(jù)中提取信息抵赢,包含流程欺劳、方法和理論。由于整個過程中人(數(shù)據(jù)科學(xué)家)的存在铅鲤,因此這并不是像人們想的那樣是客觀的划提,而是明顯主觀的。例如可以選擇不同的過程邢享,以及通過不同的方式采集得到不同的數(shù)據(jù)鹏往。
二、總體和樣本
這個比較好理解骇塘,總體就是全部的觀察對象伊履,樣本就是總體中的選取的一個子集韩容。但這涉及到如何選取這個子集,即采樣方法的問題唐瀑。如果采樣方法存在偏差群凶,那么通過對樣本的研究得出的結(jié)論也是有偏差的。
這里哄辣,作者提到了大數(shù)據(jù)请梢。即如果有能力對所有數(shù)據(jù)進行分析,還需要進行采樣分析嗎力穗?作者也并沒有直接回答這個問題毅弧,而是指出即使在谷歌,數(shù)據(jù)科學(xué)家和統(tǒng)計學(xué)家都在用到采樣來處理大數(shù)據(jù)睛廊。而且是否采樣也取決于個人想實際解決的問題形真。
我的理解是,大數(shù)據(jù)技術(shù)(Hadoop超全,Spark等)提供了更有力量的一個手段來幫助人們進行更全面的分析咆霜,但它也有相應(yīng)的代價,包括人力成本嘶朱、計算成本和時間成本蛾坯。就像殺雞是否要用牛刀一樣,不同問題還是適合用不同的工具來解決疏遏。因此采樣統(tǒng)計仍然是解決問題的一個可選手段脉课。
三、偏差
這里舉了個有趣的例子财异,微軟研究院的Kate Crawford女士提到倘零,如果對颶風(fēng)桑迪前后對推特數(shù)據(jù)進行分析,會得到如下結(jié)論:人們在颶風(fēng)來臨前在購物戳寸,颶風(fēng)過后在聚會呈驶。這里的購物可不是為了應(yīng)對颶風(fēng)而大采購。好像這個結(jié)論告訴大家颶風(fēng)對人們沒什么影響疫鹊。但實際上袖瞻,由于分析的樣本就不對,結(jié)論自然不對拆吆。推特的重度用戶是紐約人聋迎,他們的確是完全不受颶風(fēng)影響的,但那些受颶風(fēng)影響的人們卻不怎么發(fā)推特枣耀。這就是采樣導(dǎo)致的偏差的一個例子霉晕。
四、新的數(shù)據(jù)類型
由于互聯(lián)網(wǎng)的快速發(fā)展,要分析的數(shù)據(jù)類型也從原來簡單的數(shù)據(jù)(數(shù)字娄昆、分類變量和二進制變量)發(fā)展為更加豐富的數(shù)據(jù)類型佩微,包括:
文字:電子郵件缝彬、微博萌焰、網(wǎng)站上的文章等;
記錄:用戶數(shù)據(jù)谷浅、帶有時間戳的事件記錄和JSON格式的日志文件扒俯;
地理位置信息數(shù)據(jù);
網(wǎng)絡(luò):這里應(yīng)該指的是例如朋友關(guān)聯(lián)一疯、人際關(guān)系等事物之間連接關(guān)系構(gòu)成的網(wǎng)絡(luò)或圖撼玄;
多媒體信息:包括圖片、音頻和視頻等墩邀。
這些新數(shù)據(jù)類型的出現(xiàn)使得數(shù)據(jù)科學(xué)家在選擇數(shù)據(jù)時應(yīng)更謹(jǐn)慎掌猛,并且需要研究不同類型的分析方法。
作者還給出了其對“大數(shù)據(jù)”的理解:大數(shù)據(jù)是大是相對的眉睹,20世紀(jì)70年代的大數(shù)據(jù)概念和現(xiàn)在的大數(shù)據(jù)概念是不一樣的荔茬。當(dāng)用一臺機器無法處理時,就可以稱為“大數(shù)據(jù)”竹海。
另外慕蔚,作者并不認(rèn)同庫克耶和邁爾-舍恩伯格的文章“The Rise of Big Data”中的觀點:接受數(shù)據(jù)中存在雜亂噪聲;重視結(jié)論斋配,放棄探究產(chǎn)生結(jié)果的原因孔飒。他們提出這觀點的原因是,認(rèn)為總體就是全部艰争,有了全部坏瞄,就能夠得出正確的結(jié)論。但本文作者認(rèn)為總體并不等于全部甩卓。因為總體其實也取決于數(shù)據(jù)科學(xué)家的判斷鸠匀,一旦判斷出錯,認(rèn)為是全體研究對象產(chǎn)生了這些數(shù)據(jù)猛频,但實際上只是部分研究對象產(chǎn)生的狮崩,就會發(fā)生錯誤。正如同上述的通過推特用戶研究颶風(fēng)影響的例子鹿寻。也正因為此睦柴,作者提出“數(shù)據(jù)是不客觀的”。
五毡熏、建模
作為一名數(shù)據(jù)科學(xué)家坦敌,建模是不可避免的研究數(shù)據(jù)的手段。通過建模找出數(shù)據(jù)的規(guī)律,并采用模型表示這些規(guī)律狱窘,以及用于在現(xiàn)實世界中進行進一步驗證杜顺。模型有很多表達(dá)方式,在不同的學(xué)科和領(lǐng)域有不同的形式蘸炸,比如建筑學(xué)中用藍(lán)圖和三維立體模型躬络,分子生物學(xué)中用連接氨基酸的三維圖像表示蛋白質(zhì)結(jié)構(gòu),數(shù)據(jù)科學(xué)家用函數(shù)來描述數(shù)據(jù)的規(guī)律搭儒。
那么等于一堆看起來雜亂無章的數(shù)據(jù)穷当,應(yīng)該怎么建模呢?應(yīng)該怎么選擇模型呢淹禾?作者認(rèn)為模型的選擇一半是藝術(shù)馁菜,一半是科學(xué)。無非還是需要依靠假設(shè)铃岔、從最簡單模型起步汪疮、探索性分析、反復(fù)嘗試以及模型復(fù)雜度(建模代價)與模型準(zhǔn)確率之間的權(quán)衡等方式毁习。接著作者對建模時用到的最基本的概率分布進行了介紹智嚷。這些就是概率書本上的一些經(jīng)典概率分布,這里直接引用了原文中的圖:
另外蜓洪,要避免建模過程中出現(xiàn)過擬合問題纤勒。所謂過擬合,也就是模型對于樣本數(shù)據(jù)特別符合隆檀,但對于樣本之外的數(shù)據(jù)卻并不能準(zhǔn)確描述摇天。也就是說建立的模型失去了其普適性,往往是因為對于樣本數(shù)據(jù)過于調(diào)優(yōu)所致恐仑。
六泉坐、數(shù)據(jù)科學(xué)的工作流程
這里也直接引用原文中的圖:
該流程中的幾個活動從字面上都比較能直觀地理解其含義。但可以看到幾個特點:
活動之間有迭代裳仆。從探索性數(shù)據(jù)分析可能會回到收集原始數(shù)據(jù)腕让,再進行一次迭代。因為探索性分析就有可能出現(xiàn)分析錯誤歧斟,所以需要再次進行從頭開始纯丸。
活動不是按照固定步驟進行。沒有固定的流程静袖,有些活動是可以跳過的觉鼻。例如清理數(shù)據(jù)后,可以選擇機器學(xué)習(xí)算法訓(xùn)練模型队橙,然后再進行溝通坠陈、可視化和報告萨惑,也可以清理數(shù)據(jù)結(jié)束就進入到溝通、可視化和報告仇矾。還有就是機器學(xué)習(xí)之后可以進入到構(gòu)建數(shù)據(jù)產(chǎn)品庸蔼。其實這些活動往往取決于此次數(shù)據(jù)分析的目的,有時候可以跳過某些活動贮匕,有時候這些活動可以并行執(zhí)行姐仅。
模型結(jié)果要反饋回現(xiàn)實世界。就是圖中的虛線箭頭粗合。因為一次分析往往只是對采樣樣本進行研究得到模型萍嬉,但是否能夠適用于更廣大的未采樣樣本乌昔,還需要進一步驗證隙疚。另外,得到了數(shù)據(jù)模型磕道,往往是需要依據(jù)該模型進行決策供屉,調(diào)整系統(tǒng),然后將調(diào)整的系統(tǒng)再次在現(xiàn)實世界中運行溺蕉,看是否能夠達(dá)到調(diào)整預(yù)期伶丐。例如,根據(jù)對網(wǎng)站用戶行為的建模疯特,調(diào)整了推薦系統(tǒng)的推薦策略哗魂,實施后是否真的提升了網(wǎng)站的產(chǎn)品銷售量,就需要進一步驗證研究了漓雅。
七录别、數(shù)據(jù)科學(xué)家在數(shù)據(jù)科學(xué)工作流程中的角色
這里也引用了原文中的圖:
其實,大家要注意邻吞,這張圖只是舉例這幾個環(huán)節(jié)需要數(shù)據(jù)科學(xué)家做哪些活動组题,但并不是說數(shù)據(jù)科學(xué)家僅僅參與這幾個環(huán)節(jié),其實很容易想到他們肯定還要參與所有后續(xù)活動抱冷,如探索性數(shù)據(jù)分析崔列、機器學(xué)習(xí)、溝通和構(gòu)建數(shù)據(jù)產(chǎn)品等旺遮。
以上赵讯,就是基于原文對數(shù)據(jù)科學(xué)家的一個簡單介紹。原文對幾個觀點的質(zhì)疑還是比較中肯耿眉。例如對2008年《Wired》雜志主編Chris Anderson在雜志上發(fā)表的文章“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”中所認(rèn)為的边翼,數(shù)據(jù)即信息,有了數(shù)據(jù)就不需要哦行了跷敬,了解相關(guān)性就夠了讯私。并且說以海量數(shù)據(jù)為例热押,“谷歌根本沒有使用模型”。顯然上述說法明顯是有問題的斤寇。還有就是對庫克耶和邁爾-舍恩伯格提的“N=全部”觀點的質(zhì)疑桶癣。因此意見領(lǐng)袖由于不是該行業(yè)的專家,因此只是向廣大群眾介紹了相關(guān)概念和問題娘锁,但其說法并不一定準(zhǔn)確牙寞。因此要對意見領(lǐng)袖的話保持自己一定的判斷。
參考文獻
1. 如何成為一位數(shù)據(jù)科學(xué)家——大數(shù)據(jù)時代的統(tǒng)計學(xué)思考莫秆, Rachel Schutt, Cathy O'Neil