正文之前
大數(shù)據(jù)是個很玄乎的東西侮措,如果體系成熟,那么基本會波及到生活中的方方面面蟹倾。只要能夠獲取數(shù)據(jù),那么其他的過程基本只要算法模型得當(dāng)猖闪,成本相當(dāng)之低鲜棠,但是如果能夠找到幾個事務(wù)之間的相關(guān)性,然后善加利用培慌,獲取的利益可能遠遠超過前期的投入岔留!如果要主動地去接觸大數(shù)據(jù),那么以下三個觀念可能對你至關(guān)重要检柬。
首先,要分析與某事物相關(guān)的所有數(shù)據(jù)竖配,而不是依靠分析少量的數(shù)據(jù)樣本何址。
其次,我們樂于接受數(shù)據(jù)的紛繁復(fù)雜进胯,而不再追求精確性用爪。
最后,我們的思想發(fā)生了轉(zhuǎn)變胁镐,不再探求難以捉摸的因果關(guān)系偎血,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。
正文
一盯漂、 更多:不是隨機樣本颇玷,而是全體數(shù)據(jù)
1、 大數(shù)據(jù)時代的來臨就缆,頻率說話
“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系帖渠,然而直到最近,我們對此似乎還是難以把握竭宰。IBM的資深“大數(shù)據(jù)”專家杰夫·喬納斯(Jeff Jonas)提出要讓數(shù)據(jù)“說話”空郊。從某種層面上來說,這聽起來很平常切揭。人們使用數(shù)據(jù)已經(jīng)有相當(dāng)長一段時間了狞甚,無論是日常進行 的大量非正式觀察,還是過去幾個世紀(jì)里在專業(yè)層面上用高級算法進行的量化研究廓旬,都與數(shù)據(jù)有關(guān)哼审。
在數(shù)字化時代江咳,數(shù)據(jù)處理變得更加容易政恍、更加快速,人們能夠在瞬間處理成千上萬的數(shù)據(jù)。但當(dāng)我們談?wù)撃堋罢f話”的數(shù)據(jù)時嫁佳,我們指的遠遠不止這些。利用所有的數(shù)據(jù)拥诡,而不再僅僅依靠一小部分?jǐn)?shù)據(jù)绞蹦。
很長一段時間以來,準(zhǔn)確分析大量數(shù)據(jù)對我們而言都是一種挑戰(zhàn)终畅。過去籍胯,因為記錄、儲存和分析數(shù)據(jù)的工具不夠好离福,我們只能收集少量數(shù)據(jù)進行分析杖狼,這讓我們一度很苦惱。為了讓分析變得簡單妖爷,我們會把數(shù)據(jù)量縮減到最少蝶涩。這是一種無意識的自省:我們把與數(shù)據(jù)交流的困難看成是自然的,而沒有意識到這只是當(dāng)時技術(shù)條件下的一種人為的限制絮识。如今绿聘,技術(shù)條件已經(jīng)有了非常大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的次舌,也永遠是有限的熄攘,但是我們可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來會越來越多彼念。這也就是我們學(xué)習(xí)概率論的時候為何總要把概率論和統(tǒng)計學(xué)放在一起挪圾,因為當(dāng)時的統(tǒng)計學(xué)基本都是在小數(shù)據(jù)的基礎(chǔ)上建立的,自然也就存在了概率論一說逐沙,還記得當(dāng)初才學(xué)概率論的時候哲思,一個頻率,一個概率的說法嗎酱吝?還記得差別么也殖?那時候我們對頻率不屑一顧,往往頻率都是出一些簡單的直方圖表格讓你去找頻率务热,概率就涉及各種排列組合忆嗜,可見頻率的地位遠遠地低于概率。但是崎岂,大數(shù)據(jù)時代的來臨捆毫,我們的數(shù)據(jù)足夠了。不需要抽樣調(diào)查了冲甘。不需要考慮那么多的復(fù)雜的抽樣特性了绩卤。所有的不穩(wěn)定因素在大數(shù)據(jù)的恐怖基數(shù)下都被磨滅的差不多了途样,只留下一點點微微的起伏表彰著自己存在過的痕跡!濒憋!
2何暇、 全數(shù)據(jù)模式,樣本=總體
采樣一直有一個被我們廣泛承認卻又總有意避開的缺陷凛驮,現(xiàn)在這個缺陷越來越難以忽視了裆站。采樣忽視了細節(jié)考察。雖然我們別無選擇黔夭,只能利用采樣分析法來進行考察宏胯,但是在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生了本姥。如果可能的話肩袍,我們會收集所有的數(shù)據(jù),即“樣本=總體”婚惫。
正如我們所看到的氛赐,“樣本=總體”是指我們能對數(shù)據(jù)進行深度探討,而采樣幾乎無法達到這 樣的效果先舷。用采樣的方法分析情況鹰祸,正確率可達 97%。對于某些事物來說密浑,3%的錯誤率是可以接受的。但是你無法得到一些微觀細節(jié)的信息粗井, 甚至還會失去對某些特定子類別進行進一步研究的能力尔破。我們不能滿足于正態(tài)分布一般中庸平 凡的景象。生活中真正有趣的事情經(jīng)常藏匿在細節(jié)之中浇衬,而采樣分析法卻無法捕捉到這些細節(jié)懒构。
數(shù)據(jù)科學(xué)家列維特和他的同事馬克·達根(Mark Duggan)使用了11年中超過64000場摔跤比賽的記錄,來尋找異常性耘擂。他們獲得了重大的發(fā)現(xiàn)胆剧。非法操縱比賽結(jié)果的情況確實時有發(fā)生,但是不會出現(xiàn)在大家很關(guān)注的比賽上醉冤。冠軍賽也有可能被操縱秩霍,但是數(shù)據(jù)顯示消極比賽主要還是出現(xiàn)在不 太被關(guān)注的聯(lián)賽的后幾場中。這時基本上沒有什么風(fēng)險蚁阳,因為很多選手根本就沒有獲獎的希望铃绒。
相撲比賽的一個比較特殊的地方是,選手需要在15場賽事中的大部分場次取得勝利才能保 持排名和收入螺捐。這樣一來就會出現(xiàn)利益不對稱的問題颠悬。當(dāng)一名7勝7負的摔跤手碰到一個8勝6負 的對手時矮燎,比賽結(jié)果對第一個選手來說極其重要,對他的對手而言則沒有那么重要赔癌。列維特和 達根發(fā)現(xiàn)诞外,在這樣的情況下,需要贏的那個選手很可能會贏灾票。這看起來像是對手送的“禮物”峡谊, 因為在聯(lián)系緊密的相撲界,幫別人一把就是給自己留了一條后路铝条。
二靖苇、 更雜:不是精確性,而是混雜性
1班缰、 允許不精確
對“小數(shù)據(jù)”而言贤壁,最基本、最重要的要求就是減少錯誤埠忘,保證質(zhì)量脾拆。因為收集的信息量比較少,所以我們必須確保記錄下來的數(shù)據(jù)盡量精確莹妒。無論是確定天體的位置還是觀測顯微鏡下物體的大小名船,為了使結(jié)果更加準(zhǔn)確,很多科學(xué)家都致力于優(yōu)化測量的工具旨怠。在采樣的時候渠驼,對精確度的要求就更高更苛刻了。因為收集信息的有限意味著細微的錯誤會被放大鉴腻,甚至有可能影響整個結(jié)果的準(zhǔn)確性迷扇。
然而,在不斷涌現(xiàn)的新情況里爽哎,允許不精確的出現(xiàn)已經(jīng)成為一個新的亮點蜓席,而非缺點。因為放松了容錯的標(biāo)準(zhǔn)课锌,人們掌握的數(shù)據(jù)也多了起來厨内,還可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡單了渺贤,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果雏胃。
正如前面所說:大數(shù)據(jù)時代,我們允許那些不精確的數(shù)據(jù)進入我們的視野志鞍,因為再大的個體偏差都會在大數(shù)據(jù)的恐怖基數(shù)下磨滅丑掺,成為折線圖上一個小小的齒形波動,當(dāng)然述雾,允許不精確不意味著允許錯誤街州,在普遍都是1-100的數(shù)據(jù)中 冒出來一個100000的數(shù)據(jù)當(dāng)然是不被允許的兼丰。這就是不是不精確而是錯誤了。
2唆缴、 大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法好
以自然語言的識別為例: 當(dāng)數(shù)據(jù)只有500萬的時候鳍征,有一種簡單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達10億的時候面徽,它變成了表現(xiàn)最好的艳丛,準(zhǔn)確率從原來的75%提高到了95%以上。與之相反地趟紊,在少量數(shù)據(jù)情況下運行得 最好的算法氮双,當(dāng)加入更多的數(shù)據(jù)時,也會像其他的算法一樣有所提高霎匈,但是卻變成了在大量數(shù) 據(jù)條件下運行得最不好的戴差。它的準(zhǔn)確率會從86%提高到94%。
所以铛嘱,數(shù)據(jù)多比少好暖释,更多數(shù)據(jù)比算法系統(tǒng)更智能還要重要。那么墨吓,混亂呢球匕?
2006年,谷歌公司也開始涉足機器翻譯帖烘。這被當(dāng)作實現(xiàn)“收集全世界的數(shù)據(jù)資源亮曹,并讓人人 都可享受這些資源”這個目標(biāo)的一個步驟。谷歌翻譯開始利用一個更大更繁雜的數(shù)據(jù)庫秘症,也就是全球的互聯(lián)網(wǎng)乾忱,而不再只利用兩種語言之間的文本翻譯。
谷歌翻譯系統(tǒng)為了訓(xùn)練計算機历极,會吸收它能找到的所有翻譯。它會從各種各樣語言的公司網(wǎng)站上尋找對譯文檔衷佃,還會去尋找聯(lián)合國和歐盟這些國際組織發(fā)布的官方文件和報告的譯本趟卸。
它甚至?xí)账僮x項目中的書籍翻譯。谷歌翻譯部的負責(zé)人弗朗茲·奧齊(Franz Och)是機器翻譯界的權(quán)威氏义,他指出锄列,“谷歌的翻譯系統(tǒng)不會像Candide一樣只是仔細地翻譯300萬句話,它會掌 握用不同語言翻譯的質(zhì)量參差不齊的數(shù)十億頁的文檔惯悠×谟剩”不考慮翻譯質(zhì)量的話,上萬億的語料庫就相當(dāng)于950億句英語克婶。
盡管其輸入源很混亂筒严,但較其他翻譯系統(tǒng)而言丹泉,谷歌的翻譯質(zhì)量相對而言還是最好的,而且可翻譯的內(nèi)容更多鸭蛙。到2012年年中摹恨,谷歌數(shù)據(jù)庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入娶视,并有很流利的對等翻譯晒哄。之所以能做到這些,是因為它將語言視為能夠判別可能性的數(shù)據(jù)肪获,而不是語言本身寝凌。如果要將印度語譯成加泰羅尼亞語,谷歌就會把英語作為中介語言孝赫。因為在翻譯的時候它能適當(dāng)增減詞匯较木,所以谷歌的翻譯比其他系統(tǒng)的翻譯靈活很多。說句實話寒锚,谷歌翻譯的開發(fā)團隊中劫映,沒有人會說谷歌翻譯能翻譯的那些語言的人。
3刹前、 紛繁的數(shù)據(jù)越多越好
有時候泳赋,當(dāng)我們掌握了大量新型數(shù)據(jù)時,精確性就不那么重要了喇喉,我們同樣可以掌握事情的發(fā)展趨勢祖今。大數(shù)據(jù)不僅讓我們不再期待精確性拣技,也讓我們無法實現(xiàn)精確性千诬。然而,除了一開始會與我們的直覺相矛盾之外膏斤,接受數(shù)據(jù)的不精確和不完美徐绑,我們反而能夠更好地進行預(yù)測,也能夠更好地理解這個世界莫辨。
4傲茄、 混雜性,不是竭力避免沮榜,而是標(biāo)準(zhǔn)途徑
互聯(lián)網(wǎng)上最火的網(wǎng)址都表明盘榨,它們欣賞不精確而不會假裝精確。當(dāng)一個人在網(wǎng)站上見到一個Facebook的“喜歡”按鈕時蟆融,可以看到有多少其他人也在點擊草巡。當(dāng)數(shù)量不多時,會顯示 像“63”這種精確的數(shù)字型酥。當(dāng)數(shù)量很大時山憨,則只會顯示近似值查乒,比方說“4000”。這并不代表系統(tǒng)不知道正確的數(shù)據(jù)是多少萍歉,只是當(dāng)數(shù)量規(guī)模變大的時候侣颂,確切的數(shù)量已經(jīng)不那么重要 了。另外枪孩,數(shù)據(jù)更新得非炽旧梗快,甚至在剛剛顯示出來的時候可能就已經(jīng)過時了蔑舞。所以拒担,同樣的 原理適用于時間的顯示。谷歌的Gmail郵箱會確切標(biāo)注在很短時間內(nèi)收到的信件攻询,比方說“11分鐘之前”从撼。但是,對于已經(jīng)收到一段時間的信件钧栖,則會標(biāo)注如“兩個小時之前”這種不太確切的時 間信息低零。
要想獲得大規(guī)模數(shù)據(jù)帶來的好處,混亂應(yīng)該是一種標(biāo)準(zhǔn)途徑拯杠,而不應(yīng)該是竭力避免的掏婶。
三、 更好:不是因果關(guān)系潭陪,而是相關(guān)關(guān)系
1雄妥、 知道“是什么”就夠了,沒必要知道“為什么”依溯。在大數(shù)據(jù)時代老厌,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”黎炉。
知道人們?yōu)槭裁磳@些信息感興趣可能是有用的枝秤,但這個問題目前并不是很重要。但是慷嗜,知道“是什么”可以創(chuàng)造點擊率淀弹,這種洞察力足以重塑很多行業(yè),不僅僅只是電子商務(wù)洪添。所有行業(yè)中的銷售人員早就被告知,他們需要了解是什么讓客戶做出了選擇雀费,要把握客戶 做決定背后的真正原因干奢,因此專業(yè)技能和多年的經(jīng)驗受到高度重視。大數(shù)據(jù)卻顯示盏袄,還有另外一個在某些方面更有用的方法忿峻。亞馬遜的推薦系統(tǒng)梳理出了有趣的相關(guān)關(guān)系薄啥,但不知道背后的 原因。知道是什么就夠了逛尚,沒必要知道為什么垄惧。
上面的這種觀點被我抨擊好久了。因為這個明顯有點不太對經(jīng)啊绰寞。有些時候我們要透過現(xiàn)象看本質(zhì)到逊,但是按照作者的表述:我們停留在表面就ok?不存在的滤钱,任何一個東西觉壶,都會有其因果存在,如果不需要知道因果件缸,停留于表層應(yīng)用便足夠的話铜靶,那么確實大數(shù)據(jù)的相關(guān)關(guān)系更加重要,不過不能全盤否定啊他炊。讓數(shù)據(jù)發(fā)聲是美好的争剿,但是有時候要動腦子啊H蚕苇!數(shù)據(jù)自己又沒有腦子。
2舌胶、 關(guān)聯(lián)物捆蜀,預(yù)測的關(guān)鍵
相關(guān)關(guān)系的核心是量化兩個數(shù)據(jù)值之間的數(shù)理關(guān)系。相關(guān)關(guān)系強是指當(dāng)一個數(shù)據(jù)值增加時幔嫂,另一個數(shù)據(jù)值很有可能也會隨之增加辆它。我們已經(jīng)看到過這種很強的相關(guān)關(guān)系,比如谷歌流感趨勢:在一個特定的地理位置履恩,越多的人通過谷歌搜索特定的詞條锰茉,該地區(qū)就有更多的人患了流感。
相反切心,相關(guān)關(guān)系弱就意味著當(dāng)一個數(shù)據(jù)值增加時飒筑,另一個數(shù)據(jù)值幾乎不會發(fā)生變化。 例如绽昏,我們可以尋找關(guān)于個人的鞋碼和幸福的相關(guān)關(guān)系协屡,但會發(fā)現(xiàn)它們幾乎扯不上什么關(guān)系。
建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心全谤。這種預(yù)測發(fā)生的頻率非常高肤晓,以至于我們經(jīng)常忽略了它的創(chuàng)新性。當(dāng)然,它的應(yīng)用會越來越多补憾。
對于零售商來說漫萄,知道一個顧客是否懷孕是非常重要的。因為這是一對夫妻改變消費觀念的開始盈匾,也是一對夫妻生活的分水嶺腾务。他們會開始光顧以前不會去的商店,漸漸對新的品牌建立忠誠削饵。塔吉特公司的市場專員們向分析部求助岩瘦,看是否有什么辦法
能夠通過一個人的購物方式發(fā)現(xiàn)她是否懷孕。
公司的分析團隊首先查看了簽署嬰兒禮物登記簿的女性的消費記錄葵孤。塔吉特公司注意到担钮,登記簿上的婦女會在懷孕大概第三個月的時候買很多無香乳液。幾個月之后尤仍,她們會買一些營養(yǎng)品箫津,比如鎂、鈣宰啦、鋅苏遥。公司最終找出了大概20多種關(guān)聯(lián)物,這些關(guān)聯(lián)物可以給顧客進行“懷孕趨勢”評分赡模。這些相關(guān)關(guān)系甚至使得零售商能夠比較準(zhǔn)確地預(yù)測預(yù)產(chǎn)期田炭,這樣就能夠在孕期的每 個階段給客戶寄送相應(yīng)的優(yōu)惠券,這才是塔吉特公司的目的漓柑。杜西格在《習(xí)慣的力量》(The Power of Habit)一書中講到了接下來發(fā)生的事情教硫。一天,一個男人沖進了一家位于明尼阿波利斯市郊的塔吉特商店辆布,要求經(jīng)理出來見他瞬矩。他氣憤地 說:“我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優(yōu)惠券锋玲,你們是在鼓勵她懷孕嗎?”而當(dāng)幾天后景用,經(jīng)理打電話向這個男人致歉時,這個男人的語氣變得平和起來惭蹂。他說:“我跟我的女兒談過了伞插,她的預(yù)產(chǎn)期是8月份,是我完全沒有意識到這個事情的發(fā)生盾碗,應(yīng)該說抱歉的人是我媚污。”
從上面這個有趣的小例子我們可以看出來相關(guān)聯(lián)系的重要性廷雅,這也是預(yù)測的核心耗美,如果沒有相關(guān)的事務(wù)進行輔助的預(yù)測氢伟,那么單憑一個現(xiàn)象是無法解決準(zhǔn)確率的問題的!
3幽歼、 大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒?/h5>
在小數(shù)據(jù)時代谬盐,我們會假想世界是怎么運作的甸私,然后通過收集和分析數(shù)據(jù)來驗證這種假想。在不久的將來飞傀,我們會在大數(shù)據(jù)的指導(dǎo)下探索世界皇型,不再受限于各種假想。我們的研究始于數(shù)據(jù)砸烦,也因為數(shù)據(jù)我們發(fā)現(xiàn)了以前不曾發(fā)現(xiàn)的聯(lián)系弃鸦。
假想通常來自自然理論或社會科學(xué),它們也是幫助我們解釋和預(yù)測周遭世界的基礎(chǔ)幢痘。隨著由假想時代到數(shù)據(jù)時代的過渡唬格,我們也很可能認為我們不再需要理論了。
我對上面這種說法很不喜歡颜说,科學(xué)是一個探索的過程购岗,如果由數(shù)據(jù)包辦我們的研究實驗,那么毫無疑問是在限制我們?nèi)祟愡h遠優(yōu)于其他物種的地方门粪,那就是我們天馬行空的想象力喊积,我們可以根據(jù)事務(wù)的結(jié)果進行逆向分析,從而得到各種各樣的假想玄妈,各種的科學(xué)理論乾吻,然后一步步做實驗證明它,大數(shù)據(jù)在我看來就是一個工具而已拟蜻。好比孟德爾實驗绎签,如果不是孟德爾的發(fā)現(xiàn)與假設(shè),怎么可能會有分離定律瞭郑?難道給植物測定形狀么辜御?那么多植物,做這么多傳感器不是浪費么屈张?當(dāng)然擒权,有大數(shù)據(jù)的話確實很方便,好比孟德爾定律的發(fā)現(xiàn)過程阁谆,我們?nèi)绻跀?shù)據(jù)庫中早就有了各個親代子代的數(shù)據(jù)碳抄,那么孟德爾可能從假設(shè)到證明也就幾分鐘的事情。
另外场绿,天文學(xué)很多的東西根本沒法測量得到那么多數(shù)據(jù)剖效,所以還是需要依靠于原有的物理體系來進行計算,進行假設(shè),大數(shù)據(jù)在這方面很難有作為璧尸,甚至可能就淪落到提供數(shù)據(jù)的用途咒林。大數(shù)據(jù)的確會局部改變我們探索世界的方式,但是還沒作者說的那么絕對R狻垫竞!
正文之后
以上,原文占據(jù)2/3 剩下的都是我的一個個人拙見蛀序,大家不要當(dāng)真欢瞪,要想求證我的說法,最好還是自己買本書看看徐裸!