暴露于數據之下的真實你我
從今天開始打肝,咱們分幾次說一本5月9號剛剛出版的新書敷扫,《人人說謊:大數據突诬、新數據以及關于真實的你我漫雷,互聯(lián)網能告訴我們什么》(Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are)颂龙,作者是賽斯·史蒂芬斯-大衛(wèi)德威茨(Seth Stephens-Davidowitz)习蓬。
這位作者的姓實在太長,咱們以后就直接叫他的名字措嵌。賽斯的簡歷很有意思躲叼,本科是在斯坦福大學學的哲學,博士是哈佛學的經濟學企巢,他之前在Google做數據科學家枫慷,現(xiàn)在在沃頓商學院當老師。這樣的經歷你很難在中國復制浪规,我們的文科教育不太可能培養(yǎng)出來數據科學家 —— 而賽斯這個跨學科的經歷或听,對他在這本書里說的事情卻是十分重要的。
我估計你以聽到書名就笑了罗丰,因為前一陣我們剛剛解讀過麥茲伯格的《意會》神帅,等于是我們剛說完大數據不行,還是得靠人萌抵,今天又反過來找御,說要想了解真實的人元镀,還是得靠數據。
但是你當然明白霎桅,看似矛盾并不一定矛盾栖疑,正如菲茨杰拉德說的:“檢驗一流智力的標準,就是看你能不能在頭腦中同時存在兩種相反的想法滔驶,還維持正常行事的能力遇革。”大數據和“意會”這兩種方法有不同的適用范圍揭糕,就如同陰和陽萝快,是互相補充的關系,并不像武俠小說里說的“氣宗”和“劍宗”那樣對立著角。上次我們說了“陰”揪漩,這次我們談談“陽”。
《意會》那本書告訴我們吏口,有很多東西是大數據看不到的奄容,需要我們身臨其境地去理解和體驗。而賽斯這本書产徊,說的是有很多東西是我們平時看不到昂勒,也打聽不到的,只有通過大數據才能了解到 —— 關鍵就在于你得知道去哪里看舟铜。
1.別人不知道戈盈,Google 知道
什么東西非得靠大數據才能知道呢?比如說人的真實想法谆刨。一個人可能情緒低落甚至抑郁奕谭,但是在人前的表現(xiàn)還是陽光外向。一個人可能有強烈的種族歧視心理痴荐,但是他不會告訴做民意測驗的人血柳。一個人可能對感情生活很不滿,但是連他的配偶都不知道生兆。
但是 Google 可能知道难捌。人們可能會偷偷地搜索一些東西,他的搜索關鍵詞暴露了他的內心鸦难。所有這些搜索動作根吁,包括關鍵詞、時間合蔽、地點击敌、乃至于是哪個人搜索的、前后有什么關聯(lián)拴事,Google 全都記錄在案沃斤,而且數據會被保留多年圣蝎。當然,Google 不會公布具體哪個人搜索了什么衡瓶,但研究者不需要知道具體的個人徘公,他只要知道有這么一些人在做這樣的搜索,就足以對“人”多出很多了解了哮针。
咱們干脆說一個少兒不宜的例子关面。比如你要做一個調查,你想知道美國人民的性生活頻率是怎么樣的十厢。那么哪怕你這個調查是完全匿名的等太,我們也可以想象,人們面對這個問題一定會吹噓一下蛮放。根據一項非常權威的調查顯示澈驼,僅限于異性戀,美國女性平均每年性生活次數是55次筛武,其中16%的情況下使用了避孕套 —— 那么按照這個數據計算,美國每年應該用掉11億個避孕套挎塌。而如果調查對象是男性徘六,那么數據就更大一點,是美國每年會用掉16億個避孕套榴都。
這就顯然有問題了 —— 避孕套一對男女共用一個待锈,那兩個數據應該是相同的才對,為什么會有這么大的差別呢嘴高?看來是有人在吹牛竿音。
事實上,你再去看真實的避孕套銷量拴驮,實際美國每年賣出去的避孕套還不到6億個春瞬。所以吹牛的成分還很嚴重。把六十五歲以下的已婚男性告訴調查者的數據平均起來套啤,是每人每周都有一次性生活宽气,而實際肯定沒有這么多。
賽斯使用 Google 搜索的數據潜沦,發(fā)現(xiàn)了更深入的真相萄涯。根據 Google 的記錄,“無性婚姻”這個關鍵詞組合的搜索次數比“不幸婚姻”高3.5倍唆鸡,比“無愛婚姻”要高8倍涝影。人們對婚姻最大的抱怨就是無性婚姻!所以無性婚姻是比人們想象中大得多的問題争占,只不過在公開場合調查中燃逻,人們不愿意說實話而已序目。
一個被無性婚姻困擾的人,平時沒有向任何人抱怨過唆樊,甚至面對問卷調查他還吹噓了一番宛琅。可是夜深人靜之時逗旁,他忍不住想要了解自己的無性婚姻到底正不正常嘿辟,于是把問題輸入了 Google 的搜索框。
如此說來片效,搜索引擎提供了一個可以窺探人們心里到底在想什么的窗口红伦。
這本書的序言是大名鼎鼎的實驗心理學家和認知科學家史迪芬·平克寫的。平克非常羨慕賽斯有這樣的研究工具淀衣。傳統(tǒng)上心理學家想要想知道人們想什么只能依賴問卷調查昙读,現(xiàn)在更高級的方法是用功能性核磁共振掃描大腦,但是人們在問卷調查里可以撒謊膨桥,掃描大腦掃不出什么細節(jié)蛮浑。而在這個幾乎人人上網的時代,人們向 Google 吐露了心聲只嚣。
賽斯有了這個工具沮稚,就發(fā)現(xiàn)了一系列有意思的事實。今天咱們先說一個:種族歧視册舞。
2.奧巴馬能當上總統(tǒng)蕴掏,就說明美國沒有種族歧視了嗎?
2008年奧巴馬當選總統(tǒng)的投票前夜调鲸,民調顯示他有很大的領先優(yōu)勢盛杰。當時美國學者擔心,也許選民會說一套做一套藐石,跟民調的人說支持奧巴馬即供,但是內心還是種族歧視,投票的時候不會投給他于微。結果是奧巴馬高票當選募狂,學者都松了一口氣。2012年奧巴馬又輕松連任角雷,這時候絕大多數學者就認為祸穷,今天的美國已經沒有什么種族歧視了。
美國真的沒有種族歧視了嗎勺三?或者說雷滚,美國的種族歧視已經不足以影響大選結果了嗎?學者不知道吗坚,Google 知道祈远。
賽斯關注的搜索關鍵詞呆万,是“nigger” —— 這個詞的意思是“黑鬼”,是對黑人非常嚴重的辱罵车份,有時候黑人之間互相開玩笑可以用谋减,但你不是黑人千萬不能用。當人們搜索“nigger”的時候扫沼,有20%的情況是想找個黑人笑話讀出爹,剩下的情況則幾乎就是直接的恨意:“stupid niggers”、“I hate niggers”缎除。
賽斯發(fā)現(xiàn)严就,奧巴馬第一次當選總統(tǒng)前夕,跟“Obama”這個詞連在一起的搜索中器罐,有1%梢为,包含“nigger”這個詞。在某些州轰坊,搜索“nigger president(黑鬼總統(tǒng))”的人铸董,比搜索“first black president(第一位黑人總統(tǒng))”的人還要多。
這個比例似乎不大肴沫,但是落實到選票上粟害,賽斯估計,以全國總數而論樊零,奧巴馬至少因為種族歧視少拿了4個百分點的選票。
奧巴馬當選總統(tǒng)孽文,不是因為美國沒有種族歧視驻襟,也不是因為種族歧視對選舉的影響很小,而是因為奧巴馬和民主黨在其他方面的優(yōu)勢實在太大芋哭!
而且 Google 數據還能告訴我們一些更深入的事實沉衣。
3.哪里的人最有心機
關于種族歧視,傳統(tǒng)上我們有兩個刻板印象减牺。一個是我們總覺得民主黨的人思想進步豌习,比較少有種族歧視;共和黨的人思想保守拔疚,更有種族歧視肥隆。另一個是北方經濟發(fā)達,人比較開明稚失,不搞種族歧視栋艳;而南方經濟落后,人比較閉塞句各,種族歧視比較嚴重 —— 這當然是南北戰(zhàn)爭給人留下的印象吸占。
可是賽斯從 Google 數據判斷晴叨,這兩個印象都是錯的。真正能劃分種族歧視的矾屯,不是政黨也不是南北兼蕊,而是東西 —— 美國東部的幾個州,有更多人有種族歧視思想件蚕,而西部尤其是加州一帶孙技,人們的確沒有什么歧視思想。
所以有這么一幫人骤坐,他們是民主黨人绪杏,住在發(fā)達的東部,經濟條件和受教育程度都不錯纽绍,代表先進文化和先進生產力蕾久,平時隱藏的很深 —— 但是他們內心深處是個種族主義者,一到選舉的關鍵時刻就會偷偷投出帶有歧視的一票拌夏。
這一票有時候就能左右大局僧著。比如這次特朗普當選總統(tǒng),簡直是美國數據預測界的一大恥辱障簿,所有民調盹愚、包括大神級的人物 Nate Silver (《信號與噪聲》一書的作者)事先都沒預測到。那事先的預測和最后的結果到底差在哪呢站故?Nate Silver 后來做了大量的分析皆怕,發(fā)現(xiàn)正是因為種族歧視者在關鍵時刻表里不一,表面上說要投給希拉里西篓,但實際上卻投票給了特朗普愈腾。
這些人都住在哪呢?正好和賽斯發(fā)現(xiàn)的結果一致岂津,也就是美國東部那幾個搜索“nigger”這個詞頻率很高的州虱黄。
我們看電視劇《紙牌屋》里有個情節(jié),說互聯(lián)網公司可以左右選情∷背桑現(xiàn)在沒有任何跡象表明 Google 有這樣的能力 —— 不但不能左右選情橱乱,而且也沒有能力精確預測大選結果。不過賽斯的確發(fā)現(xiàn)一些能一定程度上幫助預測的辦法粱甫。
比如說今天晚上有一場總統(tǒng)競選辯論泳叠,特朗普對希拉里。你想知道辯論是在幾點進行茶宵、哪個臺直播析二,于是你上網搜索。你可能會搜索“特朗普希拉里辯論”,也可能會搜索“希拉里特朗普辯論”叶摄,對吧属韧?賽斯把這一次搜索關鍵詞,和同一個人其他時候搜索的關鍵詞聯(lián)系起來蛤吓,就發(fā)現(xiàn)一個大體有效的規(guī)律:你支持誰宵喂,就會把誰的名字放前面。
把像這樣的蛛絲馬跡都利用起來会傲,賽斯就發(fā)現(xiàn)了一些非常有意思的事實锅棕。
***
美國學術圈流傳一個說法。說你如果去加州的那些大學作報告淌山,比如說去伯克利裸燎,聽報告的人問你什么問題,肯定都是真誠的提問泼疑,他們是不懂才問德绿。但如果你去東部的那些傳統(tǒng)名校作報告,比如說去普林斯頓退渗,那有時候聽眾問你的問題是他本來就知道答案的 —— 他不但不想暴露無知移稳,還想要證明自己厲害。
所以美國東部人民的心機重会油,學術界還是有共識的啊 —— 只不過一直沒有他們種族歧視的證據个粱。
好在人們問 Google 的問題,都是真誠的提問翻翩。