暴露于數據之下的真實你我

從今天開始打肝,咱們分幾次說一本5月9號剛剛出版的新書敷扫,《人人說謊:大數據突诬、新數據以及關于真實的你我漫雷,互聯(lián)網能告訴我們什么》(Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are)颂龙,作者是賽斯·史蒂芬斯-大衛(wèi)德威茨(Seth Stephens-Davidowitz)习蓬。

這位作者的姓實在太長,咱們以后就直接叫他的名字措嵌。賽斯的簡歷很有意思躲叼,本科是在斯坦福大學學的哲學,博士是哈佛學的經濟學企巢,他之前在Google做數據科學家枫慷,現(xiàn)在在沃頓商學院當老師。這樣的經歷你很難在中國復制浪规,我們的文科教育不太可能培養(yǎng)出來數據科學家 —— 而賽斯這個跨學科的經歷或听,對他在這本書里說的事情卻是十分重要的。

我估計你以聽到書名就笑了罗丰,因為前一陣我們剛剛解讀過麥茲伯格的《意會》神帅,等于是我們剛說完大數據不行,還是得靠人萌抵,今天又反過來找御,說要想了解真實的人元镀,還是得靠數據。

但是你當然明白霎桅,看似矛盾并不一定矛盾栖疑,正如菲茨杰拉德說的:“檢驗一流智力的標準,就是看你能不能在頭腦中同時存在兩種相反的想法滔驶,還維持正常行事的能力遇革。”大數據和“意會”這兩種方法有不同的適用范圍揭糕,就如同陰和陽萝快,是互相補充的關系,并不像武俠小說里說的“氣宗”和“劍宗”那樣對立著角。上次我們說了“陰”揪漩,這次我們談談“陽”。

《意會》那本書告訴我們吏口,有很多東西是大數據看不到的奄容,需要我們身臨其境地去理解和體驗。而賽斯這本書产徊,說的是有很多東西是我們平時看不到昂勒,也打聽不到的,只有通過大數據才能了解到 —— 關鍵就在于你得知道去哪里看舟铜。

1.別人不知道戈盈,Google 知道

什么東西非得靠大數據才能知道呢?比如說人的真實想法谆刨。一個人可能情緒低落甚至抑郁奕谭,但是在人前的表現(xiàn)還是陽光外向。一個人可能有強烈的種族歧視心理痴荐,但是他不會告訴做民意測驗的人血柳。一個人可能對感情生活很不滿,但是連他的配偶都不知道生兆。

但是 Google 可能知道难捌。人們可能會偷偷地搜索一些東西,他的搜索關鍵詞暴露了他的內心鸦难。所有這些搜索動作根吁,包括關鍵詞、時間合蔽、地點击敌、乃至于是哪個人搜索的、前后有什么關聯(lián)拴事,Google 全都記錄在案沃斤,而且數據會被保留多年圣蝎。當然,Google 不會公布具體哪個人搜索了什么衡瓶,但研究者不需要知道具體的個人徘公,他只要知道有這么一些人在做這樣的搜索,就足以對“人”多出很多了解了哮针。

咱們干脆說一個少兒不宜的例子关面。比如你要做一個調查,你想知道美國人民的性生活頻率是怎么樣的十厢。那么哪怕你這個調查是完全匿名的等太,我們也可以想象,人們面對這個問題一定會吹噓一下蛮放。根據一項非常權威的調查顯示澈驼,僅限于異性戀,美國女性平均每年性生活次數是55次筛武,其中16%的情況下使用了避孕套 —— 那么按照這個數據計算,美國每年應該用掉11億個避孕套挎塌。而如果調查對象是男性徘六,那么數據就更大一點,是美國每年會用掉16億個避孕套榴都。

這就顯然有問題了 —— 避孕套一對男女共用一個待锈,那兩個數據應該是相同的才對,為什么會有這么大的差別呢嘴高?看來是有人在吹牛竿音。

事實上,你再去看真實的避孕套銷量拴驮,實際美國每年賣出去的避孕套還不到6億個春瞬。所以吹牛的成分還很嚴重。把六十五歲以下的已婚男性告訴調查者的數據平均起來套啤,是每人每周都有一次性生活宽气,而實際肯定沒有這么多。

賽斯使用 Google 搜索的數據潜沦,發(fā)現(xiàn)了更深入的真相萄涯。根據 Google 的記錄,“無性婚姻”這個關鍵詞組合的搜索次數比“不幸婚姻”高3.5倍唆鸡,比“無愛婚姻”要高8倍涝影。人們對婚姻最大的抱怨就是無性婚姻!所以無性婚姻是比人們想象中大得多的問題争占,只不過在公開場合調查中燃逻,人們不愿意說實話而已序目。

一個被無性婚姻困擾的人,平時沒有向任何人抱怨過唆樊,甚至面對問卷調查他還吹噓了一番宛琅。可是夜深人靜之時逗旁,他忍不住想要了解自己的無性婚姻到底正不正常嘿辟,于是把問題輸入了 Google 的搜索框。

如此說來片效,搜索引擎提供了一個可以窺探人們心里到底在想什么的窗口红伦。

這本書的序言是大名鼎鼎的實驗心理學家和認知科學家史迪芬·平克寫的。平克非常羨慕賽斯有這樣的研究工具淀衣。傳統(tǒng)上心理學家想要想知道人們想什么只能依賴問卷調查昙读,現(xiàn)在更高級的方法是用功能性核磁共振掃描大腦,但是人們在問卷調查里可以撒謊膨桥,掃描大腦掃不出什么細節(jié)蛮浑。而在這個幾乎人人上網的時代,人們向 Google 吐露了心聲只嚣。

賽斯有了這個工具沮稚,就發(fā)現(xiàn)了一系列有意思的事實。今天咱們先說一個:種族歧視册舞。

2.奧巴馬能當上總統(tǒng)蕴掏,就說明美國沒有種族歧視了嗎?

2008年奧巴馬當選總統(tǒng)的投票前夜调鲸,民調顯示他有很大的領先優(yōu)勢盛杰。當時美國學者擔心,也許選民會說一套做一套藐石,跟民調的人說支持奧巴馬即供,但是內心還是種族歧視,投票的時候不會投給他于微。結果是奧巴馬高票當選募狂,學者都松了一口氣。2012年奧巴馬又輕松連任角雷,這時候絕大多數學者就認為祸穷,今天的美國已經沒有什么種族歧視了。

美國真的沒有種族歧視了嗎勺三?或者說雷滚,美國的種族歧視已經不足以影響大選結果了嗎?學者不知道吗坚,Google 知道祈远。

賽斯關注的搜索關鍵詞呆万,是“nigger” —— 這個詞的意思是“黑鬼”,是對黑人非常嚴重的辱罵车份,有時候黑人之間互相開玩笑可以用谋减,但你不是黑人千萬不能用。當人們搜索“nigger”的時候扫沼,有20%的情況是想找個黑人笑話讀出爹,剩下的情況則幾乎就是直接的恨意:“stupid niggers”、“I hate niggers”缎除。

賽斯發(fā)現(xiàn)严就,奧巴馬第一次當選總統(tǒng)前夕,跟“Obama”這個詞連在一起的搜索中器罐,有1%梢为,包含“nigger”這個詞。在某些州轰坊,搜索“nigger president(黑鬼總統(tǒng))”的人铸董,比搜索“first black president(第一位黑人總統(tǒng))”的人還要多。

這個比例似乎不大肴沫,但是落實到選票上粟害,賽斯估計,以全國總數而論樊零,奧巴馬至少因為種族歧視少拿了4個百分點的選票。

奧巴馬當選總統(tǒng)孽文,不是因為美國沒有種族歧視驻襟,也不是因為種族歧視對選舉的影響很小,而是因為奧巴馬和民主黨在其他方面的優(yōu)勢實在太大芋哭!

而且 Google 數據還能告訴我們一些更深入的事實沉衣。

3.哪里的人最有心機

關于種族歧視,傳統(tǒng)上我們有兩個刻板印象减牺。一個是我們總覺得民主黨的人思想進步豌习,比較少有種族歧視;共和黨的人思想保守拔疚,更有種族歧視肥隆。另一個是北方經濟發(fā)達,人比較開明稚失,不搞種族歧視栋艳;而南方經濟落后,人比較閉塞句各,種族歧視比較嚴重 —— 這當然是南北戰(zhàn)爭給人留下的印象吸占。

可是賽斯從 Google 數據判斷晴叨,這兩個印象都是錯的。真正能劃分種族歧視的矾屯,不是政黨也不是南北兼蕊,而是東西 —— 美國東部的幾個州,有更多人有種族歧視思想件蚕,而西部尤其是加州一帶孙技,人們的確沒有什么歧視思想。

所以有這么一幫人骤坐,他們是民主黨人绪杏,住在發(fā)達的東部,經濟條件和受教育程度都不錯纽绍,代表先進文化和先進生產力蕾久,平時隱藏的很深 —— 但是他們內心深處是個種族主義者,一到選舉的關鍵時刻就會偷偷投出帶有歧視的一票拌夏。

這一票有時候就能左右大局僧著。比如這次特朗普當選總統(tǒng),簡直是美國數據預測界的一大恥辱障簿,所有民調盹愚、包括大神級的人物 Nate Silver (《信號與噪聲》一書的作者)事先都沒預測到。那事先的預測和最后的結果到底差在哪呢站故?Nate Silver 后來做了大量的分析皆怕,發(fā)現(xiàn)正是因為種族歧視者在關鍵時刻表里不一,表面上說要投給希拉里西篓,但實際上卻投票給了特朗普愈腾。

這些人都住在哪呢?正好和賽斯發(fā)現(xiàn)的結果一致岂津,也就是美國東部那幾個搜索“nigger”這個詞頻率很高的州虱黄。

我們看電視劇《紙牌屋》里有個情節(jié),說互聯(lián)網公司可以左右選情∷背桑現(xiàn)在沒有任何跡象表明 Google 有這樣的能力 —— 不但不能左右選情橱乱,而且也沒有能力精確預測大選結果。不過賽斯的確發(fā)現(xiàn)一些能一定程度上幫助預測的辦法粱甫。

比如說今天晚上有一場總統(tǒng)競選辯論泳叠,特朗普對希拉里。你想知道辯論是在幾點進行茶宵、哪個臺直播析二,于是你上網搜索。你可能會搜索“特朗普希拉里辯論”,也可能會搜索“希拉里特朗普辯論”叶摄,對吧属韧?賽斯把這一次搜索關鍵詞,和同一個人其他時候搜索的關鍵詞聯(lián)系起來蛤吓,就發(fā)現(xiàn)一個大體有效的規(guī)律:你支持誰宵喂,就會把誰的名字放前面。

把像這樣的蛛絲馬跡都利用起來会傲,賽斯就發(fā)現(xiàn)了一些非常有意思的事實锅棕。

***

美國學術圈流傳一個說法。說你如果去加州的那些大學作報告淌山,比如說去伯克利裸燎,聽報告的人問你什么問題,肯定都是真誠的提問泼疑,他們是不懂才問德绿。但如果你去東部的那些傳統(tǒng)名校作報告,比如說去普林斯頓退渗,那有時候聽眾問你的問題是他本來就知道答案的 —— 他不但不想暴露無知移稳,還想要證明自己厲害。

所以美國東部人民的心機重会油,學術界還是有共識的啊 —— 只不過一直沒有他們種族歧視的證據个粱。

好在人們問 Google 的問題,都是真誠的提問翻翩。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末都许,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子嫂冻,更是在濱河造成了極大的恐慌胶征,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件絮吵,死亡現(xiàn)場離奇詭異弧烤,居然都是意外死亡忱屑,警方通過查閱死者的電腦和手機蹬敲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來莺戒,“玉大人伴嗡,你說我怎么就攤上這事〈硬” “怎么了瘪校?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我阱扬,道長泣懊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任麻惶,我火速辦了婚禮馍刮,結果婚禮上,老公的妹妹穿的比我還像新娘窃蹋。我一直安慰自己卡啰,他們只是感情好,可當我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布警没。 她就那樣靜靜地躺著匈辱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪杀迹。 梳的紋絲不亂的頭發(fā)上亡脸,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天,我揣著相機與錄音佛南,去河邊找鬼梗掰。 笑死,一個胖子當著我的面吹牛嗅回,可吹牛的內容都是我干的及穗。 我是一名探鬼主播,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼绵载,長吁一口氣:“原來是場噩夢啊……” “哼埂陆!你這毒婦竟也來了?” 一聲冷哼從身側響起娃豹,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤焚虱,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后懂版,有當地人在樹林里發(fā)現(xiàn)了一具尸體鹃栽,經...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年躯畴,在試婚紗的時候發(fā)現(xiàn)自己被綠了民鼓。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡蓬抄,死狀恐怖丰嘉,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情嚷缭,我是刑警寧澤饮亏,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布耍贾,位于F島的核電站,受9級特大地震影響路幸,放射性物質發(fā)生泄漏荐开。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一简肴、第九天 我趴在偏房一處隱蔽的房頂上張望誓焦。 院中可真熱鬧,春花似錦着帽、人聲如沸杂伟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赫粥。三九已至,卻和暖如春予借,著一層夾襖步出監(jiān)牢的瞬間越平,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工灵迫, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留秦叛,地道東北人。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓瀑粥,卻偏偏與公主長得像挣跋,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子狞换,可洞房花燭夜當晚...
    茶點故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內容

  • 第一次看到簡書是讀別人的文章避咆,還有這么好用的App,自己真是后知后覺修噪,說起來也不嫌大家笑話查库,最早時喜歡寫作,...
    也孤獨也燦爛閱讀 180評論 0 0
  • haiyan 硬角色和軟角色 引導孩子愛的孩子的五種能力黄琼,第一樊销,是情緒管理能力,尤其要是在孩子三歲之后這個能力脏款,必...
    七媽_haiyan閱讀 720評論 0 49
  • 多想一步不單單是想好下一步會發(fā)生的事围苫,做出的應對方式。還有是多想一步什么事情可以串聯(lián)什么可以并聯(lián)起來弛矛。 做一份工作...
    fung_閱讀 203評論 0 0
  • 'is'是判定是否是同一個對象'=='判定值是否相等
    gogoforit閱讀 133評論 0 0