感恩特笋!六點(diǎn)簽到
大數(shù)據(jù)的一個獲取方式很不起眼剃浇,人們往往沒有留意到。就拿看電影來說吧猎物。1980年虎囚,你去看電影,只能用現(xiàn)金買票蔫磨。你這次消遣產(chǎn)生的唯一數(shù)據(jù)就是票房收入淘讥。
1990年,你去當(dāng)?shù)氐匿浵駧ё赓U店租碟回家看堤如,店老板那時最多有臺電腦做個記錄蒲列,或者直接用紙筆記錄你租了什么碟窒朋。
即使老板那時有電腦,估計也沒連接什么數(shù)據(jù)庫蝗岖。但到了21世紀(jì)侥猩,只要你在網(wǎng)飛或亞馬遜一登錄,你的數(shù)據(jù)就進(jìn)入一個龐大而相互聯(lián)系的數(shù)據(jù)世界抵赢,你的數(shù)據(jù)很容易就被拿來分析欺劳、對比,或在條件允許的情況下與數(shù)據(jù)供應(yīng)商共享铅鲤。
你申請借書證划提、繳納所得稅、簽手機(jī)上網(wǎng)合同或申請護(hù)照時邢享,情況也大抵如此鹏往。
過去,這樣的數(shù)據(jù)只會以小紙條的形式存在于一個按字母順序排列的巨大檔案本里骇塘,它們不是為像人口普查那樣的統(tǒng)計分析而設(shè)計的伊履,只是為政府管理需要而存在的。
隨著時間的推移绪爸、行政數(shù)字化和查詢算法的改進(jìn)湾碎,這些數(shù)據(jù)越來越成為統(tǒng)計分析宙攻、數(shù)據(jù)補(bǔ)充奠货,甚至民意測驗的一個個小分母。
但“一個都不少”更多是一種理想座掘,而不是事實递惋。
正如我們所看到的,政府?dāng)?shù)據(jù)經(jīng)常會要求你填寫誰是戶主溢陪、誰養(yǎng)家這樣的家庭信息萍虽,那些本來就對政府敬而遠(yuǎn)之的人就躲得更遠(yuǎn)了。
此外形真,不要忘記“一個都不少”和“每個人都在”不是一回事杉编。
例如,網(wǎng)飛對它的用戶擁有海量數(shù)據(jù)咆霜,但對于不是它用戶的人邓馒,就沒什么數(shù)據(jù)了,如果它用自己用戶的數(shù)據(jù)去推斷別的用戶群體蛾坯,就會釀成大錯光酣。
除了政府掌握我們的數(shù)據(jù),大數(shù)據(jù)悄悄竊取我們數(shù)據(jù)的另一個重要來源是“留痕數(shù)據(jù)”——我們留下自己的數(shù)據(jù)時都沒有察覺脉课。
大家現(xiàn)在走到哪兒都用智能手機(jī)救军、谷歌搜索财异、在線支付,在推特上發(fā)帖唱遭,在臉書上曬照戳寸,或者在手機(jī)上用智能溫控App(應(yīng)用程序)為房間加熱。
所以拷泽,你不只給了網(wǎng)飛你的名字和信用卡的詳細(xì)信息庆揩,只要你在流媒體上看過東西,你什么時候看的跌穗、什么時候停的订晌,或者別的信息,一切的一切蚌吸,都會在網(wǎng)上留下痕跡锈拨。
如果有不懷好意的人從網(wǎng)上竊取了這些信息,他們就可以利用這些信息興風(fēng)作浪羹唠、為非作歹奕枢。獲得這些信息一點(diǎn)也不難。
例如佩微,我們想掌握輿情動向缝彬,可以在推特上運(yùn)行一個情緒分析算法,就知道哪些人提哪些意見了哺眯,連民意調(diào)查的錢都省了谷浅。
推特上可以提供每一條信息供你分析,盡管在實際中奶卓,大多數(shù)研究員使用的是大數(shù)據(jù)中的一小部分一疯。
但即使我們分析了每一條推特消息,仍然只是了解了推特用戶的想法夺姑,而不是整個世界的想法墩邀。
推特用戶并不能代表整個世界。例如盏浙,在美國眉睹,推特用戶大概率是年輕人、城市居民废膘、受過高等教育的人和黑人竹海。
與此同時,女性更傾向于使用臉書和Instagram殖卑,較少使用領(lǐng)英站削。
西班牙裔比其他白人更喜歡使用臉書,而領(lǐng)英孵稽、推特和Instagram在黑人族群中比在白人族群更受歡迎许起。這都是藏在細(xì)節(jié)中的信息十偶。