這幾年在互聯(lián)網(wǎng)界权纤,一直有兩個詞非常的火:
①互聯(lián)網(wǎng)+
就是「互聯(lián)網(wǎng)+傳統(tǒng)行業(yè)」警医,這個很好理解,傳統(tǒng)行業(yè)和互聯(lián)網(wǎng)結(jié)合嘛典徘,現(xiàn)在很多傳統(tǒng)公司都在做互聯(lián)網(wǎng)的轉(zhuǎn)型蟀苛。
②大數(shù)據(jù)
大數(shù)據(jù)這個詞相信大家也不陌生,然而很多人會認(rèn)為烂斋,大數(shù)據(jù)是高科技屹逛,所以跟我們普通人的生活沒啥聯(lián)系……
是這樣的嗎础废?
真相卻是汛骂,你的周圍早已有許多應(yīng)用大數(shù)據(jù)的事件,只是你并沒有察覺到而已评腺。
就比如說前段時間王寶強(qiáng)跟馬蓉搞離婚帘瞭,這事兒在網(wǎng)上鬧得沸沸揚(yáng)揚(yáng),火到什么程度呢蒿讥?
根據(jù)百度指數(shù)的官方統(tǒng)計:
王寶強(qiáng)的熱度竟然比10個里約奧運(yùn)會的熱度加起來還要高蝶念!
短短3天,王寶強(qiáng)的微博一下子漲了900萬的粉絲芋绸,離婚聲明那一條微博甚至有300多萬條評論媒殉。在評論區(qū),網(wǎng)友們紛紛表示同情摔敛,無非是什么“馬蓉太壞了廷蓉,寶寶不哭,我們一直在你身邊”啊等等马昙。
但是大數(shù)據(jù)的統(tǒng)計結(jié)果卻表明:
網(wǎng)友們的真實(shí)情緒竟然是快樂的桃犬!
這就好比,有要的人嘴上說著不要行楞,身體卻很老實(shí)攒暇;網(wǎng)友們嘴上說著同情,心里卻開心得要命……
大數(shù)據(jù)是怎么得出這個結(jié)論的子房?
原來是有的科技公司形用,從社交網(wǎng)絡(luò)上收集了大量人們表達(dá)情緒的信息就轧,比如表情符號和標(biāo)點(diǎn)符號(如感嘆號、問號田度、省略號)钓丰,還有代表了情緒的關(guān)鍵詞。
把這些東西匯總起來每币,用特定算法分析出人們對王寶強(qiáng)離婚的情緒携丁。
你心里的真實(shí)情緒是快樂,這一點(diǎn)天不知地不知兰怠,大數(shù)據(jù)卻知道梦鉴。
事實(shí)上,如今大數(shù)據(jù)的應(yīng)用范圍之廣揭保,可能遠(yuǎn)超出你的想象肥橙。
前段時間我讀了一本書——《智能時代》,這本書實(shí)在太迷人了秸侣,我一字不落得給認(rèn)真看完存筏,作者吳軍的文字實(shí)在是有趣又有料,強(qiáng)烈推薦味榛!
今天的這篇文章就是我對《智能時代》這本書的思考總結(jié)椭坚,給你科普大數(shù)據(jù)的知識,一定可以拓寬你對這個世界的認(rèn)知搏色。
下面就來看看善茎,大數(shù)據(jù)在哪些你根本意想不到的領(lǐng)域里大展身手?
1频轿、什么是大數(shù)據(jù)垂涯?
什么是大數(shù)據(jù)?很多人覺得自己懂這個詞的意思航邢。事實(shí)卻是耕赘,他們非但不懂,而且對大數(shù)據(jù)還有很多的誤解膳殷。
首先操骡,你知道什么是數(shù)據(jù)嗎?
一個最常見的誤解就是認(rèn)為數(shù)據(jù)就是數(shù)字秽之,這實(shí)在大大低估了數(shù)據(jù)的范疇当娱。實(shí)際上,數(shù)字只是數(shù)據(jù)范疇里很小很小的一部分考榨】缦福互聯(lián)網(wǎng)上的任何內(nèi)容都是數(shù)據(jù):
音頻、文字河质、視頻冀惭,你訪問某網(wǎng)頁的次數(shù)震叙,甚至你再此網(wǎng)頁停留的時間等等等等,都可以被記錄下來散休,成為數(shù)據(jù)媒楼。
建筑師的設(shè)計圖紙、國家機(jī)密檔案也是數(shù)據(jù)戚丸,甚至我們的活動本身:一天的出行軌跡划址、購物、玩游戲的行為也會成為數(shù)據(jù)限府。
過去也有數(shù)據(jù)夺颤,但是那時候數(shù)據(jù)很難收集,而且量很小胁勺,導(dǎo)致無法從有限的數(shù)據(jù)里分析出什么規(guī)律世澜,不過幸運(yùn)的是:
互聯(lián)網(wǎng)時代來了
隨著個人電腦和手機(jī)移動端的普及,數(shù)據(jù)的收集變得越來越容易署穗,收集到的數(shù)據(jù)越來越「大」寥裂,也就是所謂的大數(shù)據(jù)(big data)。
注意案疲,有不少人認(rèn)為「大」這個字指的是大量的意思封恰,這也是一個普遍的誤區(qū),真相是:
大數(shù)據(jù)≠大量數(shù)據(jù)
作者吳軍告訴我們络拌,「大」的含義至少有三個層面:
①體量大:
量大當(dāng)然是必要條件俭驮,但并不充分回溺。
說白了春贸,大數(shù)據(jù)一定是大量的數(shù)據(jù),但大量的數(shù)據(jù)不一定是大數(shù)據(jù)遗遵。
比如說萍恕,你記錄下全世界70億人的出生日期,這是一個龐大的數(shù)據(jù)量了车要,但是除了能分析出全世界人口的年齡分布允粤,其實(shí)沒有什么別的意義。
②多維度:
百度曾用大數(shù)據(jù)做出來一份報告——《中國十大吃貨省市排行榜》翼岁,有個關(guān)于「xx能吃嗎」的問題类垫,網(wǎng)友們的回答很有意思:
寧夏網(wǎng)友最關(guān)心的竟然是「螃蟹能吃嗎?」琅坡,內(nèi)蒙古悉患、新疆、西藏網(wǎng)友最關(guān)心的是「蘑菇能吃嗎榆俺?」售躁,廣東坞淮、福建、浙江等地的網(wǎng)友最關(guān)心的是「XX蟲能吃嗎陪捷?」
螃蟹都不敢吃的寧夏網(wǎng)友看到這份報告可能會嚇一跳:世上居然還有人吃蟲子回窘!
得出這份報告,百度甚至沒有做任何的問卷調(diào)查市袖,或是地區(qū)飲食文化的研究啡直。
它只做了一件事:
收集「百度知道」里7700萬條跟吃有關(guān)的問題。
從食物的做法苍碟、吃法付枫、營養(yǎng)價值、價格驰怎,到提問者所在的地域阐滩、時間,甚至連提問者使用的是手機(jī)還是電腦這樣的行為县忌,都會被記錄下來成為數(shù)據(jù)掂榔。
可以看到,百度收集到的數(shù)據(jù)有非常多的維度症杏,這里體現(xiàn)的就是大數(shù)據(jù)多維度的特征装获。
而下一步工作就是把多個維度的數(shù)據(jù)聯(lián)系起來,通過計算機(jī)算法得到有統(tǒng)計意義的規(guī)律厉颤。
最終成果便是《中國十大吃貨省市排行榜》穴豫。
③全面性:
注意,全面性和體量大這兩個特征很容易混淆逼友。前者指數(shù)據(jù)的覆蓋范圍廣精肃,而后者單單指數(shù)據(jù)的體量很大。
比如說帜乞,在大學(xué)里做一個「學(xué)生對食堂飯菜好感度」的調(diào)查司抱,如果你只調(diào)查了女生而不調(diào)查男生,這就叫不全面黎烈。
來看下面這個例子:
2012年习柠,一個叫內(nèi)德·斯維爾的小伙子,竟然成功預(yù)測了美國50+1個州的選舉結(jié)果照棋!
在過去統(tǒng)計學(xué)家看來资溃,這根本是不可能辦到的事情,而他之所以預(yù)測如此精準(zhǔn)烈炭,是因為:
他收集了幾乎所有溶锭,人們發(fā)表在社交網(wǎng)站、新聞媒體上的跟2012年大選有關(guān)的數(shù)據(jù)梳庆。
斯維爾收集的數(shù)據(jù)非常全面暖途,幾乎覆蓋了每一個投票人的想法卑惜。
如今的美國大選,特朗普和希拉里正打得火熱驻售,多家媒體紛紛放出問卷調(diào)查露久,來看看民眾更偏向選哪個候選人。多數(shù)問卷結(jié)果顯示:希拉里會獲勝欺栗。
然而根據(jù)Twitter對50多萬用戶的統(tǒng)計結(jié)果毫痕,卻顯示55%的人認(rèn)為特朗普會獲勝!在選舉領(lǐng)域里迟几,媒體問卷和大數(shù)據(jù)的這個比例差距還是很大的消请。
事實(shí)上,傳統(tǒng)的問卷調(diào)查有很多天生的缺陷类腮,比如說無法做到體量大臊泰、全面性等等。
還有些情況下蚜枢,出于面子和道德壓力缸逃,傳統(tǒng)問卷并不能獲得人們的真實(shí)想法。
試想厂抽,如果百度的吃貨調(diào)查以問卷形式來做需频,估計很多人就不會在問卷上表明有「愛吃蟲子」的癖好,以免顯得自己非常怪異筷凤。
但是人們在百度知道上的提問和回答昭殉,則沒有任何壓力,沒必要撒謊藐守,所以反映的基本是真實(shí)想法挪丢。
這也是大數(shù)據(jù)調(diào)查之于問卷調(diào)查的一大優(yōu)勢。
2吗伤、大數(shù)據(jù)有什么用吃靠?
看到這兒,你可不要覺得大數(shù)據(jù)僅僅是用來做各種調(diào)查啊足淆。
事實(shí)上,受益于大數(shù)據(jù)礁阁,很多行業(yè)正進(jìn)行著飛速的產(chǎn)業(yè)升級:
制造業(yè)巧号、農(nóng)業(yè)、醫(yī)療……甚至體育行業(yè)姥闭!
最后一條你可能不大相信丹鸿,大數(shù)據(jù)跟體育又有什么關(guān)系呢?
#例一:
在NBA的2014~2015賽季棚品,金州勇士隊奪得總冠軍靠欢,但是在2009年廊敌,勇士隊居然還是NBA最爛的球隊之一,排名倒數(shù)老二门怪。
勇士隊是如何在短短6年里骡澈,從爛隊走向冠軍獎杯的呢?
有人說掷空,勇士肯定是重金請了大牌教練和大牌明星肋殴,才有了今天的成就。
事實(shí)卻是坦弟,勇士當(dāng)初并沒有什么大牌教練和球星护锤,6年前新?lián)Q的老板,反倒是把隊伍里僅有的明星球員給賣掉了……這就奇了怪了酿傍,一窮二白的勇士是如何迅速成長并拿到總冠軍的烙懦?
你可能很難想象,勇士隊成功的原因在于赤炒,它處在一個很特別的地區(qū):硅谷
硅谷的大數(shù)據(jù)工程師修陡,竟然是勇士隊的秘密武器!
通過對NBA無數(shù)場球賽的大數(shù)據(jù)分析可霎,他們發(fā)現(xiàn):
過往幾十年NBA各球隊的打法魄鸦,喜歡追求制空權(quán),所以那些大個子球星往往很受歡迎癣朗,因為他們可以很輕松地把球裝進(jìn)籃筐拾因,或者直接扣籃。
這些動作看起來華麗旷余,但大數(shù)據(jù)卻發(fā)現(xiàn)绢记,它們的得分效率并不高,全隊消耗很多體能把球傳給大個子前鋒正卧,還是在沒有失誤的情況下蠢熄,也只能得2分。
于是勇士隊的管理層設(shè)計了新的戰(zhàn)術(shù):
盡量在3分線外投籃炉旷,而不是突破到籃下再投签孔。
稍微關(guān)注NBA的同學(xué)都知道這是誰吧,勇士隊的三分球神投手——斯蒂芬·庫里(Stephen Curry)窘行,他的三分球命中率簡直是個神話饥追!
別看庫里現(xiàn)在功成名就,6年前身高只有1.91米的庫里根本是個沒人要的球員……
幸運(yùn)的是罐盔,庫里在球隊以投籃為核心的思想指導(dǎo)下但绕,成長飛速。不僅幫助勇士奪得了40多年來的第一個總冠軍,他在2015~2016賽季投進(jìn)的403個三分球捏顺,也創(chuàng)下NBA史上的新記錄六孵。
全隊在這個思想的指導(dǎo)下,一個賽季居然投進(jìn)了1000+個三分球幅骄!
訓(xùn)練時劫窒,大數(shù)據(jù)幫助球員糾正姿勢;比賽時昌执,大數(shù)據(jù)還能指導(dǎo)球隊隨時調(diào)整戰(zhàn)術(shù)烛亦。
勇士隊的功與名,真的要感謝大數(shù)據(jù)懂拾。
#例二:
網(wǎng)易云音樂有一個每日歌曲推薦的功能非常受歡迎煤禽,推薦的歌大都不賴,常常是你喜歡的口味岖赋。其背后的原理也是基于大數(shù)據(jù)檬果。
你聽一首歌的類別、時長唐断,還有收藏與否选脊、下載與否、評論與否脸甘、點(diǎn)贊與否恳啥,這些東西都會成為數(shù)據(jù),網(wǎng)易云音樂拿這些數(shù)據(jù)去分析你的喜好丹诀。
聽的歌越多钝的,收集到的數(shù)據(jù)也就越多,越能夠預(yù)測出你的喜好铆遭,從而推薦給你喜歡聽的歌硝桩。
實(shí)際上,各大購物網(wǎng)站也在做同樣的事枚荣,你在淘寶碗脊、京東、亞馬遜橄妆、當(dāng)當(dāng)?shù)鹊染W(wǎng)站留下的任何軌跡都會被記錄下來衙伶,成為大數(shù)據(jù)分析的對象。
我想你早就發(fā)現(xiàn)呼畸,每個人的淘寶界面都不一樣了吧痕支?
這就是因為購物網(wǎng)站根據(jù)大數(shù)據(jù),分析出了你個人的喜好蛮原,猜到你想要什么商品,最后在廣告界面?zhèn)€性化地推薦給你另绩。
3儒陨、大數(shù)據(jù)的“壞”
不僅是購物網(wǎng)站花嘶,幾乎所有網(wǎng)站都可以獲得你的上網(wǎng)軌跡:
你在某個頁面停留的時間、點(diǎn)擊了哪個超鏈接蹦漠,甚至能知道你在離開網(wǎng)站以后又去逛了哪些網(wǎng)站椭员。
就好像在你身上安了一個追蹤器。
同樣的笛园,我們在百度搜索的每個關(guān)鍵詞隘击,在微博、微信研铆、知乎埋同、簡書發(fā)表的每一句話、每個表情棵红,也會為大數(shù)據(jù)所用……
現(xiàn)在貌似還沒什么問題凶赁,但未來,如果到了「萬物聯(lián)網(wǎng)」時代逆甜,連鑰匙扣虱肄、茶杯這樣的東西都連上了互聯(lián)網(wǎng)……
這可能就意味著:
我們的一切行為都可以被數(shù)據(jù)工程師記錄,個人將毫無隱私可言交煞。
事實(shí)上咏窿,已經(jīng)有商家在利用這點(diǎn)損害我們的利益。
在某寶素征,有些人經(jīng)常買到假貨集嵌,有些人卻以同樣的價格買到正品。這很可能不是運(yùn)氣問題稚茅,而是因為商家掌握了個人的太多數(shù)據(jù):
商家知道你是個買到假貨也不吭聲的軟柿子纸淮,還是個錙銖必報的人。
我們可以說這種行為很「臟」亚享,沒有職業(yè)道德咽块,但又不能說他違法,因為并沒有相關(guān)的法律條文規(guī)范這種行為欺税。
而事實(shí)上侈沪,在未來智能化社會,單單靠法律是很難根治隱私保護(hù)問題的的晚凿,有兩點(diǎn)原因:
1亭罪、查證起來十分困難。
2歼秽、法律條文的制定有很高的滯后性应役,往往上一個案件的法律還沒制定出來,新的問題又出現(xiàn)了。
所以說箩祥,我們還必須有相應(yīng)的技術(shù)手段保護(hù)個人隱私院崇。
已有的隱私保護(hù)手段有這2類:
①預(yù)處理
從收集信息的一開始,就對事關(guān)隱私的數(shù)據(jù)進(jìn)行加密處理袍祖,使得數(shù)據(jù)工程師分析不出數(shù)據(jù)的真正含義底瓣。這個方法能防止個人竊取數(shù)據(jù)以謀取利益,可對那些大型的大數(shù)據(jù)公司基本沒效蕉陋。
②雙向監(jiān)視
簡單來說捐凭,雙向監(jiān)視是指:
如果一個人偷窺別人隱私時,自己的偷窺行為本身暴露了凳鬓,那么他多少會約束自己的行為茁肠。
這就好比,王二正在色瞇瞇地通過門縫偷窺女孩洗澡村视,但是他突然發(fā)現(xiàn)張三看到他在偷窺官套,偷窺行為暴露了。
那么王二的反應(yīng)蚁孔,肯定是立刻捂頭蓋臉地跑掉奶赔。
凱文·凱利(Kevin Kelly)和同事們通過實(shí)驗發(fā)現(xiàn):
如果要人輸入自己的隱私才能夠偷窺到別人的隱私,多數(shù)人會選擇放棄偷窺杠氢。
想要侵犯別人的隱私站刑,必須以自己的隱私來作為代價,這就叫雙向監(jiān)視鼻百,是可以在技術(shù)手段上實(shí)現(xiàn)的绞旅。
事實(shí)上,作者吳軍和凱文·凱利曾一起做過調(diào)查温艇,發(fā)現(xiàn)現(xiàn)在許多人只是把個人隱私掛在嘴邊因悲,實(shí)則對隱私保護(hù)普遍不夠重視。而在未來勺爱,隨著大數(shù)據(jù)技術(shù)的普及晃琳,隱私問題會越來越突出而敏感。
然而琐鲁,當(dāng)技術(shù)與個人隱私產(chǎn)生矛盾卫旱,技術(shù)是絕不會停止發(fā)展的,所以我們只能用技術(shù)解決技術(shù)問題围段。
未來如何顾翼,我們拭目以待?
?小凡薦書