<p>
今天突然回想起來沫浆,自己半年前參加的一個大數(shù)據(jù)入門培訓(xùn)(作為運營部門的人捷枯,是一定要時不時充實自己的水平的!)专执。當(dāng)時有一個小程序展示淮捆,真是讓我雞皮疙瘩掉一地,這里就來和大家分享一個下本股。
</p>
<p>
這次大數(shù)據(jù)分析呢攀痊,用的是國內(nèi)外還是比較出名的分析系統(tǒng)(價格真是的很嚇人……),它的名字叫Tableau拄显。今天我們就要用它來分析一位路人甲--Will的生活苟径。
</p>
<p>
這次分析的數(shù)據(jù)來源是一個本地的報紙做的數(shù)據(jù)分析競賽,報紙網(wǎng)站上提供了一個路人甲Will掩蓋過的手機(jī)數(shù)據(jù)(包括通話類型躬审,數(shù)據(jù)流量棘街,聯(lián)網(wǎng)世界和鏈接的信號塔位置等),可惜競賽已經(jīng)結(jié)束了數(shù)據(jù)自然也沒地方下載啦承边,不然我一定親自操刀演練一遍遭殉。
</p>
<p>
好,讓我們來用<strong>幾分鐘</strong>的時間搞清楚路人甲的“隱私”炒刁。
</p>
<p>
先來看看這位仁兄的通話量:
可以看得出來恩沽,從2014年9月中旬開始數(shù)據(jù)量突然就增加了許多誊稚,在12月底更是到達(dá)了頂峰翔始。我們猜測Will一定是在9月購買了一臺新的智能手機(jī)(說不定還是Iphone,因為蘋果往往是9月發(fā)布新機(jī)嘛)里伯,突然多出來的應(yīng)該是手機(jī)的流量城瞎。
</p>
<p>
讓我們用不同的顏色來區(qū)分一下數(shù)據(jù)類型:
果然,通過左邊的comm type(communication type)疾瓮,我們就能看出來脖镀,確實在14年9月之前,他是沒有用手機(jī)上過網(wǎng)的……可以猜測出主人公的年齡應(yīng)該不小了吧
</p>
<p>
經(jīng)過簡單的排列狼电,我們還能發(fā)現(xiàn)蜒灰,15年2月份有一大片數(shù)據(jù)是空白的:
這是個分析競賽提供的數(shù)據(jù)弦蹂,按理說是不會有數(shù)據(jù)丟失的問題,所以這個空白一定也是有什么特殊原因的强窖,我們待會兒再看凸椿。
</p>
<p>
看完了數(shù)據(jù)量的情況,我們來看看數(shù)據(jù)采集的地理位置:
由于是澳洲的數(shù)據(jù)翅溺,Tableau根據(jù)根據(jù)數(shù)據(jù)中的省份和郵編自動將數(shù)據(jù)分割到了3個省脑漫,分別是新南威爾士,維多利亞和塔斯馬尼亞咙崎。由于71%以上的數(shù)據(jù)都是在新州采集的优幸,我們假設(shè)這位兄臺平時生活在新南威爾士,放大到這塊區(qū)域來看看能發(fā)現(xiàn)什么褪猛。
</p>
<p>
左手邊是Tableau根據(jù)信號塔位置和數(shù)據(jù)量顯示出的地圖网杆,點的大小顯示除了數(shù)據(jù)量的大小,右上是根據(jù)周來分割的數(shù)據(jù)量握爷,右下的數(shù)據(jù)量是根據(jù)小時來分割的跛璧,顏色區(qū)分了通話的類型(在地圖中點亮了數(shù)量的大小):
可以輕易看出新啼,圖中最密集的地方是悉尼市中心追城,其次是北悉尼的海邊。通過右下的圖來分析燥撞,我們也能猜測出Will早上6點多起來座柱,出門上班,晚上21點以后就不打電話了物舒,在床上玩會兒手機(jī)就睡了色洞。
</p>
<p>
還是同一張圖,如果我們把數(shù)據(jù)的范圍(右下)縮小到0點到4點冠胯,也就是睡覺時間:
我們會發(fā)現(xiàn)火诸,地圖上少量數(shù)據(jù)在悉尼市中心(加班?)主要的數(shù)據(jù)都是在北悉尼采集的荠察,這就說明了這位志愿者他家就住在那附近置蜀,是個大土豪啊Oづ琛(注:北悉尼房價高盯荤,富翁多)
</p>
<p>
反過來看看市中心的數(shù)據(jù):
果然,Will大都是周一到周五在中心活動焕盟,也說明了他確實是在市中心上班的秋秤。
</p>
<p>
回到上面說的2月消失的數(shù)據(jù),我們把時間焦距到消失前的最后一天2月9日和再度出現(xiàn)的那一天3月3日:
地圖1上的大點是悉尼國際機(jī)場,右下的時間告訴了我們灼卢,他9點到的機(jī)場绍哎,12點信號消失了。提早3小時到達(dá)機(jī)場鞋真?那可不是出國旅游了嗎蛇摸?
圖2來看,他回來的時間是早上7點灿巧,8點清關(guān)出來赶袄,然后直奔回家休息了。
了解本地飛機(jī)的朋友可能還能發(fā)現(xiàn)另一個信息抠藕,悉尼機(jī)場一般同時滿足在12點附近起飛饿肺,7點左右到達(dá)的通常都是去新加坡或者美國的航班。
<strong>你們看盾似,只要這幾分鐘時間敬辣,一個人住哪,在哪工作零院,去哪度假基本都可以被挖掘出來溉跃。</strong>
</p>
<p>
看完了新南威爾士,咱們迅速的看看別的矢娉:
Will出現(xiàn)在塔斯馬尼亞最頻繁的時間是圣誕節(jié)前后撰茎,和我們中國人一樣,人家過年過節(jié)也要回老家慶祝的嘛打洼,說明他的親戚住在塔州龄糊,是個塔斯馬尼“鄉(xiāng)村”土豪啊……
再來看看維多利亞省的,一共就3天募疮,而且在一個周末炫惩,地理位置也不是市中心,可以簡單的猜測出這個是他全家某個周末出游的地方阿浓。
</p>
<p>
最后呢他嚷,我們來看看主人公都是誰聯(lián)系過:
第一縱列是聯(lián)系人電話,由于是公開的數(shù)據(jù)芭毙,所以都被遮掩了筋蓖,假設(shè)是聯(lián)系人a,b稿蹲,c扭勉,d……吧鹊奖。
這個圖我們也能比較直觀的看出來苛聘,和a的聯(lián)系通常都是用短信,下午下班后的聯(lián)系比較多。不知道大家的習(xí)慣是怎么樣的设哗,我自己的偏向于和(女)朋友發(fā)短信多于打電話的唱捣。
再看看b,c這兩位,基本都是在打電話网梢,而且通話的時間段覆蓋了上班時間震缭,這也就說明了b和c估計和主人公是同事關(guān)系吧?
</p>
<p>
到此战虏,我們僅僅通過幾分鐘的時間拣宰,就搞清楚了有關(guān)Will的很多隱私信息。如果我們繼續(xù)深入烦感,比如通過地理位置來分析通話時間地點猜測通話對象和Will是什么關(guān)系等等巡社,我們就會發(fā)現(xiàn)個人隱私在正確的分析下是多么的沒有保障……聯(lián)想到淘寶上叫賣的各種客戶信息,我便不再天真的以為21世紀(jì)的人是可以有隱私的了:(
</p>
<p>
發(fā)這篇文章的原因呢手趣,純粹是出于對這個行業(yè)的熱愛晌该,認(rèn)為新鮮有趣的東西就應(yīng)該搬回來和大家分享分享。有興趣的朋友可以在<a >這里</a>找到原視頻绿渣,希望這篇文章對不知道怎么用數(shù)據(jù)來<strong>幫助決策</strong>的人有所啟發(fā)朝群。
</p>
<p>
多謝支持
</p>
<p>
</p>