在這個(gè)人人都說(shuō)大數(shù)據(jù)的時(shí)代挥唠,許多人對(duì)大數(shù)據(jù)的印象只是停留在仰望的階段抵恋,其實(shí)大數(shù)據(jù)沒(méi)人們說(shuō)得那么神奇、玄乎或者是無(wú)所不能宝磨,今天我們就以傳統(tǒng)數(shù)據(jù)作為比對(duì)弧关,看看大數(shù)據(jù)究竟有什么特點(diǎn)讓其處于時(shí)代的浪潮之巔。
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比的主要特點(diǎn)可以概括為:數(shù)據(jù)量“大”唤锉、數(shù)據(jù)類型“復(fù)雜”世囊、數(shù)據(jù)價(jià)值“無(wú)限”(如圖所示)。
數(shù)據(jù)量大十分好理解窿祥,以前我們存儲(chǔ)數(shù)據(jù)使用的單位是 KB株憾,一個(gè)Excel表格也就幾十到幾百KB,現(xiàn)在我們經(jīng)常說(shuō)到GB甚至是TB乃至PB的數(shù)據(jù)量級(jí)晒衩,它們的數(shù)量關(guān)系如下所示嗤瞎。
???????????????????????????????????????????????????????????????????????????? 1MB=1024KB
???????????????????????????????????????????????????????????????????????????? 1GB=1024MB
???????????????????????????????????????????????????????????????????????????? 1TB=1024GB
???????????????????????????????????????????????????????????????????????????? 1PB=1024TB
更直觀一點(diǎn),1KB相當(dāng)于512個(gè)漢字听系,1MB就相當(dāng)于六本紅樓夢(mèng)的字?jǐn)?shù)……而淘寶網(wǎng)在2015年3月每天大約能產(chǎn)生7TB的數(shù)據(jù)量贝奇,相當(dāng)于4000萬(wàn)本紅樓夢(mèng)的數(shù)據(jù)量,而中國(guó)最大的圖書(shū)館中國(guó)國(guó)家圖書(shū)館的藏書(shū)量是3000萬(wàn)冊(cè)靠胜。
由此看來(lái)掉瞳,我們的大數(shù)據(jù)著實(shí)是數(shù)據(jù)量巨大了届惋。而只說(shuō)能夠產(chǎn)生如此大量數(shù)據(jù)的原因有哪些呢?
我們不妨從數(shù)據(jù)獲取的方式菠赚、數(shù)據(jù)傳輸?shù)姆绞胶蛿?shù)據(jù)存儲(chǔ)的方式來(lái)探討數(shù)據(jù)量大的這個(gè)問(wèn)題脑豹。
數(shù)據(jù)獲取方式的質(zhì)變是大數(shù)據(jù)能夠產(chǎn)生的核心要素。傳統(tǒng)的數(shù)據(jù)獲取方式多是以人工的方式獲取數(shù)據(jù)衡查,最大的特點(diǎn)是手動(dòng)輸入數(shù)據(jù)瘩欺,曾有一段時(shí)間,超市是通過(guò)要求收銀員鍵入用戶特征來(lái)采集用戶數(shù)據(jù)的拌牲,鍵盤(pán)的樣子大體上會(huì)是如圖所示的造型俱饿。
超市通過(guò)這樣的方式來(lái)收集用戶的數(shù)據(jù),試想在超市每天如此大的接待量情況下塌忽,收銀員能否保證數(shù)據(jù)錄入的準(zhǔn)確性呢拍埠?傳統(tǒng)記錄數(shù)據(jù)的方式必定只能是小范圍的,少量的和準(zhǔn)確度欠佳的土居。而現(xiàn)在的數(shù)據(jù)獲取方式大多是通過(guò)URL傳輸和API接口枣购,大體上數(shù)據(jù)獲取的方式有這樣幾類:爬蟲(chóng)抓取、用戶留存擦耀、用戶上傳棉圈、數(shù)據(jù)交易和數(shù)據(jù)共享(如圖所示)。
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的另一個(gè)顯著差異是數(shù)據(jù)類型的豐富眷蜓。傳統(tǒng)數(shù)據(jù)更注重于對(duì)象的描述分瘾,而大數(shù)據(jù)更傾向與對(duì)數(shù)據(jù)過(guò)程的記錄。為了便于大家理解吁系,下面簡(jiǎn)單的舉個(gè)例子說(shuō)明傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的記錄方式有何區(qū)別德召。
傳統(tǒng)數(shù)據(jù)的記錄方式如表所示。
大數(shù)據(jù)的記錄方式如表所示汽纤。
很明顯地看到上岗,傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)記錄數(shù)據(jù)的最大區(qū)別是大數(shù)據(jù)不僅對(duì)對(duì)象進(jìn)行了描述,還加入了時(shí)間冒版、地點(diǎn)等維度液茎,這樣的數(shù)據(jù)記錄的是一個(gè)過(guò)程。而傳統(tǒng)數(shù)據(jù)的記錄方式更傾向于對(duì)結(jié)果的簡(jiǎn)單描述辞嗡。當(dāng)然捆等,大數(shù)據(jù)能記錄的用戶就餐數(shù)據(jù)遠(yuǎn)不局限于上述所列的字段,理想狀況的大數(shù)據(jù)監(jiān)控甚至?xí)涗浻脩舫燥埖姆绞叫摇⒊燥垥r(shí)的行為栋烤、吃飯時(shí)的面部表情等一系列數(shù)據(jù),這些數(shù)據(jù)反映了用戶對(duì)就餐環(huán)境的感受挺狰,對(duì)餐食口味的反應(yīng)明郭,進(jìn)一步可以用來(lái)改進(jìn)就餐環(huán)境买窟、食物口味,給出點(diǎn)餐建議薯定。
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的核心差異在于其價(jià)值的不可估量始绍。傳統(tǒng)數(shù)據(jù)的價(jià)值體現(xiàn)在信息傳遞與表征,是對(duì)現(xiàn)象的描述與反饋话侄,讓人通過(guò)數(shù)據(jù)去了解數(shù)據(jù)亏推。而大數(shù)據(jù)是對(duì)現(xiàn)象發(fā)生過(guò)程的全記錄,通過(guò)數(shù)據(jù)不僅能夠了解對(duì)象年堆,還能分析對(duì)象吞杭,甚至能了解對(duì)象自己都不知道的信息。
諸如某百科對(duì)一個(gè)人的描述與概括变丧,記錄了這個(gè)人的身高芽狗、體重、出生年月痒蓬、興趣愛(ài)好童擎、日常活動(dòng)谊却、親朋好友等數(shù)據(jù)柔昼,這些算是傳統(tǒng)數(shù)據(jù)哑芹,通過(guò)這些傳統(tǒng)數(shù)據(jù)你能知道和認(rèn)識(shí)這個(gè)人炎辨。如果用大數(shù)據(jù)的方式來(lái)記錄一個(gè)人,那就可以詳細(xì)到他幾點(diǎn)起床聪姿、睡眠質(zhì)量碴萧、身體狀況、每個(gè)時(shí)間點(diǎn)在做什么事等一系列過(guò)程數(shù)據(jù)末购,通過(guò)這些過(guò)程數(shù)據(jù)我們不僅知道和認(rèn)識(shí)這個(gè)人破喻,還能知道他的習(xí)慣性格,甚至能挖掘出隱藏在生活習(xí)慣中的情緒與內(nèi)心活動(dòng)等信息盟榴。這些都是傳統(tǒng)數(shù)據(jù)所無(wú)法體現(xiàn)的曹质,也是大數(shù)據(jù)承載信息的豐富之處,在豐富的信息背后隱藏著巨大的價(jià)值擎场,這些價(jià)值甚至能幫助人們達(dá)到“所思即所得”的境界羽德。
大數(shù)據(jù)價(jià)值的特殊之處就在于它的可挖掘性,同樣的一堆數(shù)據(jù)迅办,不同的人能得到不同層次的東西宅静。就好像同樣見(jiàn)一個(gè)人,有些人只看他的外貌好不好看站欺,有些人能從他的表情中讀出心理活動(dòng)姨夹,從眼神中看出閱歷纤垂,從衣著打扮中讀出品味,從鞋子上讀出生活習(xí)慣磷账。而這些深層次的非表象的內(nèi)容需要技巧與實(shí)力去挖掘出來(lái)峭沦,這就是我們說(shuō)的數(shù)據(jù)分析與數(shù)據(jù)挖掘。
文章來(lái)源
內(nèi)容簡(jiǎn)介
《從1開(kāi)始——數(shù)據(jù)分析師成長(zhǎng)之路》從簡(jiǎn)單的制作報(bào)表開(kāi)始和大家一起學(xué)習(xí)數(shù)據(jù)分析的五大模塊:報(bào)表BI系統(tǒng)逃糟、異常數(shù)據(jù)分析熙侍、解決數(shù)據(jù)需求、項(xiàng)目性數(shù)據(jù)分析以及數(shù)據(jù)建模履磨,為大家全方位蛉抓、體系化地呈現(xiàn)數(shù)據(jù)分析到底是什么。