這是一本大數(shù)據(jù)啟蒙的書究飞,作者用通俗的例子在給我們解釋
大數(shù)據(jù)是什么樣的?大數(shù)據(jù)能做什么?大數(shù)據(jù)怎樣產(chǎn)生價(jià)值亿傅?
為了不很快就把書里的內(nèi)容再還給作者媒峡,寫下這份讀后感,也相當(dāng)于把書中的要點(diǎn)再次白話給各位了葵擎。
大數(shù)據(jù)是什么樣的谅阿?
這里就必須提到結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的概念。
結(jié)構(gòu)化數(shù)據(jù)坪蚁,簡(jiǎn)單來說就是數(shù)據(jù)庫奔穿。結(jié)合到典型場(chǎng)景中更容易理解镜沽,比如企業(yè)ERP敏晤、財(cái)務(wù)系統(tǒng);醫(yī)療HIS數(shù)據(jù)庫缅茉;教育一卡通嘴脾;政府行政審批;其他核心數(shù)據(jù)庫等蔬墩。結(jié)構(gòu)化數(shù)據(jù)不僅人容易理解译打,計(jì)算機(jī)也容易理解,是可以直接進(jìn)行大數(shù)據(jù)分析和計(jì)算的拇颅。
而現(xiàn)實(shí)中更存在著形形色色的非結(jié)構(gòu)化數(shù)據(jù)奏司,這些數(shù)據(jù)不能直接被計(jì)算機(jī)識(shí)別分析,而需要從中提取出有用的可以量化的信息才能被分析使用樟插。以下六種非結(jié)構(gòu)化數(shù)據(jù)是作者認(rèn)為最有挖掘價(jià)值的韵洋,文本,圖片黄锤,音頻搪缨,視頻,時(shí)空序列鸵熟,網(wǎng)絡(luò)副编。
大數(shù)據(jù)能做什么?
以下每一個(gè)大數(shù)據(jù)能做的事情我都會(huì)用一個(gè)簡(jiǎn)短的例子說明流强。
功能1:統(tǒng)計(jì)特征解決問題
對(duì)微博等社交媒體上垃圾用戶的甄別痹届。將用戶以下的特征,如關(guān)注度打月,粉絲數(shù)队腐,互粉數(shù),關(guān)注粉絲比僵控,關(guān)注互粉比等等香到,進(jìn)行統(tǒng)計(jì)分析,制定衡量條件找出垃圾用戶或者種子用戶。
功能2:找出關(guān)聯(lián)價(jià)值
耳熟能詳?shù)木褪恰捌【?尿布”的故事悠就,沒聽說過的可以自行檢索千绪。大數(shù)據(jù)在啤酒尿布的故事中先得到了結(jié)論,根據(jù)這個(gè)結(jié)論我們?cè)诂F(xiàn)實(shí)中也找到了合理的解釋梗脾。下面的例子有異曲同工之妙荸型。
一款超聲波潔面產(chǎn)品在做大數(shù)據(jù)分析中得出結(jié)論,教師這個(gè)職業(yè)更加關(guān)注超聲波潔面產(chǎn)品炸茧。如果你并不了解這個(gè)產(chǎn)品的特性而只是根據(jù)大數(shù)據(jù)的結(jié)論瑞妇,你可能會(huì)很詫異。但是這個(gè)產(chǎn)品的負(fù)責(zé)人很快就想到了其中的原因梭冠,教師因?yàn)榻?jīng)常使用粉筆辕狰,所以需要一款便捷的清潔面部皮膚的設(shè)備。
大數(shù)據(jù)在尋找關(guān)聯(lián)價(jià)值上的精妙之處在于控漠,你不是專家蔓倍,也可以得出專家一樣的結(jié)論。
功能3:預(yù)測(cè)指導(dǎo)決策
相信這一點(diǎn)各位已經(jīng)有了深刻的體會(huì)盐捷,每天你在拿起手機(jī)隨意瀏覽的時(shí)候偶翅,你相關(guān)的大數(shù)據(jù)都在做著預(yù)測(cè)的工作。你的今日頭條推送的全是你最近關(guān)注和相關(guān)的內(nèi)容碉渡,你的淘寶首頁不停的在給你推送著你曾經(jīng)購買或者只是搜索了一下還沒來得及購買的商品聚谁,就連現(xiàn)在的移動(dòng)終端廠商也在利用你手機(jī)的使用習(xí)慣做一些定制化系統(tǒng)優(yōu)化方案滞诺。
以上的三大功能在作者的書中定義為大數(shù)據(jù)1.0:分析形导。從中我們已經(jīng)可以稍微體會(huì)到了大數(shù)據(jù)的強(qiáng)大魅力铭段。下面我們趕緊看看大數(shù)據(jù)2.0會(huì)給我們帶來什么更震撼的內(nèi)容。
所有的2.0章節(jié)中都是圍繞著外部數(shù)據(jù)的利用進(jìn)行序愚,大數(shù)據(jù)也真正的從你的數(shù)據(jù)憔披,我的數(shù)據(jù),融合成為了真正的你我大數(shù)據(jù)爸吮。
1.尋求外部數(shù)據(jù)幫助
先舉一個(gè)大家可能都會(huì)有感受的例子,通過大學(xué)生的日常行為預(yù)測(cè)學(xué)生的考試成績(jī)形娇。具體數(shù)據(jù)略過直接上結(jié)論:
在寢室待的越久,成績(jī)?cè)讲睢?/p>
進(jìn)圖書館次數(shù)越多桐早,成績(jī)?cè)胶谩?/p>
打水越多癣缅,成績(jī)?cè)胶谩?/p>
吃早飯?jiān)蕉喑簦丛柙揭?guī)律,成績(jī)?cè)胶谩?/p>
想想各位真實(shí)的大學(xué)生活友存,是不是這樣的。上面這些看上去和學(xué)習(xí)無關(guān)的數(shù)據(jù)屡立,是不是各個(gè)都戳中了你身邊的舍友。以上這些外部數(shù)據(jù)還是發(fā)生在校園膨俐,我們也比較容易想出這些數(shù)據(jù)內(nèi)在的關(guān)聯(lián)。
想想如果更多的外部維度數(shù)據(jù)進(jìn)入了大數(shù)據(jù)的分析焚刺,你被記錄的一舉一動(dòng),可能都會(huì)成為你的上司拿到的職業(yè)分析報(bào)告檩坚,警察手中的犯罪預(yù)警報(bào)告。
這時(shí)候突然感受到了大數(shù)據(jù)可以幫助我們探求社會(huì)發(fā)展的規(guī)律匾委。
2.自身數(shù)據(jù)的外部?jī)r(jià)值
上面講的通過引入外部數(shù)據(jù)的維度進(jìn)行分析可以得出更多的關(guān)聯(lián)結(jié)論氓润。下面說我們單純的自身數(shù)據(jù),也可能得出外部結(jié)論咖气。
如google科學(xué)家分析用戶在搜索引擎上搜索特定的一些詞語,預(yù)測(cè)流行性感冒的傳播趨勢(shì)浅役,在這里例子中,大數(shù)據(jù)已經(jīng)在做一些即使是專業(yè)人員都很難做的事情了觉既。
3.機(jī)器學(xué)習(xí)
作者在此說明了大數(shù)據(jù)分析的重要工具,機(jī)器學(xué)習(xí)瞪讼。也稱之為數(shù)據(jù)外化最神奇的利器粹断,他讓大數(shù)據(jù)分析有了通用的方法符欠,他讓非專業(yè)人員也可以通過通用的方法得出專業(yè)結(jié)論瓶埋。
機(jī)器學(xué)習(xí)三板斧:特征诊沪,模型曾撤,融合娄徊。
最后盾戴,作者并沒有再次進(jìn)行深入和細(xì)化大數(shù)據(jù)如何分析,而是跳轉(zhuǎn)為以數(shù)據(jù)為商品尖啡,通過數(shù)據(jù)交易集成更加大量的數(shù)據(jù),創(chuàng)建大數(shù)據(jù)的創(chuàng)業(yè)公司盆顾。
在此我覺得作者已經(jīng)深刻的相信大數(shù)據(jù)的能力和大數(shù)據(jù)分析的通用性。而此刻只是感慨?dāng)?shù)據(jù)的不夠豐富您宪,特別是政府?dāng)?shù)據(jù)的不足。所以希望為大數(shù)據(jù)分析貢獻(xiàn)充足的燃料宪巨,助力大數(shù)據(jù)行業(yè)的騰飛溜畅。
如果你還完全不了解大數(shù)據(jù)捏卓,推薦此書慈格。