第一層面是理論忿檩,理論是認(rèn)知的必經(jīng)途徑笤闯。從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從商業(yè)分析提出企業(yè)分析應(yīng)用的框架來做出更好的決策;大數(shù)據(jù)行業(yè)的各種角色以及擁有的技能稚补,定義了數(shù)據(jù)科學(xué)家的發(fā)展方向;從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈矩动。
第二層面是技術(shù)勺三,技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基礎(chǔ)隧膘。書中分別從云計(jì)算、分布式處理技術(shù)述呐、可視化技術(shù)以及其它新興技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集惩淳、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過程乓搬。
第三層面是實(shí)踐思犁,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)代虾。書中分別從市場(chǎng)營(yíng)銷、金融服務(wù)抒倚、健康醫(yī)療和廣告行業(yè)來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象以及即將實(shí)現(xiàn)的藍(lán)圖褐着。
大數(shù)據(jù)相關(guān)理論
1、特征定義
Edd DumbIl對(duì)大數(shù)據(jù)的定義是:“大到不能使用傳統(tǒng)的方法進(jìn)行處理的數(shù)據(jù)”托呕,但大數(shù)據(jù)不僅僅是指數(shù)據(jù)的“大”,真正的問題是“大數(shù)據(jù)的可用性”频敛。
業(yè)界用三個(gè)維度來定義大數(shù)據(jù)的特征-3V(量Volume项郊,多樣Variety,速度Velocity),其中最后一點(diǎn)是大數(shù)據(jù)分析和傳統(tǒng)數(shù)據(jù)挖掘有著本質(zhì)的不同。
2斟赚、商業(yè)分析
提出企業(yè)內(nèi)部應(yīng)用數(shù)據(jù)分析框架步驟以更好地幫助企業(yè)取得決策效果
1)描述性分析:回答“我們的商業(yè)活動(dòng)中發(fā)生了什么”着降,這種方法利用數(shù)據(jù)和信息通過對(duì)趨勢(shì)、模式以及明顯的異常點(diǎn)的觀察來描述最近企業(yè)的商業(yè)狀況拗军。
2)好奇性分析:回答“為什么會(huì)發(fā)生這樣的事”任洞,這是一種通過研究數(shù)據(jù)來驗(yàn)證/否決商業(yè)假設(shè)的分析方法。
3)預(yù)測(cè)性分析:回答“未來會(huì)發(fā)生什么”发侵,通過數(shù)據(jù)建模來判定未來發(fā)生事件的可能性
4)規(guī)范性分析:回答“接下來該做什么”交掏。
3、大數(shù)據(jù)行業(yè)角色
數(shù)據(jù)科學(xué)家技能圖:
4刃鳄、大數(shù)據(jù)隱私
全球隱私保護(hù)7條原則如下:
1)知曉權(quán)(透明性):應(yīng)該通知本人關(guān)于所收集信息的目的盅弛。
2)選擇權(quán):提供機(jī)會(huì)選擇(或放棄)所提供的個(gè)人信息是否被使用或如何被使用
3)同意權(quán):在符合知曉權(quán)和選擇權(quán)的情況下才可以向第三方透露個(gè)人數(shù)據(jù)信息
4)安全權(quán):采取措施保護(hù)個(gè)人信息免受丟失、濫用叔锐、未授權(quán)獲取挪鹏、泄露、篡改愉烙、毀壞的威脅讨盒。
5)數(shù)據(jù)完整性:確保個(gè)人信息在最終用途、合理防護(hù)方面的可靠性步责,確保信息精確返顺、完整、無誤勺择。
6)可查詢:提供本人查詢個(gè)人信息數(shù)據(jù)的途徑创南。
7)責(zé)任性:企業(yè)有責(zé)任遵守上述原則,并應(yīng)確保合規(guī)的機(jī)制省核。
大數(shù)據(jù)相關(guān)技術(shù)
1稿辙、云計(jì)算
云計(jì)算和大數(shù)據(jù)的結(jié)合可以提供更多基于海量業(yè)務(wù)數(shù)據(jù)的創(chuàng)新型服務(wù);通過云計(jì)算技術(shù)的不斷發(fā)展降低大數(shù)據(jù)業(yè)務(wù)的創(chuàng)新成本。
2气忠、分布式處理
大數(shù)據(jù)處理代表-Hadoop邻储,它是一個(gè)用于存儲(chǔ)和處理多元海量數(shù)據(jù)的開源平臺(tái)赋咽。
Hadoop的構(gòu)成,Hadoop=HDFS(文件系統(tǒng))+MapReduce(數(shù)據(jù)處理)+HBase(數(shù)據(jù)庫(kù)) +……Others
3吨娜、可視化技術(shù)
較與傳統(tǒng)報(bào)表工具提出了快速BI的概念脓匿,通過“自服務(wù)手段”并快速呈現(xiàn)動(dòng)態(tài)而直觀的方式進(jìn)行交互式數(shù)據(jù)探索、研究發(fā)現(xiàn)宦赠。類似的可視化軟件有Tableau陪毡、Qlonk Tech。
4勾扭、新興技術(shù)
SSD-高性能低延遲的大數(shù)據(jù)分析處理的主流存儲(chǔ)技術(shù)
GPU-高密集圖形處理的計(jì)算分析技術(shù)
大數(shù)據(jù)相關(guān)實(shí)踐
1毡琉、市場(chǎng)營(yíng)銷:企業(yè)通過大數(shù)據(jù)分析達(dá)到銷售活動(dòng)管理、目標(biāo)細(xì)分市場(chǎng)營(yíng)銷以及市場(chǎng)籃子分析的目的妙色。
2桅滋、金融服務(wù):風(fēng)控是金融服務(wù)的核心競(jìng)爭(zhēng)力,利用大數(shù)據(jù)建立企業(yè)信用風(fēng)險(xiǎn)框架是為了更好的促進(jìn)最大收益為目標(biāo)的一種風(fēng)險(xiǎn)管理方法身辨。典型信用風(fēng)險(xiǎn)框架圖如下:
3丐谋、健康醫(yī)療:大數(shù)據(jù)將確保健康醫(yī)療領(lǐng)域從慢性疾病管理到面向個(gè)人量身定制化醫(yī)藥的重大革新,會(huì)形成從主觀經(jīng)驗(yàn)主義到基于客觀數(shù)據(jù)驅(qū)動(dòng)的新型科學(xué)煌珊。
4号俐、廣?告?業(yè):大數(shù)據(jù)改變了廣告的商業(yè)模式,通過實(shí)時(shí)測(cè)量數(shù)據(jù)迅速調(diào)整策略來提高目標(biāo)受眾的到達(dá)率和降低展示頻率怪瓶。