之前一直關(guān)注我的朋友應(yīng)該知道鳞骤,最近一直在和大家聊國(guó)產(chǎn)芯片的一些發(fā)展和制作環(huán)節(jié)探颈,相信經(jīng)過(guò)閱讀我的文章,對(duì)于芯片會(huì)有了更深的認(rèn)識(shí)症杏。
今天開(kāi)始帶大家開(kāi)始正式學(xué)習(xí)大數(shù)據(jù)装获,由淺到深,解讀大數(shù)據(jù)的來(lái)龍去脈厉颤。今天主要介紹大數(shù)據(jù)的定義和結(jié)構(gòu)穴豫。
一、大數(shù)據(jù)定義
隨著大數(shù)據(jù)的流行逼友,大數(shù)據(jù)的定義呈現(xiàn)多樣化的趨勢(shì)精肃,達(dá)成共識(shí)非常困難。本質(zhì)上帜乞,大數(shù)據(jù)不僅意味著數(shù)據(jù)的大容量司抱,還體現(xiàn)了一些區(qū)別于“海量數(shù)據(jù)”和“非常大的數(shù)據(jù)”的特點(diǎn)。實(shí)際上黎烈,不少文獻(xiàn)對(duì)大數(shù)據(jù)進(jìn)行了定義习柠,其中三種定義較為重要。
1.屬性定義
國(guó)際數(shù)據(jù)中心IDC是研究大數(shù)據(jù)及其影響的先驅(qū)照棋,在2011年的報(bào)告中定義了大數(shù)據(jù):“大數(shù)據(jù)技術(shù)描述了一個(gè)技術(shù)和體系的新時(shí)代资溃,被設(shè)計(jì)于從大規(guī)模多樣化的數(shù)據(jù)中通過(guò)高速捕獲、發(fā)現(xiàn)和分析技術(shù)提取數(shù)據(jù)的價(jià)值”烈炭。這個(gè)定義刻畫(huà)了大數(shù)據(jù)的4個(gè)顯著特點(diǎn)肉拓,即容量(volume)、多樣性(variety)梳庆、速度(velocity)和價(jià)值(value),而“4Vs”定義的使用也較為廣泛卑惜。類(lèi)似的定義也出現(xiàn)在2001年IT分析公司META集團(tuán)(現(xiàn)在已被Gartner并購(gòu))分析師DougLaney的研究報(bào)告中膏执,他注意到數(shù)據(jù)的增長(zhǎng)是三維的,即容量露久、多樣性和速度的增長(zhǎng)更米。盡管“3Vs”定義沒(méi)有完整描述大數(shù)據(jù)征峦,Gartner和多數(shù)產(chǎn)業(yè)界巨頭如IBM和Microsoft的研究者們?nèi)岳^續(xù)使用“3Vs”模型描述大數(shù)據(jù)。
2.比較定義
2011年针饥,McKinsey公司的研究報(bào)告中將大數(shù)據(jù)定義為“超過(guò)了典型數(shù)據(jù)庫(kù)軟件工具捕獲筷凤、存儲(chǔ)、管理和分析數(shù)據(jù)能力的數(shù)據(jù)集”吗伤。這種定義是一種主觀定義礁阁,沒(méi)有描述與大數(shù)據(jù)相關(guān)的任何度量機(jī)制,但是在定義中包含了一種演化的觀點(diǎn)(從時(shí)間和跨領(lǐng)域的角度),說(shuō)明了什么樣的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù)。
3.體系定義
美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)研究院NIST則認(rèn)為“大數(shù)據(jù)是指數(shù)據(jù)的容量、數(shù)據(jù)的獲取速度或者數(shù)據(jù)的表示限制了使用傳統(tǒng)關(guān)系方法對(duì)數(shù)據(jù)的分析處理能力,需要使用水平擴(kuò)展的機(jī)制以提高處理效率”烙懦。此外,大數(shù)據(jù)可進(jìn)一步細(xì)分為大數(shù)據(jù)科學(xué)和大數(shù)據(jù)框架。大數(shù)據(jù)科學(xué)是涵蓋大數(shù)據(jù)獲取、調(diào)節(jié)和評(píng)估技術(shù)的研究;大數(shù)據(jù)框架則是在計(jì)算單元集群間解決大數(shù)據(jù)問(wèn)題的分布式處理和分析的軟件庫(kù)及算法绢记。一個(gè)或多個(gè)大數(shù)據(jù)框架的實(shí)例化即為大數(shù)據(jù)基礎(chǔ)設(shè)施。
此外窘行,還有不少產(chǎn)業(yè)界和學(xué)術(shù)界對(duì)大數(shù)據(jù)定義的討論但绕。然而對(duì)于大數(shù)據(jù)定義草丧,要達(dá)成共識(shí)非常困難诈泼。一種邏輯上的選擇是接受所有的大數(shù)據(jù)定義懂拾,其中每種定義反映了大數(shù)據(jù)的特定方面。采取這種方式理解大數(shù)據(jù)科學(xué)和工程的共同問(wèn)題和相關(guān)機(jī)制铐达。前面提到的大數(shù)據(jù)定義給出了一系列工具岖赋,用于比較大數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)分析,比較結(jié)果如表1所示瓮孙。
首先唐断,數(shù)據(jù)集的容量是區(qū)分大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的關(guān)鍵因素。其次杭抠,大數(shù)據(jù)有三種形式:結(jié)構(gòu)化脸甘、半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)化。傳統(tǒng)的數(shù)據(jù)通常是結(jié)構(gòu)化的偏灿,易于標(biāo)注和存儲(chǔ)丹诀。而現(xiàn)在Facebook,Twitter翁垂,YouTube以及其他用戶(hù)產(chǎn)生的絕大多數(shù)數(shù)據(jù)都是非結(jié)構(gòu)化的铆遭。第三,大數(shù)據(jù)的速度意味著數(shù)據(jù)集的分析處理速率要匹配數(shù)據(jù)的產(chǎn)生速率沿猜。對(duì)于時(shí)間敏感的應(yīng)用枚荣,例如欺詐檢測(cè)和RFID數(shù)據(jù)管理,大數(shù)據(jù)以流的形式進(jìn)入企業(yè)啼肩,需要盡可能快地處理數(shù)據(jù)并最大化其價(jià)值橄妆。最后,利用大量數(shù)據(jù)挖掘方法分析大數(shù)據(jù)集疟游,可以從低價(jià)值密度的巨量數(shù)據(jù)中提取重要的價(jià)值呼畸。
二、大數(shù)據(jù)系統(tǒng)架構(gòu)
大數(shù)據(jù)價(jià)值鏈由4個(gè)階段構(gòu)成:數(shù)據(jù)生成颁虐、數(shù)據(jù)獲取蛮原、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析。
1.大數(shù)據(jù)系統(tǒng):價(jià)值鏈觀點(diǎn)
大數(shù)據(jù)系統(tǒng)是一個(gè)復(fù)雜的另绩、提供數(shù)據(jù)生命周期(從數(shù)據(jù)的產(chǎn)生到消亡)的不同階段數(shù)據(jù)處理功能的系統(tǒng)儒陨。同時(shí),對(duì)于不同的應(yīng)用笋籽,大數(shù)據(jù)系統(tǒng)通常也涉及多個(gè)不同的階段蹦漠。本文采用產(chǎn)業(yè)界廣為接受的系統(tǒng)工程方法,將典型的大數(shù)據(jù)系統(tǒng)分解為4個(gè)連續(xù)的階段车海,包括數(shù)據(jù)生成笛园、數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析,如圖2中水平軸所示研铆。數(shù)據(jù)生成階段關(guān)心的是數(shù)據(jù)如何產(chǎn)生埋同。此時(shí)“大數(shù)據(jù)”意味著從多樣的縱向或分布式數(shù)據(jù)源(傳感器、視頻棵红、點(diǎn)擊流和其他數(shù)字源)產(chǎn)生的大量的凶赁、多樣的和復(fù)雜的數(shù)據(jù)集。通常逆甜,這些數(shù)據(jù)集和領(lǐng)域相關(guān)的不同級(jí)別的價(jià)值聯(lián)系在一起虱肄。
數(shù)據(jù)獲取則是指獲取信息的過(guò)程交煞,可分為數(shù)據(jù)采集咏窿、數(shù)據(jù)傳輸和數(shù)據(jù)預(yù)處理。首先错敢,由于數(shù)據(jù)來(lái)自不同的數(shù)據(jù)源翰灾,如包含格式文本、圖像和視頻的網(wǎng)站數(shù)據(jù)稚茅,數(shù)據(jù)采集是指從特定數(shù)據(jù)生產(chǎn)環(huán)境獲得原始數(shù)據(jù)的專(zhuān)用數(shù)據(jù)采集技術(shù)纸淮。其次,數(shù)據(jù)采集完成后亚享,需要高速的數(shù)據(jù)傳輸機(jī)制將數(shù)據(jù)傳輸?shù)胶线m的存儲(chǔ)系統(tǒng)咽块,供不同類(lèi)型的分析應(yīng)用使用。再次欺税,數(shù)據(jù)集可能存在一些無(wú)意義的數(shù)據(jù)侈沪,將增加數(shù)據(jù)存儲(chǔ)空間并影響后續(xù)的數(shù)據(jù)分析。例如晚凿,從監(jiān)控環(huán)境的傳感器中獲得的數(shù)據(jù)集通常存在冗余亭罪,可以使用數(shù)據(jù)壓縮技術(shù)減少數(shù)據(jù)傳輸量。因此歼秽,必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理应役,以實(shí)現(xiàn)數(shù)據(jù)的高效存儲(chǔ)和挖掘。
數(shù)據(jù)存儲(chǔ)解決的是大規(guī)模數(shù)據(jù)的持久存儲(chǔ)和管理燥筷。數(shù)據(jù)存儲(chǔ)系統(tǒng)可以分為兩部分:硬件基礎(chǔ)設(shè)施和數(shù)據(jù)管理軟件箩祥。硬件基礎(chǔ)設(shè)施由共享的ICT資源池組成,資源池根據(jù)不同應(yīng)用的即時(shí)需求肆氓,以彈性的方式組織而成袍祖。硬件基礎(chǔ)設(shè)施應(yīng)能夠向上和向外擴(kuò)展,并能進(jìn)行動(dòng)態(tài)重配置以適應(yīng)不同類(lèi)型的應(yīng)用環(huán)境谢揪。數(shù)據(jù)管理軟件則部署在硬件基礎(chǔ)設(shè)施之上用于維護(hù)大規(guī)模數(shù)據(jù)集蕉陋。此外捐凭,為了分析存儲(chǔ)的數(shù)據(jù)及其數(shù)據(jù)交互,存儲(chǔ)系統(tǒng)應(yīng)提供功能接口寺滚、快速查詢(xún)和其他編程模型柑营。
數(shù)據(jù)分析利用分析方法或工具對(duì)數(shù)據(jù)進(jìn)行檢查、變換和建模并從中提取價(jià)值村视。許多應(yīng)用領(lǐng)域利用領(lǐng)域相關(guān)的數(shù)據(jù)分析方法獲得預(yù)期的結(jié)果。盡管不同的領(lǐng)域具有不同的需求和數(shù)據(jù)特性酒奶,它們可以使用一些相似的底層技術(shù)蚁孔。當(dāng)前的數(shù)據(jù)分析技術(shù)的研究可以分為6個(gè)重要方向:結(jié)構(gòu)化數(shù)據(jù)分析、文本數(shù)據(jù)分析惋嚎、多媒體數(shù)據(jù)分析杠氢、web數(shù)據(jù)分析、網(wǎng)絡(luò)數(shù)據(jù)分析和移動(dòng)數(shù)據(jù)分析另伍。
大數(shù)據(jù)的研究涉及許多學(xué)科技術(shù)鼻百,圖2顯示了大數(shù)據(jù)技術(shù)地圖,圖中將大數(shù)據(jù)價(jià)值鏈不同階段和相應(yīng)的開(kāi)源或?qū)S屑夹g(shù)聯(lián)系在一起摆尝。圖2反映了大數(shù)據(jù)的發(fā)展趨勢(shì)温艇。在數(shù)據(jù)生成階段,大數(shù)據(jù)的結(jié)構(gòu)逐漸復(fù)雜堕汞,從結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的數(shù)據(jù)到不同類(lèi)型的混合數(shù)據(jù)勺爱。在數(shù)據(jù)獲取階段,數(shù)據(jù)采集讯检、數(shù)據(jù)預(yù)處理和數(shù)據(jù)傳輸?shù)难芯縿t出現(xiàn)在不同的時(shí)期琐鲁。而數(shù)據(jù)存儲(chǔ)的相關(guān)研究則大部分始于2005年。數(shù)據(jù)分析的基本方法形成于2000年前人灼,隨后的研究則使用這些方法解決領(lǐng)域相關(guān)的問(wèn)題围段。從該圖中,可以在不同階段選擇合適的技術(shù)和方法定制大數(shù)據(jù)系統(tǒng)投放。
2.大數(shù)據(jù)系統(tǒng):層次觀點(diǎn)
從層次觀點(diǎn)奈泪,可以將大數(shù)據(jù)系統(tǒng)分解為3層:基礎(chǔ)設(shè)施層、計(jì)算層和應(yīng)用層跪呈,如圖3所示段磨。這種層次觀點(diǎn)僅提供概念上的層次以強(qiáng)調(diào)大數(shù)據(jù)系統(tǒng)的復(fù)雜性。
?基礎(chǔ)設(shè)施層:由ICT資源池構(gòu)成耗绿,可利用虛擬技術(shù)組織為云計(jì)算基礎(chǔ)設(shè)施苹支。這些資源通過(guò)特定的服務(wù)級(jí)別協(xié)定(service-levelagreement,SLA)以細(xì)粒度的方式提供給上層子系統(tǒng)误阻,資源的分配需要滿(mǎn)足大數(shù)據(jù)需求债蜜,同時(shí)通過(guò)最大化系統(tǒng)利用率晴埂、能量感知和操作簡(jiǎn)化等方式實(shí)現(xiàn)資源使用的有效性。
?計(jì)算層:將多種數(shù)據(jù)工具封裝于運(yùn)行在原始ICT硬件資源之上的中間件中寻定,典型的工具包括數(shù)據(jù)集成儒洛、數(shù)據(jù)管理和編程模型等。數(shù)據(jù)集成是指從獨(dú)立的數(shù)據(jù)源中獲取數(shù)據(jù)狼速,并通過(guò)必要的預(yù)處理技術(shù)將數(shù)據(jù)集合成為統(tǒng)一形式琅锻。數(shù)據(jù)管理是指提供數(shù)據(jù)的持久存儲(chǔ)和高效管理的機(jī)制和工具,例如分布式的文件系統(tǒng)和SQL向胡,NoSQL數(shù)據(jù)存儲(chǔ)恼蓬。編程模型實(shí)現(xiàn)應(yīng)用邏輯抽象并為數(shù)據(jù)分析應(yīng)用提供便利。MapReduce僵芹,Dryad处硬,Pregel和Dremel是幾個(gè)典型的編程模型。
?應(yīng)用層:利用編程模型提供的接口實(shí)現(xiàn)不同的數(shù)據(jù)分析功能拇派,包括查詢(xún)荷辕、統(tǒng)計(jì)分析、數(shù)據(jù)的聚類(lèi)和分類(lèi)等件豌,同時(shí)通過(guò)組合基本分析方法開(kāi)發(fā)不同的領(lǐng)域相關(guān)應(yīng)用疮方。McKinsey公司提出了5個(gè)潛在的大數(shù)據(jù)應(yīng)用領(lǐng)域:醫(yī)療康護(hù)、公眾部門(mén)管理苟径、零售案站、全球制造和個(gè)人位置信息。
今天就對(duì)大數(shù)據(jù)定義和系統(tǒng)結(jié)構(gòu)給大家分享棘街,后面會(huì)連續(xù)帶你認(rèn)識(shí)不一樣的大數(shù)據(jù)蟆盐。
如果您想長(zhǎng)期獲取科技信息的解讀,記得關(guān)注我遭殉,我會(huì)每天更新石挂,謝謝。同時(shí)如果您有什么意見(jiàn)和建議险污,歡迎評(píng)論痹愚。