帶你深入淺出重新認(rèn)識(shí)大數(shù)據(jù)-基礎(chǔ)篇

之前一直關(guān)注我的朋友應(yīng)該知道鳞骤,最近一直在和大家聊國(guó)產(chǎn)芯片的一些發(fā)展和制作環(huán)節(jié)探颈,相信經(jīng)過(guò)閱讀我的文章,對(duì)于芯片會(huì)有了更深的認(rèn)識(shí)症杏。

今天開(kāi)始帶大家開(kāi)始正式學(xué)習(xí)大數(shù)據(jù)装获,由淺到深,解讀大數(shù)據(jù)的來(lái)龍去脈厉颤。今天主要介紹大數(shù)據(jù)的定義和結(jié)構(gòu)穴豫。

一、大數(shù)據(jù)定義

隨著大數(shù)據(jù)的流行逼友,大數(shù)據(jù)的定義呈現(xiàn)多樣化的趨勢(shì)精肃,達(dá)成共識(shí)非常困難。本質(zhì)上帜乞,大數(shù)據(jù)不僅意味著數(shù)據(jù)的大容量司抱,還體現(xiàn)了一些區(qū)別于“海量數(shù)據(jù)”和“非常大的數(shù)據(jù)”的特點(diǎn)。實(shí)際上黎烈,不少文獻(xiàn)對(duì)大數(shù)據(jù)進(jìn)行了定義习柠,其中三種定義較為重要。

1.屬性定義

國(guó)際數(shù)據(jù)中心IDC是研究大數(shù)據(jù)及其影響的先驅(qū)照棋,在2011年的報(bào)告中定義了大數(shù)據(jù):“大數(shù)據(jù)技術(shù)描述了一個(gè)技術(shù)和體系的新時(shí)代资溃,被設(shè)計(jì)于從大規(guī)模多樣化的數(shù)據(jù)中通過(guò)高速捕獲、發(fā)現(xiàn)和分析技術(shù)提取數(shù)據(jù)的價(jià)值”烈炭。這個(gè)定義刻畫(huà)了大數(shù)據(jù)的4個(gè)顯著特點(diǎn)肉拓,即容量(volume)、多樣性(variety)梳庆、速度(velocity)和價(jià)值(value),而“4Vs”定義的使用也較為廣泛卑惜。類(lèi)似的定義也出現(xiàn)在2001年IT分析公司META集團(tuán)(現(xiàn)在已被Gartner并購(gòu))分析師DougLaney的研究報(bào)告中膏执,他注意到數(shù)據(jù)的增長(zhǎng)是三維的,即容量露久、多樣性和速度的增長(zhǎng)更米。盡管“3Vs”定義沒(méi)有完整描述大數(shù)據(jù)征峦,Gartner和多數(shù)產(chǎn)業(yè)界巨頭如IBM和Microsoft的研究者們?nèi)岳^續(xù)使用“3Vs”模型描述大數(shù)據(jù)。

2.比較定義

2011年针饥,McKinsey公司的研究報(bào)告中將大數(shù)據(jù)定義為“超過(guò)了典型數(shù)據(jù)庫(kù)軟件工具捕獲筷凤、存儲(chǔ)、管理和分析數(shù)據(jù)能力的數(shù)據(jù)集”吗伤。這種定義是一種主觀定義礁阁,沒(méi)有描述與大數(shù)據(jù)相關(guān)的任何度量機(jī)制,但是在定義中包含了一種演化的觀點(diǎn)(從時(shí)間和跨領(lǐng)域的角度),說(shuō)明了什么樣的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù)。

3.體系定義

美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)研究院NIST則認(rèn)為“大數(shù)據(jù)是指數(shù)據(jù)的容量、數(shù)據(jù)的獲取速度或者數(shù)據(jù)的表示限制了使用傳統(tǒng)關(guān)系方法對(duì)數(shù)據(jù)的分析處理能力,需要使用水平擴(kuò)展的機(jī)制以提高處理效率”烙懦。此外,大數(shù)據(jù)可進(jìn)一步細(xì)分為大數(shù)據(jù)科學(xué)和大數(shù)據(jù)框架。大數(shù)據(jù)科學(xué)是涵蓋大數(shù)據(jù)獲取、調(diào)節(jié)和評(píng)估技術(shù)的研究;大數(shù)據(jù)框架則是在計(jì)算單元集群間解決大數(shù)據(jù)問(wèn)題的分布式處理和分析的軟件庫(kù)及算法绢记。一個(gè)或多個(gè)大數(shù)據(jù)框架的實(shí)例化即為大數(shù)據(jù)基礎(chǔ)設(shè)施。

此外窘行,還有不少產(chǎn)業(yè)界和學(xué)術(shù)界對(duì)大數(shù)據(jù)定義的討論但绕。然而對(duì)于大數(shù)據(jù)定義草丧,要達(dá)成共識(shí)非常困難诈泼。一種邏輯上的選擇是接受所有的大數(shù)據(jù)定義懂拾,其中每種定義反映了大數(shù)據(jù)的特定方面。采取這種方式理解大數(shù)據(jù)科學(xué)和工程的共同問(wèn)題和相關(guān)機(jī)制铐达。前面提到的大數(shù)據(jù)定義給出了一系列工具岖赋,用于比較大數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)分析,比較結(jié)果如表1所示瓮孙。

首先唐断,數(shù)據(jù)集的容量是區(qū)分大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的關(guān)鍵因素。其次杭抠,大數(shù)據(jù)有三種形式:結(jié)構(gòu)化脸甘、半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)化。傳統(tǒng)的數(shù)據(jù)通常是結(jié)構(gòu)化的偏灿,易于標(biāo)注和存儲(chǔ)丹诀。而現(xiàn)在Facebook,Twitter翁垂,YouTube以及其他用戶(hù)產(chǎn)生的絕大多數(shù)數(shù)據(jù)都是非結(jié)構(gòu)化的铆遭。第三,大數(shù)據(jù)的速度意味著數(shù)據(jù)集的分析處理速率要匹配數(shù)據(jù)的產(chǎn)生速率沿猜。對(duì)于時(shí)間敏感的應(yīng)用枚荣,例如欺詐檢測(cè)和RFID數(shù)據(jù)管理,大數(shù)據(jù)以流的形式進(jìn)入企業(yè)啼肩,需要盡可能快地處理數(shù)據(jù)并最大化其價(jià)值橄妆。最后,利用大量數(shù)據(jù)挖掘方法分析大數(shù)據(jù)集疟游,可以從低價(jià)值密度的巨量數(shù)據(jù)中提取重要的價(jià)值呼畸。

二、大數(shù)據(jù)系統(tǒng)架構(gòu)

大數(shù)據(jù)價(jià)值鏈由4個(gè)階段構(gòu)成:數(shù)據(jù)生成颁虐、數(shù)據(jù)獲取蛮原、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析。

1.大數(shù)據(jù)系統(tǒng):價(jià)值鏈觀點(diǎn)

大數(shù)據(jù)系統(tǒng)是一個(gè)復(fù)雜的另绩、提供數(shù)據(jù)生命周期(從數(shù)據(jù)的產(chǎn)生到消亡)的不同階段數(shù)據(jù)處理功能的系統(tǒng)儒陨。同時(shí),對(duì)于不同的應(yīng)用笋籽,大數(shù)據(jù)系統(tǒng)通常也涉及多個(gè)不同的階段蹦漠。本文采用產(chǎn)業(yè)界廣為接受的系統(tǒng)工程方法,將典型的大數(shù)據(jù)系統(tǒng)分解為4個(gè)連續(xù)的階段车海,包括數(shù)據(jù)生成笛园、數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析,如圖2中水平軸所示研铆。數(shù)據(jù)生成階段關(guān)心的是數(shù)據(jù)如何產(chǎn)生埋同。此時(shí)“大數(shù)據(jù)”意味著從多樣的縱向或分布式數(shù)據(jù)源(傳感器、視頻棵红、點(diǎn)擊流和其他數(shù)字源)產(chǎn)生的大量的凶赁、多樣的和復(fù)雜的數(shù)據(jù)集。通常逆甜,這些數(shù)據(jù)集和領(lǐng)域相關(guān)的不同級(jí)別的價(jià)值聯(lián)系在一起虱肄。

數(shù)據(jù)獲取則是指獲取信息的過(guò)程交煞,可分為數(shù)據(jù)采集咏窿、數(shù)據(jù)傳輸和數(shù)據(jù)預(yù)處理。首先错敢,由于數(shù)據(jù)來(lái)自不同的數(shù)據(jù)源翰灾,如包含格式文本、圖像和視頻的網(wǎng)站數(shù)據(jù)稚茅,數(shù)據(jù)采集是指從特定數(shù)據(jù)生產(chǎn)環(huán)境獲得原始數(shù)據(jù)的專(zhuān)用數(shù)據(jù)采集技術(shù)纸淮。其次,數(shù)據(jù)采集完成后亚享,需要高速的數(shù)據(jù)傳輸機(jī)制將數(shù)據(jù)傳輸?shù)胶线m的存儲(chǔ)系統(tǒng)咽块,供不同類(lèi)型的分析應(yīng)用使用。再次欺税,數(shù)據(jù)集可能存在一些無(wú)意義的數(shù)據(jù)侈沪,將增加數(shù)據(jù)存儲(chǔ)空間并影響后續(xù)的數(shù)據(jù)分析。例如晚凿,從監(jiān)控環(huán)境的傳感器中獲得的數(shù)據(jù)集通常存在冗余亭罪,可以使用數(shù)據(jù)壓縮技術(shù)減少數(shù)據(jù)傳輸量。因此歼秽,必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理应役,以實(shí)現(xiàn)數(shù)據(jù)的高效存儲(chǔ)和挖掘。

數(shù)據(jù)存儲(chǔ)解決的是大規(guī)模數(shù)據(jù)的持久存儲(chǔ)和管理燥筷。數(shù)據(jù)存儲(chǔ)系統(tǒng)可以分為兩部分:硬件基礎(chǔ)設(shè)施和數(shù)據(jù)管理軟件箩祥。硬件基礎(chǔ)設(shè)施由共享的ICT資源池組成,資源池根據(jù)不同應(yīng)用的即時(shí)需求肆氓,以彈性的方式組織而成袍祖。硬件基礎(chǔ)設(shè)施應(yīng)能夠向上和向外擴(kuò)展,并能進(jìn)行動(dòng)態(tài)重配置以適應(yīng)不同類(lèi)型的應(yīng)用環(huán)境谢揪。數(shù)據(jù)管理軟件則部署在硬件基礎(chǔ)設(shè)施之上用于維護(hù)大規(guī)模數(shù)據(jù)集蕉陋。此外捐凭,為了分析存儲(chǔ)的數(shù)據(jù)及其數(shù)據(jù)交互,存儲(chǔ)系統(tǒng)應(yīng)提供功能接口寺滚、快速查詢(xún)和其他編程模型柑营。

數(shù)據(jù)分析利用分析方法或工具對(duì)數(shù)據(jù)進(jìn)行檢查、變換和建模并從中提取價(jià)值村视。許多應(yīng)用領(lǐng)域利用領(lǐng)域相關(guān)的數(shù)據(jù)分析方法獲得預(yù)期的結(jié)果。盡管不同的領(lǐng)域具有不同的需求和數(shù)據(jù)特性酒奶,它們可以使用一些相似的底層技術(shù)蚁孔。當(dāng)前的數(shù)據(jù)分析技術(shù)的研究可以分為6個(gè)重要方向:結(jié)構(gòu)化數(shù)據(jù)分析、文本數(shù)據(jù)分析惋嚎、多媒體數(shù)據(jù)分析杠氢、web數(shù)據(jù)分析、網(wǎng)絡(luò)數(shù)據(jù)分析和移動(dòng)數(shù)據(jù)分析另伍。

大數(shù)據(jù)的研究涉及許多學(xué)科技術(shù)鼻百,圖2顯示了大數(shù)據(jù)技術(shù)地圖,圖中將大數(shù)據(jù)價(jià)值鏈不同階段和相應(yīng)的開(kāi)源或?qū)S屑夹g(shù)聯(lián)系在一起摆尝。圖2反映了大數(shù)據(jù)的發(fā)展趨勢(shì)温艇。在數(shù)據(jù)生成階段,大數(shù)據(jù)的結(jié)構(gòu)逐漸復(fù)雜堕汞,從結(jié)構(gòu)化或無(wú)結(jié)構(gòu)的數(shù)據(jù)到不同類(lèi)型的混合數(shù)據(jù)勺爱。在數(shù)據(jù)獲取階段,數(shù)據(jù)采集讯检、數(shù)據(jù)預(yù)處理和數(shù)據(jù)傳輸?shù)难芯縿t出現(xiàn)在不同的時(shí)期琐鲁。而數(shù)據(jù)存儲(chǔ)的相關(guān)研究則大部分始于2005年。數(shù)據(jù)分析的基本方法形成于2000年前人灼,隨后的研究則使用這些方法解決領(lǐng)域相關(guān)的問(wèn)題围段。從該圖中,可以在不同階段選擇合適的技術(shù)和方法定制大數(shù)據(jù)系統(tǒng)投放。

2.大數(shù)據(jù)系統(tǒng):層次觀點(diǎn)

從層次觀點(diǎn)奈泪,可以將大數(shù)據(jù)系統(tǒng)分解為3層:基礎(chǔ)設(shè)施層、計(jì)算層和應(yīng)用層跪呈,如圖3所示段磨。這種層次觀點(diǎn)僅提供概念上的層次以強(qiáng)調(diào)大數(shù)據(jù)系統(tǒng)的復(fù)雜性。

?基礎(chǔ)設(shè)施層:由ICT資源池構(gòu)成耗绿,可利用虛擬技術(shù)組織為云計(jì)算基礎(chǔ)設(shè)施苹支。這些資源通過(guò)特定的服務(wù)級(jí)別協(xié)定(service-levelagreement,SLA)以細(xì)粒度的方式提供給上層子系統(tǒng)误阻,資源的分配需要滿(mǎn)足大數(shù)據(jù)需求债蜜,同時(shí)通過(guò)最大化系統(tǒng)利用率晴埂、能量感知和操作簡(jiǎn)化等方式實(shí)現(xiàn)資源使用的有效性。

?計(jì)算層:將多種數(shù)據(jù)工具封裝于運(yùn)行在原始ICT硬件資源之上的中間件中寻定,典型的工具包括數(shù)據(jù)集成儒洛、數(shù)據(jù)管理和編程模型等。數(shù)據(jù)集成是指從獨(dú)立的數(shù)據(jù)源中獲取數(shù)據(jù)狼速,并通過(guò)必要的預(yù)處理技術(shù)將數(shù)據(jù)集合成為統(tǒng)一形式琅锻。數(shù)據(jù)管理是指提供數(shù)據(jù)的持久存儲(chǔ)和高效管理的機(jī)制和工具,例如分布式的文件系統(tǒng)和SQL向胡,NoSQL數(shù)據(jù)存儲(chǔ)恼蓬。編程模型實(shí)現(xiàn)應(yīng)用邏輯抽象并為數(shù)據(jù)分析應(yīng)用提供便利。MapReduce僵芹,Dryad处硬,Pregel和Dremel是幾個(gè)典型的編程模型。

?應(yīng)用層:利用編程模型提供的接口實(shí)現(xiàn)不同的數(shù)據(jù)分析功能拇派,包括查詢(xún)荷辕、統(tǒng)計(jì)分析、數(shù)據(jù)的聚類(lèi)和分類(lèi)等件豌,同時(shí)通過(guò)組合基本分析方法開(kāi)發(fā)不同的領(lǐng)域相關(guān)應(yīng)用疮方。McKinsey公司提出了5個(gè)潛在的大數(shù)據(jù)應(yīng)用領(lǐng)域:醫(yī)療康護(hù)、公眾部門(mén)管理苟径、零售案站、全球制造和個(gè)人位置信息。

今天就對(duì)大數(shù)據(jù)定義和系統(tǒng)結(jié)構(gòu)給大家分享棘街,后面會(huì)連續(xù)帶你認(rèn)識(shí)不一樣的大數(shù)據(jù)蟆盐。

如果您想長(zhǎng)期獲取科技信息的解讀,記得關(guān)注我遭殉,我會(huì)每天更新石挂,謝謝。同時(shí)如果您有什么意見(jiàn)和建議险污,歡迎評(píng)論痹愚。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市蛔糯,隨后出現(xiàn)的幾起案子拯腮,更是在濱河造成了極大的恐慌,老刑警劉巖蚁飒,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件动壤,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡淮逻,警方通過(guò)查閱死者的電腦和手機(jī)琼懊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)阁簸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人哼丈,你說(shuō)我怎么就攤上這事启妹。” “怎么了醉旦?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵饶米,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我车胡,道長(zhǎng)咙崎,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任吨拍,我火速辦了婚禮,結(jié)果婚禮上网杆,老公的妹妹穿的比我還像新娘羹饰。我一直安慰自己,他們只是感情好碳却,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布队秩。 她就那樣靜靜地躺著,像睡著了一般昼浦。 火紅的嫁衣襯著肌膚如雪馍资。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天关噪,我揣著相機(jī)與錄音鸟蟹,去河邊找鬼。 笑死使兔,一個(gè)胖子當(dāng)著我的面吹牛建钥,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播虐沥,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼熊经,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了欲险?” 一聲冷哼從身側(cè)響起镐依,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎天试,沒(méi)想到半個(gè)月后槐壳,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡秋秤,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年宏粤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了脚翘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡绍哎,死狀恐怖来农,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情崇堰,我是刑警寧澤沃于,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站海诲,受9級(jí)特大地震影響繁莹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜特幔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一咨演、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蚯斯,春花似錦薄风、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至横辆,卻和暖如春撇他,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背狈蚤。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工困肩, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人炫惩。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓僻弹,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親他嚷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蹋绽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容