大數(shù)據(jù)(巨量數(shù)據(jù)集合(IT行業(yè)術(shù)語))
大數(shù)據(jù)(big data)煌恢,指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合震庭,是需要新處理模式才能具有更強的決策力瑰抵、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)归薛。
在《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣捷徑谍憔,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)主籍、Velocity(高速)习贫、Variety(多樣)、Value(低價值密度)千元、Veracity(真實性)苫昌。
對于“大數(shù)據(jù)”(Big data)各方定義
研究機構(gòu)Gartner給出了這樣的定義⌒液#“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力祟身、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)物独。[1]
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取袜硫、存儲、管理挡篓、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合婉陷,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)官研、多樣的數(shù)據(jù)類型和價值密度低四大特征秽澳。[4]
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理戏羽。換而言之担神,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵始花,在于提高對數(shù)據(jù)的“加工能力”妄讯,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”孩锡。[5]
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分捞挥。大數(shù)據(jù)必然無法用單臺的計算機進行處理浮创,必須采用分布式架構(gòu)忧吟。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘砌函。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲溜族、虛擬化技術(shù)讹俊。[2]
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注煌抒。分析師團隊認為仍劈,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢寡壮。大數(shù)據(jù)分析常和云計算聯(lián)系到一起贩疙,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作况既。
大數(shù)據(jù)需要特殊的技術(shù)这溅,以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù)棒仍,包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫悲靴、數(shù)據(jù)挖掘、分布式文件系統(tǒng)莫其、分布式數(shù)據(jù)庫癞尚、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)乱陡。
公眾號推薦:
公眾號 NEWS消息 鏈接:
https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzI5NzI2ODA1Mw==&scene=124#wechat_redirect
公眾號 大數(shù)據(jù)24小時 鏈接:
https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzU3NTAxNDM5MQ==&scene=124#wechat_redirect