廣義上講 大數(shù)據(jù)是時(shí)代發(fā)展和技術(shù)進(jìn)步的產(chǎn)物迫吐。Hadoop只是一種處理大數(shù)據(jù)的技術(shù)手段殃饿。
“大數(shù)據(jù)”概念在1980年由維克托·邁爾-舍恩伯格及肯尼斯·庫克耶 在《第三次浪潮》首次提出洗贰,由麥肯錫公司(McKinsey)最早應(yīng)用柏肪。
大數(shù)據(jù)的特征
1,容量:數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價(jià)值和潛在的信息
2,種類:數(shù)據(jù)類型的多樣性
3,速度:指獲得數(shù)據(jù)的速度
4,可變性:妨礙了處理和有效地管理數(shù)據(jù)的過程
5,真實(shí)性:數(shù)據(jù)的質(zhì)量
6,復(fù)雜性:數(shù)據(jù)量巨大召衔,來源多渠道
7,價(jià)值:合理運(yùn)用大數(shù)據(jù)揪垄,以低成本創(chuàng)造高價(jià)值
大數(shù)據(jù)的發(fā)展趨勢(摘自百科)
1,趨勢一:數(shù)據(jù)的資源化
2,趨勢二:與云計(jì)算的深度結(jié)合
3,趨勢三:科學(xué)理論的突破
4,趨勢四:數(shù)據(jù)科學(xué)和數(shù)據(jù)聯(lián)盟的成立
5,趨勢五:數(shù)據(jù)泄露泛濫
6,趨勢六:數(shù)據(jù)管理成為核心競爭力
7,趨勢七:數(shù)據(jù)質(zhì)量是BI(商業(yè)智能)成功的關(guān)鍵
8,趨勢八:數(shù)據(jù)生態(tài)系統(tǒng)復(fù)合化程度加強(qiáng)
Hadoop是什么穷吮?
Hadoop是一個(gè)由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下饥努,開發(fā)分布式程序捡鱼。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲。Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce酷愧。HDFS為海量的數(shù)據(jù)提供了存儲驾诈,而MapReduce則為海量的數(shù)據(jù)提供了計(jì)算。
hdfs架構(gòu)示意圖
MapReduce工作原理圖
Hadoop生態(tài)圈
大數(shù)據(jù)需要特殊的技術(shù),無法用單臺計(jì)算機(jī)進(jìn)行處理溶浴,必須采用分布式架構(gòu)乍迄。hadoop只是處理大數(shù)據(jù)的一種技術(shù)。圍繞大數(shù)據(jù)還有其它的技術(shù)
大數(shù)據(jù)和hadoop之間的關(guān)系
最后總結(jié)下:大數(shù)據(jù)是時(shí)代發(fā)展的產(chǎn)物士败,為了應(yīng)對大數(shù)據(jù)環(huán)境下新的業(yè)務(wù)需求闯两,相關(guān)的分布式存儲,分布式計(jì)算谅将,大規(guī)模分布式數(shù)據(jù)庫等技術(shù)漾狼,hadoop解決了通過hdfs實(shí)現(xiàn)分布式存儲,通過mapreduce實(shí)現(xiàn)分布式計(jì)算饥臂。圍著hadoop逐步發(fā)展出一個(gè)hadoop生態(tài)圈逊躁。 hadoop大數(shù)據(jù)環(huán)境下的一種處理結(jié)束。
如果您覺得我用心了隅熙,覺得您有所收獲稽煤,麻煩關(guān)注下我吧核芽,您的關(guān)注就是我的動力,因?yàn)橛心憬臀酰揖筒皇且粋€(gè)人在前行轧简。
歡迎來找 數(shù)據(jù)僧 一起探討大數(shù)據(jù)相關(guān)的問題。評論區(qū)留言匾二,我們一起討論吉懊。