廣義上講 大數(shù)據(jù)是時代發(fā)展和技術(shù)進步的產(chǎn)物。Hadoop只是一種處理大數(shù)據(jù)的技術(shù)手段讳嘱。
“大數(shù)據(jù)”概念在1980年由維克托·邁爾-舍恩伯格及肯尼斯·庫克耶 在《第三次浪潮》首次提出,由麥肯錫公司(McKinsey)最早應用酿愧。
大數(shù)據(jù)的特征
容量:數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價值和潛在的信息
種類:數(shù)據(jù)類型的多樣性
速度:指獲得數(shù)據(jù)的速
可變性:妨礙了處理和有效地管理數(shù)據(jù)的過程
真實性:數(shù)據(jù)的質(zhì)量
復雜性:數(shù)據(jù)量巨大沥潭,來源多渠道
價值:合理運用大數(shù)據(jù),以低成本創(chuàng)造高價值
大數(shù)據(jù)的發(fā)展趨勢(摘自百科)
趨勢一:數(shù)據(jù)的資源化
趨勢二:與云計算的深度結(jié)合
趨勢三:科學理論的突破
趨勢四:數(shù)據(jù)科學和數(shù)據(jù)聯(lián)盟的成立
趨勢五:數(shù)據(jù)泄露泛濫
趨勢六:數(shù)據(jù)管理成為核心競爭力
趨勢七:數(shù)據(jù)質(zhì)量是BI(商業(yè)智能)成功的關(guān)鍵
趨勢八:數(shù)據(jù)生態(tài)系統(tǒng)復合化程度加強
Hadoop是什么嬉挡?
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)钝鸽。用戶可以在不了解分布式底層細節(jié)的情況下汇恤,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲寞埠。
Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce屁置。HDFS為海量的數(shù)據(jù)提供了存儲,而MapReduce則為海量的數(shù)據(jù)提供了計算仁连。
hdfs架構(gòu)示意圖:
MapReduce工作原理圖:
Hadoop生態(tài)圈:
大數(shù)據(jù)需要特殊的技術(shù),無法用單臺計算機進行處理蓝角,必須采用分布式架構(gòu)。hadoop只是處理大數(shù)據(jù)的一種技術(shù)饭冬。圍繞大數(shù)據(jù)還有其它的技術(shù)
最后總結(jié)下:大數(shù)據(jù)是時代發(fā)展的產(chǎn)物使鹅,為了應對大數(shù)據(jù)環(huán)境下新的業(yè)務需求,相關(guān)的分布式存儲昌抠,分布式計算患朱,大規(guī)模分布式數(shù)據(jù)庫等技術(shù),hadoop解決了通過hdfs實現(xiàn)分布式存儲炊苫,通過mapreduce實現(xiàn)分布式計算裁厅。圍著hadoop逐步發(fā)展出一個hadoop生態(tài)圈。 hadoop大數(shù)據(jù)環(huán)境下的一種處理結(jié)束侨艾。
如果您覺得我用心了执虹,覺得您有所收獲,麻煩關(guān)注下我吧唠梨,您的關(guān)注就是我的動力袋励,因為有你,我就不是一個人在前行当叭。
歡迎來找 數(shù)據(jù)僧 一起探討大數(shù)據(jù)相關(guān)的問題茬故。評論區(qū)留言,我們一起討論蚁鳖。