Hadoop、Hive巩搏、Spark 之間是什么關(guān)系昨登?

先了解一下Hadoop、Hive贯底、Spark三者的基本概念:

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)丰辣,主要就是解決數(shù)據(jù)存儲和數(shù)據(jù)分析計算的問題(通過HDFS和MapReduce實現(xiàn))。

Hive是基于Hadoop的數(shù)據(jù)倉庫工具,可以存儲笙什,查詢飘哨,分析數(shù)據(jù),方便決策人員和數(shù)據(jù)分析人員統(tǒng)計分析歷史數(shù)據(jù)琐凭。

Spark是一個基于內(nèi)存計算的開源的集群計算系統(tǒng)芽隆,目的是讓數(shù)據(jù)分析更加快速。

從Hadoop到大數(shù)據(jù)生態(tài)

廣義上Hadoop指的是圍繞Hadoop打造的大數(shù)據(jù)生態(tài)圈统屈。
Hadoop對應(yīng)于Google三駕馬車:HDFS對應(yīng)于GFS摆马,即分布式文件系統(tǒng),MapReduce即并行計算框架鸿吆,HBase對應(yīng)于BigTable囤采,即分布式NoSQL列數(shù)據(jù)庫,外加Zookeeper對應(yīng)于Chubby惩淳,即分布式鎖設(shè)施蕉毯。

Hadoop發(fā)展史:

Hadoop之父: Doug Cutting

Hadoop起源于Apache Lucene子項目: Nutch,Nutch的設(shè)計目標是構(gòu)建一個大型的全網(wǎng)搜索引擎思犁。遇到瓶頸:如何解決數(shù)十億網(wǎng)頁的存儲和索引問題

Google三篇論文

《The Google file system》 :谷歌分布式文件系統(tǒng)GFS

《MapReduce: Simpliied Data Processing on Large Clusters》 :谷歌分布式計算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》 :谷歌結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng)

變化:

① 在Hadoop1.x時代代虾,Hadoop中的MapReduce同時處理業(yè)務(wù)邏輯運算和資源的調(diào)度,耦合性較大激蹲。

② 在Hadoop2.x時代棉磨,增加了Yarn。Yarn只負責(zé)資源的調(diào)度学辱,MapReduce只負責(zé)運算乘瓤。

③ Hadoop3.x在組成上沒有什么變化。

現(xiàn)狀:

HDFS作為分布式文件存儲系統(tǒng)策泣,處在生態(tài)圈的底層與核心地位衙傀;

YARN作為分布式通用的集群資源管理系統(tǒng)和任務(wù)調(diào)度平臺, 支撐各種計算引擎運行萨咕,保證了Hadoop地位统抬;

MapReduce作為大數(shù)據(jù)生態(tài)圈第一代分布式計算引擎,由于自身設(shè)計的模型所產(chǎn)生的弊端危队, 導(dǎo)致企業(yè)一線幾乎不再直接使用MapReduce進行編程處理聪建,但是很多軟件的底層依然在使用MapReduce引擎來處理數(shù)據(jù)。

大數(shù)據(jù)技術(shù)生態(tài)體系
大數(shù)據(jù)生態(tài)圈

Sqoop【數(shù)據(jù)導(dǎo)入導(dǎo)出工具】: Sqoop 是一款開源的工具茫陆,主要用于在 Hadoop金麸、 Hive 與傳統(tǒng)的數(shù)據(jù)庫(MySQL)間進行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫(例如 : MySQL盅弛, Oracle 等)中的數(shù)據(jù)導(dǎo)進到 Hadoop 的 HDFS 中钱骂,也可以將 HDFS 的數(shù)據(jù)導(dǎo)進到關(guān)系型數(shù)據(jù)庫中叔锐。

Flume【日志數(shù)據(jù)采集框架】: Flume 是一個高可用的挪鹏,高可靠的见秽,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)讨盒,F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方解取,用于收集數(shù)據(jù);

Kafka: Kafka 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)

Spark: Spark 是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計算框架返顺≠骺啵可以基于 Hadoop 上存儲的大數(shù)據(jù)進行計算。

Flink: Flink 是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計算框架遂鹊。 用于實時計算的場景較多振乏。

Oozie【工作流調(diào)度框架】: Oozie 是一個管理 Hadoop 作業(yè)(job)的工作流程調(diào)度管理系統(tǒng)。

Hbase【基于HADOOP的分布式海量數(shù)據(jù)庫】: HBase 是一個分布式的秉扑、面向列的開源數(shù)據(jù)庫慧邮。 HBase 不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫舟陆。

Hive【基于大數(shù)據(jù)技術(shù)(文件系統(tǒng)+運算框架)的SQL數(shù)據(jù)倉庫工具】: Hive 是基于 Hadoop 的一個數(shù)據(jù)倉庫工具误澳,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的 SQL 查詢功能秦躯,可以將 SQL 語句轉(zhuǎn)換為 MapReduce 任務(wù)進行運行忆谓。其優(yōu)點是學(xué)習(xí)成本低,可以通過類 SQL 語句快速實現(xiàn)簡單的 MapReduce 統(tǒng)計踱承,不必開發(fā)專門的 MapReduce 應(yīng)用倡缠,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

ZooKeeper【分布式協(xié)調(diào)服務(wù)基礎(chǔ)組件】:它是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng)茎活,提供的功能包括:配置維護毡琉、名字服務(wù)、分布式同步妙色、組服務(wù)等桅滋。

附錄:

HDFS:分布式文件系統(tǒng)
MAPREDUCE:分布式運算程序開發(fā)框架
HIVE:基于大數(shù)據(jù)技術(shù)(文件系統(tǒng)+運算框架)的SQL數(shù)據(jù)倉庫工具
HBASE:基于HADOOP的分布式海量數(shù)據(jù)庫
ZOOKEEPER:分布式協(xié)調(diào)服務(wù)基礎(chǔ)組件
Mahout:基于mapreduce/spark/flink等分布式運算框架的機器學(xué)習(xí)算法庫
Oozie:工作流調(diào)度框架
Sqoop:數(shù)據(jù)導(dǎo)入導(dǎo)出工具
Flume:日志數(shù)據(jù)采集框架

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市身辨,隨后出現(xiàn)的幾起案子丐谋,更是在濱河造成了極大的恐慌,老刑警劉巖煌珊,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件号俐,死亡現(xiàn)場離奇詭異,居然都是意外死亡定庵,警方通過查閱死者的電腦和手機吏饿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進店門踪危,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人猪落,你說我怎么就攤上這事贞远。” “怎么了笨忌?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵蓝仲,是天一觀的道長。 經(jīng)常有香客問我官疲,道長袱结,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任途凫,我火速辦了婚禮垢夹,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘维费。我一直安慰自己果元,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布掩完。 她就那樣靜靜地躺著噪漾,像睡著了一般。 火紅的嫁衣襯著肌膚如雪且蓬。 梳的紋絲不亂的頭發(fā)上欣硼,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天,我揣著相機與錄音恶阴,去河邊找鬼诈胜。 笑死,一個胖子當(dāng)著我的面吹牛冯事,可吹牛的內(nèi)容都是我干的焦匈。 我是一名探鬼主播,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼昵仅,長吁一口氣:“原來是場噩夢啊……” “哼缓熟!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起摔笤,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤够滑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后吕世,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體彰触,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年命辖,在試婚紗的時候發(fā)現(xiàn)自己被綠了况毅。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片分蓖。...
    茶點故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖尔许,靈堂內(nèi)的尸體忽然破棺而出么鹤,到底是詐尸還是另有隱情,我是刑警寧澤母债,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布午磁,位于F島的核電站尝抖,受9級特大地震影響毡们,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜昧辽,卻給世界環(huán)境...
    茶點故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一衙熔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧搅荞,春花似錦红氯、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至茉贡,卻和暖如春塞栅,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背腔丧。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工放椰, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人愉粤。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓砾医,卻偏偏與公主長得像,于是被迫代替她去往敵國和親衣厘。 傳聞我的和親對象是個殘疾皇子如蚜,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容