Hadoop 要被淘汰了嗎

我經(jīng)常會從客戶或者網(wǎng)上聽到這個問題烦周，尤其是最近幾年口四。那么關(guān)于spark哪些被我們神化了，哪些又是真實的卿叽，以及它在“大數(shù)據(jù)”的生態(tài)系統(tǒng)中又是怎樣的？

這里寫圖片描述

說實話恳守，其實我把這個問題作為標題是有問題的考婴，但是我們經(jīng)常會這樣問。Hadoop并不是一個單獨的產(chǎn)品而是一個生態(tài)系統(tǒng)催烘，而spark也是一樣的沥阱。下面讓我們來一個一個解釋。目前Hadoop生態(tài)系統(tǒng)主要包括：
HDFS—Hadoop分布式文件系統(tǒng)伊群。它是一個分布式的考杉、面向塊的、不可更新的舰始、高度伸縮性的崇棠、可運行在集群中普通硬盤上的文件系統(tǒng)。此外丸卷，HDFS還是一個獨立的工具枕稀，它可以獨立于Hadoop生態(tài)系統(tǒng)中其他組件而運行(但是如果我們想要使HDFS高可用時，還需要依賴zookeeper和日志管理器，但這又是另外一碼事了)抽莱。
MapReduce框架—這是一個基本的在集群中一組標準硬件上執(zhí)行的分布式計算框架范抓。我們沒必要一定在HDFS張使用它—因為文件系統(tǒng)是可插拔的；同樣的食铐，我們也沒必要一定在yarn中使用它，因為資源管理器是可插拔的：例如我們可以用Mesos來替換它僧鲁。
YARN—Hadoop集群中默認的資源管理器虐呻。但是我們可以在集群中不使用yarn，而是將我們的mr(譯注:map/reduce)任務運行在Mesos之上寞秃；或者僅僅在集群中運行不需要依賴yarn的hbase斟叼。
Hive—Hive是一個構(gòu)建在MapReduce框架之上的類sql查詢引擎，它可以將hiveQL語句轉(zhuǎn)換為一系列運行在集群中的mapReduce任務春寿。此外朗涩，hdfs也不是唯一的存儲系統(tǒng)，也不一定非得使用MapReduce框架绑改，比如在這里我么可以替換為Tez谢床。
Hbase—基于HDFS的鍵值對存儲系統(tǒng)，為Hadoop提供了聯(lián)機事務處理(OLTP)能力厘线。Hbase僅僅依賴HDFS和zookeeper;但是Hbase只能依賴于HDFS嗎识腿？不是的，Hbase除了可以運行在HDFS上之外造壮，還可以運行在Tachyon(內(nèi)存文件系統(tǒng))渡讼、MapRFS、IBM GPFS以及其他一些框架之上耳璧。

這里寫圖片描述

就這么多了成箫。此外你可能還會想到storm可以處理數(shù)據(jù)流，但是它完全獨立于hadoop旨枯，可以獨立運行蹬昌；你可能還會想到運行于MapReduce之上的機器學習框架Mahout,但它在之前被社區(qū)關(guān)注的越來越少。下圖為Mahout被反饋的問題(紅色)和被解決的問題(綠色)趨勢圖：

這里寫圖片描述

下面我們來說說spark召廷，它主要包含以下幾個方面：
Spark Core – 用于通用分布式數(shù)據(jù)處理的引擎凳厢。它不不依賴于任何其他組件，可以運行在任何商用服務器集群上竞慢。
Spark Sql – 運行在Spark上的SQL查詢語句先紫，支持一系列SQL函數(shù)和HiveQL。但是還不是很成熟筹煮，所以不要在生產(chǎn)系統(tǒng)中使用遮精；而HiveQL集成了需要的hive元數(shù)據(jù)和Hive相關(guān)的jar包。
Spark Streaming – 基于spark的微批處理引擎，支持各種各樣數(shù)據(jù)源的導入本冲。唯一依賴的是Spark Core引擎准脂。
MLib – 構(gòu)建在spark之上的機器學習庫，支持一系列數(shù)據(jù)挖掘算法檬洞。

這里寫圖片描述

此外我們這里還要講到的是一個關(guān)于spark的重要誤區(qū)—“spark是基于內(nèi)存的技術(shù)”狸膏。它不是基于內(nèi)存的技術(shù)；spark是一個管道式的執(zhí)行引擎添怔，而且在shuffle的過程中會將數(shù)據(jù)寫入磁盤(比如說湾戳，如果我們想針對某個字段做聚合操作)、如果內(nèi)存不夠的話也一樣會內(nèi)存溢出(但是內(nèi)存可以調(diào)整)广料。因此砾脑，spark之所以比MapReduce快主要是因為它是管道式處理方式而不是有些人說的“基于內(nèi)存的優(yōu)化”。當然艾杏，spark在內(nèi)存中做了緩存來提高性能韧衣，但這不是spark真正工作快的原因。現(xiàn)在购桑，我們再來完整比對一下：
MapReduce可以被Spark Core替換畅铭？是的，它會隨著時間的推移被替代其兴，而且這種替代是合理的顶瞒。但是spark目前還不是特別成熟能完全替代MapReduce。此外元旬，也沒有人會完全放棄MapReduce,除非所有依賴MapReduce的工具都有可替代方案榴徐。比如說，想要在pig上運行的腳本能在spark上執(zhí)行還是有些工作要做的匀归。
Hive可以被Spark SQL替換坑资？是的，這又是對的穆端。但是我們需要理解的是Spark SQL對于spark本身來說還是比較年輕的袱贮，大概要年輕1.5倍。相對于比較成熟的Hive來說它只能算是玩具了吧体啰，我將在一年半到兩年之內(nèi)再回頭來看Spark SQL.攒巍。如果我們還記得的話，兩到三年前Impala就號稱要終結(jié)Hive,但是截止到目前兩種技術(shù)也還是共存狀態(tài)荒勇，Impala并沒有終結(jié)Hive柒莉。在這里對于Spark SQL來說也是一樣的。
Storm可以被Spark Streaming替換沽翔？ 是的兢孝，可以替換窿凤。只不過平心而論storm并不是Hadoop生態(tài)系統(tǒng)中的一員，因為它是完全獨立的工具跨蟹。他們的計算模型并不太形同雳殊，所以我不認為storm會消失，反而仍會作為一個商業(yè)產(chǎn)品窗轩。
Mahout可以被MLib替換夯秃？公平的講，Machout已經(jīng)失去了市場痢艺，而且從過去的幾年來看它正在快速失去市場寝并。對于這個工具，我們可以說這里是Spark真正可以替換Hadoop生態(tài)系統(tǒng)中的地方腹备。因此，總的來說斤蔓，這篇文章的結(jié)論是：
不要被大數(shù)據(jù)供應商的包裝所愚弄植酥。他們大量推進的是市場而不是最終的真理。Hadoop最開始是被設(shè)計為可擴展的框架弦牡，而且其中很多部分是可替換的：可以將HDFS替換為Tachyon友驮，可以將YARN替換為Mesos，可以將MapReduce替換為Tez并且在Tez之上可以運行Hive驾锰。這將會是Hadoop技術(shù)棧的可選方案或者完全替代方案卸留？倘若我們放棄的MR（MapReduce）而使用Tez,那么它還會是Hadoop嗎？
Spark不能為我們提供完整的技術(shù)棧椭豫。它允許我們將它的功能集成到我們的Hadoop集群中并且從中獲益耻瑟，而不用完全脫離我們老的集群方案。
Spark還不夠成熟赏酥。我認為在過三到四年我們就不會再叫“Hadoop椩”而是叫它“大數(shù)據(jù)棧”或者類似的稱呼裸扶。因為在大數(shù)據(jù)棧中我們有很廣泛的選擇可以選出不同的開源產(chǎn)品來組合在一起形成一個單獨的技術(shù)棧使用框都。
轉(zhuǎn)自：http://blog.csdn.net/archleaner/article/details/50988258

最后編輯于：2017.12.04 03:04:56

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市呵晨，隨后出現(xiàn)的幾起案子魏保，更是在濱河造成了極大的恐慌，老刑警劉巖摸屠，帶你破解...
沈念sama閱讀 222,104評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件谓罗，死亡現(xiàn)場離奇詭異，居然都是意外死亡餐塘，警方通過查閱死者的電腦和手機妥衣，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,816評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人税手，你說我怎么就攤上這事蜂筹。” “怎么了芦倒？”我有些...
開封第一講書人閱讀 168,697評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵艺挪，是天一觀的道長。經(jīng)常有香客問我兵扬，道長麻裳，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,836評論 1贊 298
?港島之戀（遺憾婚禮）
正文為了忘掉前任器钟，我火速辦了婚禮津坑，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘傲霸。我一直安慰自己疆瑰，他們只是感情好，可當我...
茶點故事閱讀 68,851評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布昙啄。她就那樣靜靜地躺著穆役，像睡著了一般。火紅的嫁衣襯著肌膚如雪梳凛。梳的紋絲不亂的頭發(fā)上耿币，一...
開封第一講書人閱讀 52,441評論 1贊 310
城市分裂傳說
那天，我揣著相機與錄音韧拒，去河邊找鬼淹接。笑死，一個胖子當著我的面吹牛叭莫，可吹牛的內(nèi)容都是我干的蹈集。我是一名探鬼主播，決...
沈念sama閱讀 40,992評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼雇初，長吁一口氣：“原來是場噩夢啊……” “哼拢肆！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起靖诗，我...
開封第一講書人閱讀 39,899評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤郭怪，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后刊橘，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鄙才，經(jīng)...
沈念sama閱讀 46,457評論 1贊 318
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,529評論 3贊 341
?白月光啟示錄
正文我和宋清朗相戀三年促绵，在試婚紗的時候發(fā)現(xiàn)自己被綠了攒庵。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嘴纺。...
茶點故事閱讀 40,664評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖浓冒，靈堂內(nèi)的尸體忽然破棺而出栽渴，到底是詐尸還是另有隱情，我是刑警寧澤稳懒，帶...
沈念sama閱讀 36,346評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布闲擦，位于F島的核電站，受9級特大地震影響场梆，放射性物質(zhì)發(fā)生泄漏墅冷。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 42,025評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一或油、第九天我趴在偏房一處隱蔽的房頂上張望寞忿。院中可真熱鬧，春花似錦顶岸、人聲如沸罐脊。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,511評論 0贊 24
一樁弒父案蜕琴，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至宵溅，卻和暖如春凌简，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背恃逻。一陣腳步聲響...
開封第一講書人閱讀 33,611評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工雏搂，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人寇损。一個月前我還...
沈念sama閱讀 49,081評論 3贊 377
代替公主和親
正文我出身青樓凸郑，卻偏偏與公主長得像，于是被迫代替她去往敵國和親矛市。傳聞我的和親對象是個殘疾皇子芙沥，可洞房花燭夜當晚...
茶點故事閱讀 45,675評論 2贊 359

Hadoop 要被淘汰了嗎

推薦閱讀更多精彩內(nèi)容