Hadoop 要被淘汰了嗎

我經(jīng)常會從客戶或者網(wǎng)上聽到這個問題烦周,尤其是最近幾年口四。那么關(guān)于spark哪些被我們神化了,哪些又是真實的卿叽,以及它在“大數(shù)據(jù)”的生態(tài)系統(tǒng)中又是怎樣的?

這里寫圖片描述
說實話恳守,其實我把這個問題作為標題是有問題的考婴,但是我們經(jīng)常會這樣問。Hadoop并不是一個單獨的產(chǎn)品而是一個生態(tài)系統(tǒng)催烘,而spark也是一樣的沥阱。下面讓我們來一個一個解釋。目前Hadoop生態(tài)系統(tǒng)主要包括:
HDFS—Hadoop分布式文件系統(tǒng)伊群。它是一個分布式的考杉、面向塊的、不可更新的舰始、高度伸縮性的崇棠、可運行在集群中普通硬盤上的文件系統(tǒng)。此外丸卷,HDFS還是一個獨立的工具枕稀,它可以獨立于Hadoop生態(tài)系統(tǒng)中其他組件而運行(但是如果我們想要使HDFS高可用時,還需要依賴zookeeper和日志管理器,但這又是另外一碼事了)抽莱。
MapReduce框架—這是一個基本的在集群中一組標準硬件上執(zhí)行的分布式計算框架范抓。我們沒必要一定在HDFS張使用它—因為文件系統(tǒng)是可插拔的;同樣的食铐,我們也沒必要一定在yarn中使用它,因為資源管理器是可插拔的:例如我們可以用Mesos來替換它僧鲁。
YARN—Hadoop集群中默認的資源管理器虐呻。但是我們可以在集群中不使用yarn,而是將我們的mr(譯注:map/reduce)任務運行在Mesos之上寞秃;或者僅僅在集群中運行不需要依賴yarn的hbase斟叼。
Hive—Hive是一個構(gòu)建在MapReduce框架之上的類sql查詢引擎,它可以將hiveQL語句轉(zhuǎn)換為一系列運行在集群中的mapReduce任務春寿。此外朗涩,hdfs也不是唯一的存儲系統(tǒng),也不一定非得使用MapReduce框架绑改,比如在這里我么可以替換為Tez谢床。
Hbase—基于HDFS的鍵值對存儲系統(tǒng),為Hadoop提供了聯(lián)機事務處理(OLTP)能力厘线。Hbase僅僅依賴HDFS和zookeeper;但是Hbase只能依賴于HDFS嗎识腿?不是的,Hbase除了可以運行在HDFS上之外造壮,還可以運行在Tachyon(內(nèi)存文件系統(tǒng))渡讼、MapRFS、IBM GPFS以及其他一些框架之上耳璧。
這里寫圖片描述
就這么多了成箫。此外你可能還會想到storm可以處理數(shù)據(jù)流,但是它完全獨立于hadoop旨枯,可以獨立運行蹬昌;你可能還會想到運行于MapReduce之上的機器學習框架Mahout,但它在之前被社區(qū)關(guān)注的越來越少。下圖為Mahout被反饋的問題(紅色)和被解決的問題(綠色)趨勢圖:
這里寫圖片描述
下面我們來說說spark召廷,它主要包含以下幾個方面:
Spark Core – 用于通用分布式數(shù)據(jù)處理的引擎凳厢。它不不依賴于任何其他組件,可以運行在任何商用服務器集群上竞慢。
Spark Sql – 運行在Spark上的SQL查詢語句先紫,支持一系列SQL函數(shù)和HiveQL。但是還不是很成熟筹煮,所以不要在生產(chǎn)系統(tǒng)中使用遮精;而HiveQL集成了需要的hive元數(shù)據(jù)和Hive相關(guān)的jar包。
Spark Streaming – 基于spark的微批處理引擎,支持各種各樣數(shù)據(jù)源的導入本冲。唯一依賴的是Spark Core引擎准脂。
MLib – 構(gòu)建在spark之上的機器學習庫,支持一系列數(shù)據(jù)挖掘算法檬洞。
這里寫圖片描述
此外我們這里還要講到的是一個關(guān)于spark的重要誤區(qū)—“spark是基于內(nèi)存的技術(shù)”狸膏。它不是基于內(nèi)存的技術(shù);spark是一個管道式的執(zhí)行引擎添怔,而且在shuffle的過程中會將數(shù)據(jù)寫入磁盤(比如說湾戳,如果我們想針對某個字段做聚合操作)、如果內(nèi)存不夠的話也一樣會內(nèi)存溢出(但是內(nèi)存可以調(diào)整)广料。因此砾脑,spark之所以比MapReduce快主要是因為它是管道式處理方式而不是有些人說的“基于內(nèi)存的優(yōu)化”。當然艾杏,spark在內(nèi)存中做了緩存來提高性能韧衣,但這不是spark真正工作快的原因。 現(xiàn)在购桑,我們再來完整比對一下:
MapReduce可以被Spark Core替換畅铭?是的,它會隨著時間的推移被替代其兴,而且這種替代是合理的顶瞒。但是spark目前還不是特別成熟能完全替代MapReduce。此外元旬,也沒有人會完全放棄MapReduce,除非所有依賴MapReduce的工具都有可替代方案榴徐。比如說,想要在pig上運行的腳本能在spark上執(zhí)行還是有些工作要做的匀归。
Hive可以被Spark SQL替換坑资?是的,這又是對的穆端。但是我們需要理解的是Spark SQL對于spark本身來說還是比較年輕的袱贮,大概要年輕1.5倍。相對于比較成熟的Hive來說它只能算是玩具了吧体啰,我將在一年半到兩年之內(nèi)再回頭來看Spark SQL.攒巍。如果我們還記得的話,兩到三年前Impala就號稱要終結(jié)Hive,但是截止到目前兩種技術(shù)也還是共存狀態(tài)荒勇,Impala并沒有終結(jié)Hive柒莉。在這里對于Spark SQL來說也是一樣的。
Storm可以被Spark Streaming替換沽翔? 是的兢孝,可以替換窿凤。只不過平心而論storm并不是Hadoop生態(tài)系統(tǒng)中的一員,因為它是完全獨立的工具跨蟹。他們的計算模型并不太形同雳殊,所以我不認為storm會消失,反而仍會作為一個商業(yè)產(chǎn)品窗轩。
Mahout可以被MLib替換夯秃?公平的講,Machout已經(jīng)失去了市場痢艺,而且從過去的幾年來看它正在快速失去市場寝并。對于這個工具,我們可以說這里是Spark真正可以替換Hadoop生態(tài)系統(tǒng)中的地方腹备。 因此,總的來說斤蔓,這篇文章的結(jié)論是:
不要被大數(shù)據(jù)供應商的包裝所愚弄植酥。他們大量推進的是市場而不是最終的真理。Hadoop最開始是被設(shè)計為可擴展的框架弦牡,而且其中很多部分是可替換的:可以將HDFS替換為Tachyon友驮,可以將YARN替換為Mesos,可以將MapReduce替換為Tez并且在Tez之上可以運行Hive驾锰。這將會是Hadoop技術(shù)棧的可選方案或者完全替代方案卸留?倘若我們放棄的MR(MapReduce)而使用Tez,那么它還會是Hadoop嗎?
Spark不能為我們提供完整的技術(shù)棧椭豫。它允許我們將它的功能集成到我們的Hadoop集群中并且從中獲益耻瑟,而不用完全脫離我們老的集群方案。
Spark還不夠成熟赏酥。我認為在過三到四年我們就不會再叫“Hadoop椩”而是叫它“大數(shù)據(jù)棧”或者類似的稱呼裸扶。因為在大數(shù)據(jù)棧中我們有很廣泛的選擇可以選出不同的開源產(chǎn)品來組合在一起形成一個單獨的技術(shù)棧使用框都。
轉(zhuǎn)自:http://blog.csdn.net/archleaner/article/details/50988258

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市呵晨,隨后出現(xiàn)的幾起案子魏保,更是在濱河造成了極大的恐慌,老刑警劉巖摸屠,帶你破解...
    沈念sama閱讀 222,104評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谓罗,死亡現(xiàn)場離奇詭異,居然都是意外死亡餐塘,警方通過查閱死者的電腦和手機妥衣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人税手,你說我怎么就攤上這事蜂筹。” “怎么了芦倒?”我有些...
    開封第一講書人閱讀 168,697評論 0 360
  • 文/不壞的土叔 我叫張陵艺挪,是天一觀的道長。 經(jīng)常有香客問我兵扬,道長麻裳,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,836評論 1 298
  • 正文 為了忘掉前任器钟,我火速辦了婚禮津坑,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘傲霸。我一直安慰自己疆瑰,他們只是感情好,可當我...
    茶點故事閱讀 68,851評論 6 397
  • 文/花漫 我一把揭開白布昙啄。 她就那樣靜靜地躺著穆役,像睡著了一般。 火紅的嫁衣襯著肌膚如雪梳凛。 梳的紋絲不亂的頭發(fā)上耿币,一...
    開封第一講書人閱讀 52,441評論 1 310
  • 那天,我揣著相機與錄音韧拒,去河邊找鬼淹接。 笑死,一個胖子當著我的面吹牛叭莫,可吹牛的內(nèi)容都是我干的蹈集。 我是一名探鬼主播,決...
    沈念sama閱讀 40,992評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼雇初,長吁一口氣:“原來是場噩夢啊……” “哼拢肆!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起靖诗,我...
    開封第一講書人閱讀 39,899評論 0 276
  • 序言:老撾萬榮一對情侶失蹤郭怪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后刊橘,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鄙才,經(jīng)...
    沈念sama閱讀 46,457評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,529評論 3 341
  • 正文 我和宋清朗相戀三年促绵,在試婚紗的時候發(fā)現(xiàn)自己被綠了攒庵。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嘴纺。...
    茶點故事閱讀 40,664評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖浓冒,靈堂內(nèi)的尸體忽然破棺而出栽渴,到底是詐尸還是另有隱情,我是刑警寧澤稳懒,帶...
    沈念sama閱讀 36,346評論 5 350
  • 正文 年R本政府宣布闲擦,位于F島的核電站,受9級特大地震影響场梆,放射性物質(zhì)發(fā)生泄漏墅冷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,025評論 3 334
  • 文/蒙蒙 一或油、第九天 我趴在偏房一處隱蔽的房頂上張望寞忿。 院中可真熱鬧,春花似錦顶岸、人聲如沸罐脊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至宵溅,卻和暖如春凌简,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背恃逻。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評論 1 272
  • 我被黑心中介騙來泰國打工雏搂, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人寇损。 一個月前我還...
    沈念sama閱讀 49,081評論 3 377
  • 正文 我出身青樓凸郑,卻偏偏與公主長得像,于是被迫代替她去往敵國和親矛市。 傳聞我的和親對象是個殘疾皇子芙沥,可洞房花燭夜當晚...
    茶點故事閱讀 45,675評論 2 359

推薦閱讀更多精彩內(nèi)容