Hadoop的未來(lái)如何癞松,一個(gè)重要的影響因素是技術(shù)的更新和進(jìn)步爽撒。從最近幾年Hadoop和其他大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展,我們可以看出一些端倪响蓉。
數(shù)據(jù)存儲(chǔ) -- 前景樂觀
從文件存儲(chǔ)技術(shù)來(lái)看硕勿,HDFS穩(wěn)定而健壯,已然是海量文件存儲(chǔ)的實(shí)際標(biāo)準(zhǔn)枫甲。當(dāng)然也有一些分布式文件存儲(chǔ)技術(shù)值得關(guān)注源武,如GlusterFS, Tachyon等等。但對(duì)HDFS尚不構(gòu)成實(shí)質(zhì)性的威脅想幻。
相比文件存儲(chǔ)的一家獨(dú)大粱栖,結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),目前呈現(xiàn)出的是百花齊放的局面脏毯。我們之前提到過(guò)闹究,在Hadoop生態(tài)系統(tǒng)中,結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)最成熟的實(shí)現(xiàn)是HBase食店。你可以把它想象成更靈活渣淤,可擴(kuò)展性更強(qiáng)的MySQL。相比其他NoSQL數(shù)據(jù)庫(kù)如MongoDB和Cassandra的風(fēng)風(fēng)火火吉嫩,HBase相對(duì)低調(diào)价认。但個(gè)人認(rèn)為HBase適用的范圍更廣,前景依然十分樂觀自娩。對(duì)于NoSQL數(shù)據(jù)庫(kù)用踩,我就不展開討論了,有興趣的可以參考NoSQL精粹一書忙迁。
數(shù)據(jù)處理 -- 面臨挑戰(zhàn)
從數(shù)據(jù)處理來(lái)看脐彩,MapReduce已不再熱門。最本質(zhì)的原因是MapReduce的模型過(guò)于簡(jiǎn)單动漾。其后果是使得編程十分困難丁屎。一個(gè)簡(jiǎn)單的word count程序也需要編寫很多MapReduce代碼荠锭。雖然有Pig和Cascade等等更高層語(yǔ)言工具的支持旱眯,但MapReduce編程總是一件頭疼的事情。另外,簡(jiǎn)單地模型使得特定數(shù)據(jù)處理的性能優(yōu)化十分困難删豺。特別是像機(jī)器學(xué)習(xí)這樣需要反復(fù)多遍處理數(shù)據(jù)的應(yīng)用共虑,文件讀寫成為瓶頸。目前呀页,Spark以其簡(jiǎn)單高效的特性妈拌,大有取代MapReduce,成為通用數(shù)據(jù)處理引擎之勢(shì)蓬蝶。當(dāng)然尘分,Hadoop自己也推出了一些新的數(shù)據(jù)處理引擎,如MRv2(YARN)丸氛、Tez培愁,但未來(lái)恐怕還是Spark的。
資源調(diào)配 -- 充滿機(jī)遇
老的MapReduce 的另一個(gè)問題是它的資源配給機(jī)制存在性能缺陷缓窜。為從根本上解決舊 MapReduce 框架的性能瓶頸定续,從 0.23.0 版本開始,Hadoop 的 MapReduce 框架完全重構(gòu)禾锤。新的 Hadoop MapReduce 框架命名為 MapReduceV2 或者叫 YARN私股。
雖然YARN是為了MapReduce而生的,但是它實(shí)際上也是一個(gè)獨(dú)立的資源管理框架恩掷,所以理論上YARN上可以運(yùn)行任何分布式應(yīng)用倡鲸,YARN只是配給CPU,內(nèi)存等資源黄娘。實(shí)際上旦签,Spark,Storm等非Hadoop系的應(yīng)用都支持在YARN的框架中運(yùn)行寸宏。這使得YARN成為Hadoop“招安”其他大數(shù)據(jù)應(yīng)用成為可能宁炫。當(dāng)然,YARN也不是穩(wěn)坐泰山氮凝,Mesos是一個(gè)不可忽視的競(jìng)爭(zhēng)者羔巢,Mesosphere很快就要發(fā)布他們的數(shù)據(jù)中心操作系統(tǒng),看看它的Demo就知道未來(lái)資源調(diào)配是這么回事了罩阵。
從Hadoop對(duì)文件存儲(chǔ)和資源調(diào)配支持的發(fā)展趨勢(shì)竿秆,我們可以想象,未來(lái)Hadoop應(yīng)該像今天操作系統(tǒng)一樣稿壁,成為更底層的基礎(chǔ)設(shè)施幽钢。
結(jié)語(yǔ)
Hadoop作為大數(shù)據(jù)的平臺(tái)和生態(tài)系統(tǒng),已經(jīng)過(guò)了瘋漲期傅是,步入穩(wěn)步理性增長(zhǎng)的階段匪燕。未來(lái)蕾羊,和其他技術(shù)一樣,面臨著自身新陳代謝和周遭新技術(shù)的挑戰(zhàn)帽驯。開源社區(qū)能夠繁榮的不二法門是有更好的程序龟再,更多人使用,更多人貢獻(xiàn)尼变,如此良性循環(huán)利凑。希望Hadoop的持續(xù)繁榮,可以使各個(gè)領(lǐng)域的中小企業(yè)也能夠輕松愉快地處理海量的數(shù)據(jù)嫌术。