上次說(shuō)到了Hadoop是目前最流行的大數(shù)據(jù)工具智袭,其核心是HDFS來(lái)存儲(chǔ)數(shù)據(jù)和MapReduce來(lái)處理數(shù)據(jù),但它又不僅僅如此呀伙。后來(lái)补履,圍繞著Hadoop相繼出現(xiàn)了一系列的應(yīng)用。比如存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)的HBase剿另,用于和傳統(tǒng)數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)遷移的Spooq箫锤,SQL接口Hive,用于工作調(diào)度的Ozzie雨女,以腳本取代代碼完成MapReduce的Pig谚攒,機(jī)器學(xué)習(xí)工具集Mahout等等。羽翼漸豐的Hadoop已經(jīng)一步步從“工具”發(fā)展成為“平臺(tái)”和“生態(tài)系統(tǒng)”氛堕×蟪簦可是,一條技術(shù)鴻溝卻橫在了眾多企業(yè)面前。一方面括儒,無(wú)論是金融還是電信绕沈,各個(gè)領(lǐng)域的大公司都有海量數(shù)據(jù)處理的需求。而另一方面帮寻,他們的IT部門(mén)大都不具備部署乍狐、維護(hù)大規(guī)模Hadoop集群,和開(kāi)發(fā)Hadoop應(yīng)用的能力固逗。而他們以前倚重的IBM浅蚪,Oracle也沒(méi)有這樣的能力。
正是看到了這一點(diǎn)烫罩,以Hadoop為核心的一些咨詢公司相繼成立惜傲。經(jīng)過(guò)市場(chǎng)洗禮,目前呈現(xiàn)出Cloudera贝攒,Hortonworks和MapR三足鼎立之勢(shì)盗誊。三家的產(chǎn)品我都使用過(guò),以后兩家為主饿这。下面就分別談?wù)劯骷业膬?yōu)勢(shì)和劣勢(shì)浊伙。
Cloudera成立于2008年,是三家中成立最早的长捧,目前為止客戶資源最多,技術(shù)儲(chǔ)備時(shí)間最長(zhǎng)吻贿,規(guī)拇幔總量最大。背后有Intel做堅(jiān)強(qiáng)后盾舅列。其產(chǎn)品線以企業(yè)級(jí)的平臺(tái)管理和監(jiān)控著稱肌割,其Hadoop用戶界面Hue也十分友好。當(dāng)然帐要,Cloudera的許可證價(jià)格不菲把敞,都是按年按機(jī)器收錢(qián),這一點(diǎn)和Oracle沒(méi)什么區(qū)別榨惠,可能和CEO的Oracle前高管的背景有關(guān)奋早。
Hortonworks成立比較晚,是從Yahoo中剝離出去的赠橙,也算是嫡系正統(tǒng)耽装。和其他兩家最大的不同是,Hortonworks堅(jiān)持百分百開(kāi)源的理念期揪,完全只靠咨詢服務(wù)賺錢(qián)掉奄。我是開(kāi)源的擁護(hù)者,也十分看好它未來(lái)的發(fā)展凤薛。個(gè)人認(rèn)為Hortonworks的拳頭產(chǎn)品是Hadoop自動(dòng)部署工具Ambrari和資源管理器YARN姓建。其中YARN的意義甚至超過(guò)了Hadoop本身诞仓,這一點(diǎn)會(huì)在以后的文章中討論。另外速兔,Hortonworks在12月份剛剛IPO墅拭,希望充裕的資金有助于加速它對(duì)開(kāi)源項(xiàng)目的貢獻(xiàn)。
MapR和原生的Hadoop相距最遠(yuǎn)憨栽。它完全重寫(xiě)了文件系統(tǒng)和HBase實(shí)現(xiàn)帜矾,從而大幅提高了系統(tǒng)性能。它的讀寫(xiě)性能都數(shù)倍于原生Hadoop屑柔。重新實(shí)現(xiàn)同時(shí)也簡(jiǎn)化了Hadoop的安全框架屡萤。但問(wèn)題是和原生的HDFS和HBase不可能完全兼容,使得它在產(chǎn)品配套更新方面總是慢半拍掸宛。應(yīng)用開(kāi)發(fā)者也往往要付出額外的精力去考慮兼容Hadoop死陆。當(dāng)然,權(quán)衡投入產(chǎn)出比唧瘾,這樣的付出也許是值得的措译。最近MapR剛剛宣布其MapR Database可以免費(fèi)使用,大概也是看到了自己的優(yōu)秀產(chǎn)品在接受度上的尷尬饰序。此外领虹,MapR和Google走得很近,也等到了Google風(fēng)投的資助求豫,其產(chǎn)品通過(guò)腳本程序可以很方便地部署到Google計(jì)算引擎塌衰。很榮幸MapR接受了我對(duì)其腳本的小小補(bǔ)充。
大數(shù)據(jù)市場(chǎng)是一塊大蛋糕蝠嘉,三家公司應(yīng)該會(huì)愉快地玩耍一段時(shí)間(除非被其他巨頭吃掉)最疆。至于長(zhǎng)遠(yuǎn)來(lái)看,誰(shuí)會(huì)是最大贏家蚤告,以及Hadoop還能火多久努酸,取決于市場(chǎng),資金和技術(shù)等諸多因素的影響杜恰。技術(shù)層面來(lái)看获诈,我們也許可以從近兩年的發(fā)展略窺端倪,請(qǐng)看下篇“Hadoop之技術(shù)未來(lái)”箫章。