最近從一個(gè)骨灰級(jí)大神同事那里了解到kudu系統(tǒng),火車上剛好適合學(xué)習(xí),就了解了一下硼补。發(fā)覺這個(gè)系統(tǒng)的理念還是很先進(jìn)的,和我們項(xiàng)目組目前的開發(fā)愿景很相似熏矿。大概總結(jié)一下已骇,后續(xù)再持續(xù)關(guān)注細(xì)節(jié)。
系統(tǒng)背景
當(dāng)前基于hadoop的大數(shù)據(jù)系統(tǒng)大多數(shù)是混合架構(gòu)票编,通過hbase做實(shí)時(shí)更新褪储,數(shù)據(jù)后臺(tái)定期轉(zhuǎn)儲(chǔ)到hdfs以支持快速分析生成報(bào)表』塾颍混合架構(gòu)如下圖所示:
雖然當(dāng)前的架構(gòu)可以滿足用戶需求鲤竹,但是過于繁瑣,存儲(chǔ)和維護(hù)的成本還是很大昔榴。kudu的愿景就是通過打造一個(gè)高效支持scan和random access辛藻,同時(shí)結(jié)合當(dāng)前內(nèi)存、cpu互订、存儲(chǔ)介質(zhì)的高性能以提供一個(gè)優(yōu)雅高速的存儲(chǔ)方案來避免hadoop的混合部署問題吱肌。
技術(shù)目標(biāo)
對(duì)數(shù)據(jù)掃描(scan)和隨機(jī)訪問(random access)同時(shí)具有高性能,簡化用戶復(fù)雜的混合架構(gòu)屁奏;
高CPU效率岩榆,最大化先進(jìn)處理器的效能;
高IO性能,充分利用先進(jìn)永久存儲(chǔ)介質(zhì)勇边;
支持?jǐn)?shù)據(jù)的原地更新犹撒,避免額外的數(shù)據(jù)處理、數(shù)據(jù)移動(dòng)
理想很美好粒褒。至于怎么實(shí)現(xiàn)筆者暫時(shí)還沒有深入分析识颊。后續(xù)會(huì)補(bǔ)上具體細(xì)節(jié)學(xué)習(xí)。更多Kudu架構(gòu)細(xì)節(jié)奕坟,請(qǐng)查閱http://getkudu.io/kudu.pdf
Kudu提供了C++祥款、Java API支持點(diǎn)操作與批操作。Kudu的另一個(gè)目標(biāo)是與現(xiàn)有的Hadoop生態(tài)系統(tǒng)工具進(jìn)行集成月杉。目前刃跛,Kudu的Beta版本已經(jīng)與Impala、MapReduce以及Apache Spark實(shí)現(xiàn)了整合苛萎,并計(jì)劃將Kudu集成到整個(gè)Hadoop生態(tài)系統(tǒng)中桨昙。
理念很好,后續(xù)持續(xù)關(guān)注腌歉。