大數(shù)據(jù)即服務(wù)(BDaaS):大數(shù)據(jù)行業(yè)的下一個(gè)熱門丨數(shù)據(jù)工匠簡(jiǎn)報(bào)(6.20) - 簡(jiǎn)書 http://www.reibang.com/p/3a37d30005ff
百度地圖的工程師都是如何利用Apache Kylin處理數(shù)據(jù)的
百度地圖開放平臺(tái)業(yè)務(wù)部數(shù)據(jù)智能組主要負(fù)責(zé)百度地圖內(nèi)部相關(guān)業(yè)務(wù)的大數(shù)據(jù)計(jì)算分析,處理日常百億級(jí)規(guī)模數(shù)據(jù)沐寺,為不同業(yè)務(wù)提供單條SQL毫秒級(jí)響應(yīng)的OLAP多維分析查詢服務(wù)林艘。對(duì)于Apache Kylin在實(shí)際生產(chǎn)環(huán)境中的應(yīng)用,在國(guó)內(nèi)混坞,百度地圖數(shù)據(jù)智能組是最早的一批實(shí)踐者之一狐援。Apache Kylin在2014年11月開源,當(dāng)時(shí)究孕,我們團(tuán)隊(duì)正需要搭建一套完整的大數(shù)據(jù)OLAP分析計(jì)算平臺(tái)啥酱,用來提供百億行級(jí)數(shù)據(jù)單條SQL毫秒到秒級(jí)的多維分析查詢服務(wù),在技術(shù)選型過程中厨诸,我們參考了Apache Drill镶殷、Presto、Impala泳猬、Spark SQL批钠、Apache Kylin等宇植。對(duì)于Apache Drill和Presto因生產(chǎn)環(huán)境案例較少,考慮到后期遇到問題難以交互討論埋心,且Apache Drill整體發(fā)展不夠成熟指郁。對(duì)于Impala和Spark SQL,主要基于內(nèi)存計(jì)算拷呆,對(duì)機(jī)器資源要求較高闲坎,單條SQL能夠滿足秒級(jí)動(dòng)態(tài)查詢響應(yīng),但交互頁面通常含有多條SQL查詢請(qǐng)求茬斧,在超大規(guī)模數(shù)據(jù)規(guī)模下腰懂,動(dòng)態(tài)計(jì)算亦難以滿足要求。后來项秉,我們關(guān)注到了基于MapReduce預(yù)計(jì)算生成Cube并提供低延遲查詢的Apache Kylin解決方案绣溜,并于2015年2月左右在生產(chǎn)環(huán)境完成了Apache Kylin的首次完整部署。Apache Kylin是一個(gè)開源的分布式分析引擎娄蔼,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規(guī)模數(shù)據(jù)怖喻,最初由eBay Inc. 開發(fā)并貢獻(xiàn)至開源社區(qū),并于2015年11月正式畢業(yè)成為Apache頂級(jí)項(xiàng)目岁诉。
文/Datartisan數(shù)據(jù)工匠(簡(jiǎn)書作者)原文鏈接:http://www.reibang.com/p/3a37d30005ff著作權(quán)歸作者所有锚沸,轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),并標(biāo)注“簡(jiǎn)書作者”涕癣。