全球各種大數(shù)據(jù)技術涌現(xiàn)的今天向挖,為了充分利用大量數(shù)據(jù)獲得競爭優(yōu)勢,企業(yè)需要高性能的數(shù)據(jù)分析平臺炕舵,可靠并及時地提供對海量數(shù)據(jù)的分析見解何之。對于數(shù)據(jù)驅動型企業(yè),在海量數(shù)據(jù)上交互式分析的能力是非常重要的能力之一咽筋。本測試側重在多維分析場景溶推,對比Spark SQL 與 Kyligence 產(chǎn)品在大規(guī)模數(shù)據(jù)集上的查詢響應的性能差異和特點。
測試產(chǎn)品介紹
Spark SQL 本質(zhì)上是基于 DAG 的 MPP奸攻,提供 SQL 或類 SQL 的查詢接口蒜危,通過將 SQL 查詢請求轉換成邏輯計劃、物理執(zhí)行睹耐,然后進行分布式的執(zhí)行辐赞。在查詢執(zhí)行的過程中,充分利用完全基于內(nèi)存的并行計算做到低延遲查詢(通常是秒級到分鐘級硝训,數(shù)據(jù)量越大查詢響應越慢)响委。
Kyligence Enterprise 是企業(yè)級智能大數(shù)據(jù)OLAP新思,基本思路是對數(shù)據(jù)作多維索引,查詢時只掃描索引而不訪問原始數(shù)據(jù)達到提速赘风。作為充分利用了預計算技術的產(chǎn)品夹囚,Kyligence Enterprise 擅長提供多維分析的亞秒級響應能力。特別是在數(shù)據(jù)量呈倍數(shù)增長時邀窃,查詢性能依然具有很顯著的優(yōu)勢崔兴。
確定測試基準
在測試基準的選擇上,我們考慮了實際用戶的分析場景和查詢特征蛔翅,最終決定根據(jù)TPC-H基準進行測試。TPC-H是一個抽象了商品銷售場景的決策支持系統(tǒng)測試基準位谋,它定義了8張表山析、22條查詢。測試查詢普遍比較復雜掏父,良好地代表了廣泛的業(yè)務場景中笋轨,最常見的分析主題,比如定價和促銷分析赊淑、供應流量和銷售渠道分析爵政、營收和利潤分析、客戶滿意度分析陶缺、市場份額分析等钾挟。
查詢集中的Query 1,總結了已經(jīng)開票的饱岸、寄出的掺出、退回的業(yè)務交易量。
查詢Query 3苫费,分析了具有最高價值的n個未發(fā)貨交易單汤锨。
查詢Query 4,確定了訂單排序系統(tǒng)的工作情況百框,并評估了客戶滿意度闲礼。
更多查詢和數(shù)據(jù)集的信息,可以了解TCP-HBenchmark標準铐维。
準備測試數(shù)據(jù)和環(huán)境
我們使用TPC-H數(shù)據(jù)工具生成了不同規(guī)模的測試數(shù)據(jù)集柬泽,在20臺物理機中使用一個資源隊列進行測試。
測試查詢前方椎,KyligenceEnterprise產(chǎn)品通過預計算生成了不同大小的 TPC-H 數(shù)據(jù)文件聂抢,以 parquet 格式存儲在安裝節(jié)點的 HDFS 上供查詢測試使用。每條查詢都執(zhí)行了多次棠众,最終取其平均值作為實驗結果琳疏。整個測試過程中有决,關閉了KyligenceEnterprise 4.0 的查詢緩存機制。
數(shù)據(jù)集
以下為每個測試數(shù)據(jù)集中空盼,各個表的行數(shù)书幕。
硬件環(huán)境
測試集群的硬件配置。
測試結果和解讀
在5億數(shù)據(jù)的TPC-H 數(shù)據(jù)集上揽趾,Kyligence? Enterprise 4.0的查詢性能普遍優(yōu)于Spark SQL 2.4台汇。22條測試查詢中,Kyligence 產(chǎn)品支持60% 查詢在3秒以內(nèi)返回結果篱瞎,90% 查詢可以在10秒以內(nèi)返回結果苟呐,最大查詢延遲也只有12.81秒。這些數(shù)據(jù)反映了俐筋,在億級大數(shù)據(jù)上牵素, Kyligence產(chǎn)品能夠支持秒級的的交互式分析場景。
對比來看澄者,Kyligence? Enterprise 4.0 的查詢性能明顯優(yōu)于 Spark SQL 2.4笆呆,其中有55% 的查詢提升在10倍以上,96% 查詢有提升 (query 22稍慢于Spark SQL 2.4粱挡,但性能相差不足1秒)赠幕,性能優(yōu)勢非常明顯,單條查詢的性能最大提升81.81倍(query 1)询筏;單條查詢時間最多縮短150秒(query 18)榕堰。
當數(shù)據(jù)集繼續(xù)增加到 10億、50億屈留、100億時局冰,即使集群資源不擴充,Kyligence Enterprise 4.0的查詢延遲的總時間相對平穩(wěn)灌危。面對數(shù)據(jù)量倍數(shù)增長到100億時康二,Spark SQL 作為在內(nèi)存中完成數(shù)據(jù)中間處理過程的分析引擎,需要的資源也需要相應增長勇蝙,否則就如圖展現(xiàn)出由于內(nèi)存資源不足導致查詢報錯沫勿。
結論和展望
通過本次TPC-H 查詢性能的基準測試,我們可以得出Kyligence產(chǎn)品在多維分析場景下更有性能優(yōu)勢:
在5億數(shù)據(jù)集上味混, Kyligence Enterprise4.0的查詢性能遠遠優(yōu)于Spark SQL 2.4产雹。測試的22條查詢中,60% 查詢可以在3秒以內(nèi)返回結果翁锡,90%查詢可以在10秒以內(nèi)返回結果蔓挖,平均查詢性能為Spark SQL2.4的24.47倍。
當數(shù)據(jù)集繼續(xù)增加到 10億馆衔、50億瘟判、100億時怨绣,即使集群資源不擴充,KyligenceEnterprise 4.0的查詢總延遲時間相對平穩(wěn)拷获,平均每條查詢的延遲時間保持在秒級篮撑。
根據(jù)上述結論,我們?nèi)菀卓闯?Kyligence 產(chǎn)品非常擅長滿足海量數(shù)據(jù)上的多維分析的場景匆瓜,并且具有交互式和高性價比的特點赢笨。當企業(yè)的信息生態(tài)系統(tǒng)中數(shù)據(jù)持續(xù)增長時,選擇 Kyligence 產(chǎn)品更是確保了技術投入的持續(xù)可用驮吱,不會因為數(shù)據(jù)量增長而導致 TCO 不斷增長茧妒。SparkSQL作為 Spark 的一個處理結構化數(shù)據(jù)的程序模塊,更適合抽取部分數(shù)據(jù)左冬、周期性的轉換數(shù)據(jù)嘶伟,對部分數(shù)據(jù)進行靈活的簡單分析。
關于 Kyligence
Apache Kylin 在 PB 級別數(shù)據(jù)上帶來了開創(chuàng)性的即時分析能力又碌,并被全球超過1000多家企業(yè)所使用。由 Apache Kylin 核心團隊創(chuàng)立的 Kyligence 公司的使命以自動化數(shù)據(jù)管理绊袋、發(fā)現(xiàn)毕匀、交互及洞察來為其客戶提升生產(chǎn)效率。
Kyligence 獲得了來自紅點癌别、思科皂岔、寬帶資本、順為資本展姐、斯道資本(富達國際自有投資機構)及 Coatue Management 等投資機構的多輪投資躁垛,其全球客戶包括歐萊雅、Xactly圾笨、招商銀行及華為等教馆。公司以雙總部運營,中國總部位于上海擂达,美國總部位于美國加利福尼亞硅谷圣何塞土铺。
聯(lián)系我們
網(wǎng)站:https://kyligence.io/
郵件:info@kyligence.io
電話: +86 21-61060928