性能測試解讀:Kyligence vs Spark SQL

全球各種大數(shù)據(jù)技術涌現(xiàn)的今天向挖,為了充分利用大量數(shù)據(jù)獲得競爭優(yōu)勢,企業(yè)需要高性能的數(shù)據(jù)分析平臺炕舵,可靠并及時地提供對海量數(shù)據(jù)的分析見解何之。對于數(shù)據(jù)驅動型企業(yè),在海量數(shù)據(jù)上交互式分析的能力是非常重要的能力之一咽筋。本測試側重在多維分析場景溶推,對比Spark SQL 與 Kyligence 產(chǎn)品在大規(guī)模數(shù)據(jù)集上的查詢響應的性能差異和特點。

測試產(chǎn)品介紹

Spark SQL 本質(zhì)上是基于 DAG 的 MPP奸攻,提供 SQL 或類 SQL 的查詢接口蒜危,通過將 SQL 查詢請求轉換成邏輯計劃、物理執(zhí)行睹耐,然后進行分布式的執(zhí)行辐赞。在查詢執(zhí)行的過程中,充分利用完全基于內(nèi)存的并行計算做到低延遲查詢(通常是秒級到分鐘級硝训,數(shù)據(jù)量越大查詢響應越慢)响委。

Kyligence Enterprise 是企業(yè)級智能大數(shù)據(jù)OLAP新思,基本思路是對數(shù)據(jù)作多維索引,查詢時只掃描索引而不訪問原始數(shù)據(jù)達到提速赘风。作為充分利用了預計算技術的產(chǎn)品夹囚,Kyligence Enterprise 擅長提供多維分析的亞秒級響應能力。特別是在數(shù)據(jù)量呈倍數(shù)增長時邀窃,查詢性能依然具有很顯著的優(yōu)勢崔兴。

確定測試基準

在測試基準的選擇上,我們考慮了實際用戶的分析場景和查詢特征蛔翅,最終決定根據(jù)TPC-H基準進行測試。TPC-H是一個抽象了商品銷售場景的決策支持系統(tǒng)測試基準位谋,它定義了8張表山析、22條查詢。測試查詢普遍比較復雜掏父,良好地代表了廣泛的業(yè)務場景中笋轨,最常見的分析主題,比如定價和促銷分析赊淑、供應流量和銷售渠道分析爵政、營收和利潤分析、客戶滿意度分析陶缺、市場份額分析等钾挟。

查詢集中的Query 1,總結了已經(jīng)開票的饱岸、寄出的掺出、退回的業(yè)務交易量

查詢Query 3苫费,分析了具有最高價值的n個未發(fā)貨交易單汤锨。

查詢Query 4,確定了訂單排序系統(tǒng)的工作情況百框,并評估了客戶滿意度闲礼。

更多查詢和數(shù)據(jù)集的信息,可以了解TCP-HBenchmark標準铐维。

準備測試數(shù)據(jù)和環(huán)境

我們使用TPC-H數(shù)據(jù)工具生成了不同規(guī)模的測試數(shù)據(jù)集柬泽,在20臺物理機中使用一個資源隊列進行測試。

測試查詢前方椎,KyligenceEnterprise產(chǎn)品通過預計算生成了不同大小的 TPC-H 數(shù)據(jù)文件聂抢,以 parquet 格式存儲在安裝節(jié)點的 HDFS 上供查詢測試使用。每條查詢都執(zhí)行了多次棠众,最終取其平均值作為實驗結果琳疏。整個測試過程中有决,關閉了KyligenceEnterprise 4.0 的查詢緩存機制。

數(shù)據(jù)集

以下為每個測試數(shù)據(jù)集中空盼,各個表的行數(shù)书幕。

硬件環(huán)境

測試集群的硬件配置。

測試結果和解讀

在5億數(shù)據(jù)的TPC-H 數(shù)據(jù)集上揽趾,Kyligence? Enterprise 4.0的查詢性能普遍優(yōu)于Spark SQL 2.4台汇。22條測試查詢中,Kyligence 產(chǎn)品支持60% 查詢在3秒以內(nèi)返回結果篱瞎,90% 查詢可以在10秒以內(nèi)返回結果苟呐,最大查詢延遲也只有12.81秒。這些數(shù)據(jù)反映了俐筋,在億級大數(shù)據(jù)上牵素, Kyligence產(chǎn)品能夠支持秒級的的交互式分析場景。

對比來看澄者,Kyligence? Enterprise 4.0 的查詢性能明顯優(yōu)于 Spark SQL 2.4笆呆,其中有55% 的查詢提升在10倍以上,96% 查詢有提升 (query 22稍慢于Spark SQL 2.4粱挡,但性能相差不足1秒)赠幕,性能優(yōu)勢非常明顯,單條查詢的性能最大提升81.81倍(query 1)询筏;單條查詢時間最多縮短150秒(query 18)榕堰。

當數(shù)據(jù)集繼續(xù)增加到 10億、50億屈留、100億時局冰,即使集群資源不擴充,Kyligence Enterprise 4.0的查詢延遲的總時間相對平穩(wěn)灌危。面對數(shù)據(jù)量倍數(shù)增長到100億時康二,Spark SQL 作為在內(nèi)存中完成數(shù)據(jù)中間處理過程的分析引擎,需要的資源也需要相應增長勇蝙,否則就如圖展現(xiàn)出由于內(nèi)存資源不足導致查詢報錯沫勿。

結論和展望

通過本次TPC-H 查詢性能的基準測試,我們可以得出Kyligence產(chǎn)品在多維分析場景下更有性能優(yōu)勢:

在5億數(shù)據(jù)集上味混, Kyligence Enterprise4.0的查詢性能遠遠優(yōu)于Spark SQL 2.4产雹。測試的22條查詢中,60% 查詢可以在3秒以內(nèi)返回結果翁锡,90%查詢可以在10秒以內(nèi)返回結果蔓挖,平均查詢性能為Spark SQL2.4的24.47倍。

當數(shù)據(jù)集繼續(xù)增加到 10億馆衔、50億瘟判、100億時怨绣,即使集群資源不擴充,KyligenceEnterprise 4.0的查詢總延遲時間相對平穩(wěn)拷获,平均每條查詢的延遲時間保持在秒級篮撑。

根據(jù)上述結論,我們?nèi)菀卓闯?Kyligence 產(chǎn)品非常擅長滿足海量數(shù)據(jù)上的多維分析的場景匆瓜,并且具有交互式和高性價比的特點赢笨。當企業(yè)的信息生態(tài)系統(tǒng)中數(shù)據(jù)持續(xù)增長時,選擇 Kyligence 產(chǎn)品更是確保了技術投入的持續(xù)可用驮吱,不會因為數(shù)據(jù)量增長而導致 TCO 不斷增長茧妒。SparkSQL作為 Spark 的一個處理結構化數(shù)據(jù)的程序模塊,更適合抽取部分數(shù)據(jù)左冬、周期性的轉換數(shù)據(jù)嘶伟,對部分數(shù)據(jù)進行靈活的簡單分析。

關于 Kyligence

Apache Kylin 在 PB 級別數(shù)據(jù)上帶來了開創(chuàng)性的即時分析能力又碌,并被全球超過1000多家企業(yè)所使用。由 Apache Kylin 核心團隊創(chuàng)立的 Kyligence 公司的使命以自動化數(shù)據(jù)管理绊袋、發(fā)現(xiàn)毕匀、交互及洞察來為其客戶提升生產(chǎn)效率。

Kyligence 獲得了來自紅點癌别、思科皂岔、寬帶資本、順為資本展姐、斯道資本(富達國際自有投資機構)及 Coatue Management 等投資機構的多輪投資躁垛,其全球客戶包括歐萊雅、Xactly圾笨、招商銀行及華為等教馆。公司以雙總部運營,中國總部位于上海擂达,美國總部位于美國加利福尼亞硅谷圣何塞土铺。

聯(lián)系我們

網(wǎng)站:https://kyligence.io/

郵件:info@kyligence.io

電話: +86 21-61060928

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市板鬓,隨后出現(xiàn)的幾起案子悲敷,更是在濱河造成了極大的恐慌,老刑警劉巖俭令,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件后德,死亡現(xiàn)場離奇詭異,居然都是意外死亡抄腔,警方通過查閱死者的電腦和手機瓢湃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門理张,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人箱季,你說我怎么就攤上這事涯穷。” “怎么了藏雏?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵拷况,是天一觀的道長。 經(jīng)常有香客問我掘殴,道長赚瘦,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任奏寨,我火速辦了婚禮起意,結果婚禮上,老公的妹妹穿的比我還像新娘病瞳。我一直安慰自己揽咕,他們只是感情好,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布套菜。 她就那樣靜靜地躺著亲善,像睡著了一般。 火紅的嫁衣襯著肌膚如雪逗柴。 梳的紋絲不亂的頭發(fā)上蛹头,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機與錄音戏溺,去河邊找鬼渣蜗。 笑死,一個胖子當著我的面吹牛旷祸,可吹牛的內(nèi)容都是我干的耕拷。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼托享,長吁一口氣:“原來是場噩夢啊……” “哼斑胜!你這毒婦竟也來了?” 一聲冷哼從身側響起嫌吠,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤止潘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后辫诅,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凭戴,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年炕矮,在試婚紗的時候發(fā)現(xiàn)自己被綠了么夫。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片者冤。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖档痪,靈堂內(nèi)的尸體忽然破棺而出涉枫,到底是詐尸還是另有隱情,我是刑警寧澤腐螟,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布愿汰,位于F島的核電站,受9級特大地震影響乐纸,放射性物質(zhì)發(fā)生泄漏衬廷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一汽绢、第九天 我趴在偏房一處隱蔽的房頂上張望吗跋。 院中可真熱鬧,春花似錦宁昭、人聲如沸跌宛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽秩冈。三九已至,卻和暖如春斥扛,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背丹锹。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工稀颁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人楣黍。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓匾灶,卻偏偏與公主長得像,于是被迫代替她去往敵國和親租漂。 傳聞我的和親對象是個殘疾皇子阶女,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容