背景:在測試過程中接觸到這兩個開源工具,?有一些困惑,zepplin也是從hive表中獲取數(shù)據(jù)今豆,kylin追根究底也是從hive中獲取數(shù)據(jù),而kylin中包含了預(yù)計算的多維立方體思想柔袁,速度要快上千萬倍呆躲,為何要使用zepplin來即時查詢呢。
1捶索、kylin
kylin工作原理是MOLAP 多維立方體分析
維度:觀察數(shù)據(jù)的角度(group by)
度量:被聚合的統(tǒng)計值
? ? 給定一個數(shù)據(jù)模型插掂,我們可以對其上的所有維度進行組合,對于N維來說腥例,組合的可能性有2的n次方辅甥,對于每一種維度的組合,將度量做聚合運算燎竖,然后將運行結(jié)果保存為物化視圖肆氓,所有維度的組合的物化視圖稱為cube所以一個cube就是按許多維度聚合的物化視圖的集合。(不會掃描原始記錄)
? ? 當數(shù)據(jù)量集達到千億及萬億底瓣,查詢速度是其他非預(yù)計算1000倍以上。
? ? 默認數(shù)據(jù)源蕉陋、構(gòu)造引擎捐凭、存儲引擎分別是:HIVE、mapreduce凳鬓、hbase茁肠。
2、zepplin
? zepplin是從hive表中查出數(shù)據(jù)缩举,也就是“即時查詢”垦梆,它使用的mepreduce匹颤、spark等計算引擎。
? 其實這兩個本身是不同的工具托猩,zepplin偏向于可視化展示印蓖,而kylin偏向于數(shù)據(jù)分析(從不同維度及各維度的關(guān)聯(lián)關(guān)系)。
? ? 為什么說zepplin偏向于可視化展示工具京腥,我們平時在linnux命令行中可以輸出hive -e 來執(zhí)行sql赦肃,這個會調(diào)用mapreduce引擎查詢出結(jié)果顯示在xshell上,而sparksql可以調(diào)用spark引擎查詢出結(jié)果顯示在xshell上公浪。此時他宛,我作為用戶有這樣的需求,我不想登錄xshell輸入查詢命令欠气,我想通過界面查看查詢結(jié)果厅各,并希望這些結(jié)果通過表格或者其他方式展現(xiàn)出來。這就是zepplin的價值所在预柒。