簡(jiǎn)介
戰(zhàn)斗民族開(kāi)發(fā)的 olap 數(shù)據(jù)庫(kù)月帝,適用于渠道漏斗分析阱扬、app 點(diǎn)擊行為路徑分析等業(yè)務(wù)場(chǎng)景
關(guān)鍵特性
優(yōu)點(diǎn)
# |
描述 |
備注 |
多引擎支持 |
支持多引擎 engine,生產(chǎn)環(huán)境主要是 merge tree躺彬,有點(diǎn)類(lèi)似 LSM 但是不寫(xiě)內(nèi)存煤墙,直接寫(xiě)磁盤(pán),每次攝入數(shù)據(jù)都會(huì)生成一個(gè)目錄宪拥,并會(huì)生成相關(guān)的 idx仿野、mrk、bin 文件她君,所以適合批量攝入脚作,實(shí)時(shí)攝入最好能夠進(jìn)行時(shí)間與 batch 批量攝入,server 端會(huì)異步進(jìn)行數(shù)據(jù) merge缔刹,單條攝入一定要杜絕球涛,將會(huì)對(duì)服務(wù)端造成極大壓力 |
|
向量化(SIMD) |
向量化計(jì)算充分利用 cpu 資源 |
|
code gen |
code gen 生成優(yōu)化后的物理執(zhí)行計(jì)劃 |
|
列式存儲(chǔ) |
每個(gè)列都有單獨(dú)的 mrk、bin 文件存儲(chǔ)校镐,對(duì)于壓縮友好 |
|
TTL |
支持字段級(jí)和表級(jí)別的 TTL |
|
MVCC |
查詢(xún)時(shí)支持多版本亿扁,不會(huì)進(jìn)行加鎖 |
|
SQL 支持良好,分析函數(shù)豐富 |
提供了很多方便漏斗分析鸟廓,路徑分析的函數(shù)方便進(jìn)行 olap 分析从祝,如:sequenceMatch,groupArray等,還支持高階函數(shù),如 arrayFilter 引谜,arrayFirstIndex 等 |
|
缺點(diǎn)
# |
描述 |
備注 |
不支持事務(wù) |
OLAP 引擎牍陌,無(wú)可厚非 |
|
僅支持 batch 攝入 |
由于 merge tree 本身的設(shè)計(jì)(類(lèi)似 lsm,但是無(wú) log 和 memory store员咽,不寫(xiě)內(nèi)存毒涧,直接寫(xiě)入磁盤(pán)),僅對(duì) batch 寫(xiě)入支持友好骏融,單條頻繁攝入將對(duì) server 端性能造成極大影響链嘀,server 端會(huì)頻繁 merge 造成 load 升高 |
實(shí)時(shí)數(shù)據(jù)攝入時(shí)需要注意 |
不支持二級(jí)索引 |
|
|
寫(xiě)放大 |
merge tree 會(huì)定期進(jìn)行 merge萌狂,導(dǎo)致寫(xiě)入放大,當(dāng)前類(lèi) lsm 結(jié)構(gòu)的通病 |
|
主鍵可重復(fù) |
比較詭異的地方怀泊,不一定算劣勢(shì)茫藏,部分場(chǎng)景需要考慮業(yè)務(wù)層面做去重 |
|
稀疏索引不適合點(diǎn)查 |
稀疏索引導(dǎo)致其不適合點(diǎn)查,kv 查詢(xún)更適合使用 hbase redis 等 |
|
JDBC 客戶(hù)端
github鏈接 |
描述 |
clickhouse-jdbc |
官方提供霹琼,基于 http 實(shí)現(xiàn)务傲,與 server 的 8123 端口進(jìn)行通信 |
ClickHouse-Native-JDBC |
第三方lib,基于 tcp 實(shí)現(xiàn)枣申,與 server 的 9000 端口進(jìn)行通訊 性能相對(duì)更優(yōu)售葡,推薦使用
|
對(duì)比
OLAP數(shù)據(jù)庫(kù) |
數(shù)據(jù)攝入 |
存儲(chǔ)方式 |
查詢(xún)性能 |
用戶(hù)友好程度 |
場(chǎng)景 |
Druid |
支持離線(xiàn) Hdfs 數(shù)據(jù)攝入和實(shí)時(shí) Kafka 數(shù)據(jù)攝入 |
LSM 變種,采用一層全維度的 roll up 進(jìn)行預(yù)計(jì)算忠藤,不存儲(chǔ)明細(xì) |
查詢(xún)時(shí)在 broker 層面進(jìn)行更加深層的聚合計(jì)算挟伙,毫秒級(jí)到秒級(jí) |
組件繁多,包含 coordinator模孩、 overlord尖阔、broker、historical榨咐、middle manager 等多種組件和進(jìn)程介却,依賴(lài) ZK 和 mysql,運(yùn)維相對(duì)復(fù)雜块茁,維度度量修改支持在線(xiàn)修改齿坷,對(duì)用戶(hù)友好,需要時(shí)間字段 |
iot数焊、實(shí)時(shí)監(jiān)控指標(biāo)產(chǎn)出永淌、實(shí)時(shí)渠道聚合分析等 |
Kylin |
支持 Hive 和 Kafka 攝入,由于使用基于 mr 和 spark 的計(jì)算引擎進(jìn)行 cube 構(gòu)建昌跌,難以達(dá)到分鐘級(jí)延遲仰禀,延遲至少在十分鐘至半小時(shí)級(jí)別 |
全維度預(yù)計(jì)算構(gòu)建 cube,支持一些策略的剪枝蚕愤,減少無(wú)用計(jì)算量答恶,開(kāi)源版本依賴(lài) HBase 作為 Storage |
基于全量預(yù)計(jì)算產(chǎn)出、亞秒級(jí) |
依賴(lài) Hadoop 生態(tài)萍诱,適合維度悬嗓、度量相對(duì)穩(wěn)定的 cube 分析,一旦需要修改維度裕坊、度量需要重新配置包竹,重新構(gòu)建,不一定需要時(shí)間字段 |
維度、度量明確的場(chǎng)景周瞎、偏離線(xiàn) T+1 或 H+1苗缩、分析聚合維度多樣化,維度盡量不要超過(guò) 20 維声诸,否則將產(chǎn)生維度爆炸 |
ClickHouse |
支持離線(xiàn)在線(xiàn)數(shù)據(jù)錄入酱讶,但是由于存儲(chǔ)設(shè)計(jì)實(shí)時(shí)數(shù)據(jù)攝入千萬(wàn)不能單條頻繁攝入,一定要做 batch 匯總彼乌,秒級(jí)攝入 qps 不要超過(guò) 1 |
與 kylin泻肯、druid 不同,不做預(yù)計(jì)算慰照,完全是通過(guò)索引灶挟、列式存儲(chǔ)、壓縮毒租、向量化稚铣、code gen 等充分壓榨 cpu 等計(jì)算資源達(dá)到快速計(jì)算的目的 |
毫秒級(jí)至秒級(jí)不等 |
單一組件、sql 支持良好蝌衔、分析函數(shù)豐富榛泛,易上手,需要時(shí)間字段 |
渠道漏斗分析噩斟、app 點(diǎn)擊路徑事件分析 |
參考文檔
怎么用ClickHouse做漏斗分析?
轉(zhuǎn)化漏斗的基本實(shí)現(xiàn)
ClickHouse主鍵探討[譯文+補(bǔ)充]
使用ClickHouse一鍵接管MySQL數(shù)據(jù)分析
How to realize funnel analysis by ClickHouse (with our illustrating example) ?
https://clickhouse.yandex/docs/en/single/
ClickHouse 使用
數(shù)據(jù)庫(kù)稠密索引與稀疏索引
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者