Apache Kylin CPU 使用率異常

Apache Kylin CPU 使用率異常

Kylin 版本 2.6.1

創(chuàng)建測試數(shù)據(jù)

首先造一點測試數(shù)據(jù):

rm data.csv
for i in {0..1000}
do
  echo "$i,$i,2333
$i,$i,2333
$i,$i,2333
$i,$i,2333
$i,$i,2333
$i,$i,2333
$i,$i,2333
$i,$i,2333
$i,$i,2333
$i,$i,2333" >> data.csv
done

use temp;
drop table test_filter;
create table test_filter(a int, b int, value int)
row format delimited
FIELDS TERMINATED BY ',';

LOAD DATA LOCAL INPATH "/home/kylin/data.csv" into table test_filter;

創(chuàng)建測試 Cube

創(chuàng)建包含大量與或邏輯的 SQL

生成 sql 的腳本

#!/bin/bash
echo "select * from temp.test_filter
where ((a >= 0 and a <= 1)"
for i in {1..3}
do
  echo "or    (a >= $i and a <= $((i+1)))"
done
echo ") and ((b >= 0 and b <= 1)"
for i in {1..3}
do
  echo "or    (b >= $i and b <= $((i+1)))"
done
echo ")"

先來個簡單點的 sql, 看一下執(zhí)行步驟:

select * from temp.test_filter
where ((a >= 0 and a <= 1)
or    (a >= 1 and a <= 2)
or    (a >= 2 and a <= 3)
or    (a >= 3 and a <= 4)
) and ((b >= 0 and b <= 1)
or    (b >= 1 and b <= 2)
or    (b >= 2 and b <= 3)
or    (b >= 3 and b <= 4)
)

大量與或操作導(dǎo)致的結(jié)果

org.apache.kylin.metadata.filter.TupleFilter 240行左右:

// boolean algebra flatten
if (op == FilterOperatorEnum.AND) {
    flatFilter = new LogicalTupleFilter(FilterOperatorEnum.AND);
    for (TupleFilter andChild : andChildren) {
        flatFilter.addChildren(andChild.getChildren());
    }
    if (!orChildren.isEmpty()) {
        List<TupleFilter> fullAndFilters = cartesianProduct(orChildren, flatFilter);
        flatFilter = new LogicalTupleFilter(FilterOperatorEnum.OR);
        flatFilter.addChildren(fullAndFilters);
    }
}

這段代碼就解釋了 CPU 跑滿的原因,

這里的 op 就是

     ((a >= 0 and a <= 1)
or    (a >= 1 and a <= 2)
or    (a >= 2 and a <= 3)
or    (a >= 3 and a <= 4)
)

     ((b >= 0 and b <= 1)
or    (b >= 1 and b <= 2)
or    (b >= 2 and b <= 3)
or    (b >= 3 and b <= 4)
)

之間的 AND.

orChildren 就是

     ((a >= 0 and a <= 1)
or    (a >= 1 and a <= 2)
or    (a >= 2 and a <= 3)
or    (a >= 3 and a <= 4)
)

     ((b >= 0 and b <= 1)
or    (b >= 1 and b <= 2)
or    (b >= 2 and b <= 3)
or    (b >= 3 and b <= 4)
)

所以最終會走到這里:

List<TupleFilter> fullAndFilters = cartesianProduct(orChildren, flatFilter);

做一個笛卡爾積, 目的是把這個 where 字句后面的條件打平成如下的樣子:

     ((a >= 0 and a <= 1 and b >= 0 and b <= 1)
or    (a >= 0 and a <= 1 and b >= 1 and b <= 2)
or    (a >= 0 and a <= 1 and b >= 2 and b <= 3)
or    (a >= 0 and a <= 1 and b >= 3 and b <= 4)
or    (a >= 1 and a <= 2 and b >= 0 and b <= 1)
or    (a >= 1 and a <= 2 and b >= 1 and b <= 2)
or    (a >= 1 and a <= 2 and b >= 2 and b <= 3)
or    (a >= 1 and a <= 2 and b >= 3 and b <= 4)
or    (a >= 2 and a <= 3 and b >= 0 and b <= 1)
or    (a >= 2 and a <= 3 and b >= 1 and b <= 2)
or    (a >= 2 and a <= 3 and b >= 2 and b <= 3)
or    (a >= 2 and a <= 3 and b >= 3 and b <= 4)
or    (a >= 3 and a <= 4 and b >= 0 and b <= 1)
or    (a >= 3 and a <= 4 and b >= 1 and b <= 2)
or    (a >= 3 and a <= 4 and b >= 2 and b <= 3)
or    (a >= 3 and a <= 4 and b >= 3 and b <= 4)
)

所以, 問題來了, 為什么要把兩個 and 連接的條件打平成這么多個條件?

image_name

通過這段代碼, 我推測這么做的原因和構(gòu)建 HTable 維度組合時的默認(rèn)排列方式有關(guān), 這么一打平然后通過上面的算法就可以達(dá)到一次性掃出所有相關(guān)的行.

這樣以來可以很好的優(yōu)化執(zhí)行計劃, 但是這么打平的壞處是什么呢?

上面的例子可以看到, and([4], [4]) 最終的到了一個 or([16]) 的 List.

那么如果把這 4 個條件改成 200 個條件組合起來呢?

最終 List 的長度會變成 200 * 200 = 40000.

所以, 可以使用上述腳本生成個 200 個條件的 SQL 跑一把:

image_name

效果立竿見影, 僅一條 SQL 幾乎就可以讓整個系統(tǒng)卡到無法正常使用, 更不用說 Tableau 可能會一次性發(fā)送多條類似 SQL (Tableau 報表中的過濾器使用僅相關(guān)值即可觸發(fā)這種 SQL ). 這無疑是非常致命的.

因為如果過濾字段在多那么幾個, 這個最終的 List 長度則會成指數(shù)型增長, 這么一來就會發(fā)現(xiàn) CPU 全部被用來往 List 里追加元素了, 永無止盡的往 List 里插入幾萬幾十萬個元素.

此類 SQL 明顯是不合理的, 而且一旦出現(xiàn)一條這樣的 SQL 可能就會導(dǎo)致整個實例的 CPU 使用率發(fā)生異常.

解決方案

調(diào)低 kylin.query.flat-filter-max-children 的值, 在迪卡爾積數(shù)量可能過大的時候, 直接拋出異常拒絕執(zhí)行.

相關(guān) Issue: KYLIN-3797, KYLIN-4180

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末侨艾,一起剝皮案震驚了整個濱河市撩银,隨后出現(xiàn)的幾起案子冒嫡,更是在濱河造成了極大的恐慌牡直,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡硫狞,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來残吩,“玉大人财忽,你說我怎么就攤上這事∑辏” “怎么了即彪?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長活尊。 經(jīng)常有香客問我隶校,道長,這世上最難降的妖魔是什么蛹锰? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任深胳,我火速辦了婚禮,結(jié)果婚禮上宁仔,老公的妹妹穿的比我還像新娘稠屠。我一直安慰自己,他們只是感情好翎苫,可當(dāng)我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著榨了,像睡著了一般煎谍。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上龙屉,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天呐粘,我揣著相機與錄音,去河邊找鬼转捕。 笑死作岖,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的五芝。 我是一名探鬼主播痘儡,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼枢步!你這毒婦竟也來了沉删?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤醉途,失蹤者是張志新(化名)和其女友劉穎矾瑰,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體隘擎,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡殴穴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片采幌。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡恍涂,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出植榕,到底是詐尸還是另有隱情再沧,我是刑警寧澤,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布尊残,位于F島的核電站炒瘸,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏寝衫。R本人自食惡果不足惜顷扩,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望慰毅。 院中可真熱鬧隘截,春花似錦、人聲如沸汹胃。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽着饥。三九已至犀农,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間宰掉,已是汗流浹背呵哨。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留轨奄,地道東北人孟害。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像挪拟,于是被迫代替她去往敵國和親挨务。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內(nèi)容