維度通常是一個數(shù)據(jù)記錄的屬性驶拱,度量是某一個維度根據(jù)特定聚合函數(shù)生成的值;group by 的屬性通常就是維度晶衷,計(jì)算的值則是度量蓝纲。
事實(shí)表:存儲有事實(shí)記錄的表,如系統(tǒng)日志晌纫、銷售記錄等税迷,事實(shí)表的記錄會不斷增長。
維度表:也稱查找表锹漱,是與事實(shí)表相對應(yīng)的一種表箭养;保存了維度屬性值,跟事實(shí)表做關(guān)聯(lián)哥牍。是對事實(shí)表上重復(fù)出現(xiàn)的屬性抽取毕泌、規(guī)范出來用一張表進(jìn)行管理喝检。如地區(qū)、月度撼泛、年度等挠说。
data cube:數(shù)據(jù)立方體,原始數(shù)據(jù)建立的多維度索引愿题,可以大大加快數(shù)據(jù)的查詢效率损俭。
cuboid:某一種維度組合下所計(jì)算的數(shù)據(jù)。
cubsegment:針對源數(shù)據(jù)中的某一個片段潘酗,計(jì)算出來的cube數(shù)據(jù)撩炊,cube是按照時(shí)間順序來構(gòu)建的。
? ? 大數(shù)據(jù)事實(shí)表按照時(shí)間梯度的增量計(jì)算生成的cube崎脉,就是cubesegment拧咳,過多的segment會影響后期查詢性能,需要進(jìn)行合并囚灼。
維度表設(shè)計(jì)
1骆膝、數(shù)據(jù)一致性,主鍵唯一性灶体,kylin會檢查阅签,如果不唯一,會報(bào)錯蝎抽。
2政钟、維度表越小越好,因?yàn)閗ylin會放在內(nèi)存中樟结,默認(rèn)的閾值是300mb
3养交、改變頻率低,kylin會在每次構(gòu)建中試圖重用維度表的快照,如果維度表經(jīng)常改變瓢宦,重用會失效碎连。
4、維度表最好不要是視圖驮履,因?yàn)樾枰獙σ晥D物化鱼辙,從而增加時(shí)間開銷。
維度基數(shù):維度在數(shù)據(jù)集中出現(xiàn)的不通值玫镐,如國家這個維度倒戏,如果有200個不同的值,那么此維度的基數(shù)就是200恐似《捧危基數(shù)超過100w的維度通常被稱為超高基數(shù)維度,需要注意。
如果一個cube的超高基數(shù)維度多葱椭,那這個cube膨脹的概率會很高捂寿。