數(shù)據(jù)倉庫之數(shù)據(jù)粒度

粒度的定義

確定數(shù)據(jù)倉庫中數(shù)據(jù)的恰當粒度是數(shù)據(jù)倉庫開發(fā)者需要面對的一個最重要的設(shè)計問題扭弧。數(shù)據(jù)粒度主要針對指標數(shù)據(jù)的計算范圍幔睬,如人口這個數(shù)據(jù)項在統(tǒng)計部門是以街區(qū)范圍還是一個社區(qū)為范圍統(tǒng)計的。人口數(shù)據(jù)細化程度越高饼问,粒度級就越薪酶丁;相反流济,細化程度越低锐锣,粒度級就越大腌闯。粒度是數(shù)據(jù)倉庫主要設(shè)計問題绳瘟,因為它極大地影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答的查詢類型姿骏。在設(shè)計數(shù)據(jù)倉庫的時候權(quán)衡數(shù)據(jù)量大小和查詢類型得出合理的粒度大小糖声。下面我們通過規(guī)劃設(shè)計和建設(shè)兩個階段來講解數(shù)據(jù)倉庫粒度的確定。

1.規(guī)劃階段

“規(guī)劃”——對未來整體性、長期性蘸泻、基本型問題的思考和考量琉苇,設(shè)計未來整套行動的方案。在規(guī)劃階段過程中首先粗略估算數(shù)據(jù)量悦施,估算的目的是掌握數(shù)據(jù)倉庫中數(shù)據(jù)量的一個范圍并扇。第二步預(yù)測未來數(shù)據(jù)集市中應(yīng)用需要的粒度,數(shù)據(jù)倉庫存儲數(shù)據(jù)集市使用的最小粒度抡诞。

1.1.建立良好的循環(huán)反饋機制是很重要的穷蛹。

首先就要建立完善的循環(huán)反饋機制。數(shù)據(jù)倉庫是面對模糊需求開始建立的昼汗,粒度不可能一次就能規(guī)劃好肴熏,先導(dǎo)入少量數(shù)據(jù),建立一部分應(yīng)用提交給用戶使用顷窒,并聆聽用戶使用意見蛙吏,根據(jù)用戶的使用意見調(diào)整粒度的大小。

1.2.對存儲數(shù)據(jù)進行粗略估算對設(shè)計體系結(jié)構(gòu)的人員來說非常有用鞋吉。

粗略估算數(shù)據(jù)倉庫的數(shù)據(jù)量鸦做,可跟好的規(guī)劃數(shù)據(jù)倉庫架構(gòu)。如果數(shù)據(jù)只有10 000行谓着,那么數(shù)據(jù)倉庫采用粒度級越小的數(shù)據(jù)存儲馁龟,數(shù)據(jù)倉庫中存儲所有明細數(shù)據(jù)。如果明細數(shù)據(jù)有10 000 000行漆魔,進入數(shù)據(jù)倉庫的數(shù)據(jù)就需要進行初步匯總坷檩。如果有100億行,數(shù)據(jù)倉庫不但需要有一個高粒度級改抡,還可能將大部分數(shù)據(jù)移到溢出存儲器上去矢炼。

估算方法如下:


數(shù)據(jù)量估算方法




注意:對數(shù)據(jù)倉庫大小的估算預(yù)測幾乎總是偏低,而且阿纤,數(shù)據(jù)倉庫的增長速率一般比預(yù)測的要快句灌。

1.3.預(yù)測數(shù)據(jù)集市中可能使用的數(shù)據(jù)粒度是很必要的。

為了合適地填充所有的數(shù)據(jù)集市欠拾,數(shù)據(jù)倉庫中的數(shù)據(jù)必須在一個所有數(shù)據(jù)集市所需要的最低粒度水平上胰锌。

規(guī)劃階段的成果是數(shù)據(jù)倉庫建設(shè)的重要依據(jù)內(nèi)容。規(guī)劃階段對組織架構(gòu)藐窄,數(shù)據(jù)量大小和后期應(yīng)用的摸底资昧,可以制定方案,并對可能的結(jié)果有預(yù)先的認知荆忍,對可能存在的問題設(shè)計上進行避免格带。

2.建設(shè)階段

2.1.根據(jù)估算的空間結(jié)果撤缴,在體系架構(gòu)設(shè)計上可以根據(jù)數(shù)據(jù)量大小進行存儲設(shè)備選擇。需要多少直接存取存儲設(shè)備叽唱,是否需采用雙重粒度設(shè)計屈呕。


估算是建設(shè)的輸入


2.2.設(shè)計溢出數(shù)據(jù)的管理。溢出數(shù)據(jù)是指數(shù)據(jù)倉庫將不經(jīng)常被訪問的過時的數(shù)據(jù)轉(zhuǎn)移到存儲量更大的訪問速度慢的存儲器上的數(shù)據(jù)棺亭。管理溢出數(shù)據(jù)可以方便索引定位歷史數(shù)據(jù)并可以快速取出該數(shù)據(jù)虎眨。

跨介質(zhì)存儲管理器和數(shù)據(jù)活動監(jiān)控器可以對溢出數(shù)據(jù)進行有效的管理。磁盤存儲器和大容量低速存儲器之間的數(shù)據(jù)移動是通過一種稱為“跨介質(zhì)存儲管理器(CMSM)”的軟件來控制的镶摘。數(shù)據(jù)活動監(jiān)控器专甩,用來確定哪些數(shù)據(jù)正在被訪問,哪些沒被訪問钉稍。數(shù)據(jù)活動監(jiān)控器能提供數(shù)據(jù)存儲的位置信息涤躲。


跨介質(zhì)存儲管理器與數(shù)據(jù)活動監(jiān)控器


2.3.實施數(shù)據(jù)倉庫過程中粒度的確定是一個往復(fù)循環(huán)的過程。利用規(guī)劃階段建立的反饋循環(huán)方法贡未,不斷的從分析員獲得反饋种樱,不斷的優(yōu)化數(shù)據(jù)倉庫。


循環(huán)往復(fù)的反饋機制


第一次的設(shè)計過程中俊卤,如果有50%是正確的嫩挤,那么整個設(shè)計就是成功的。

從圖可以看出成功建立數(shù)據(jù)倉庫離不開分析人員的通力協(xié)作消恍。建設(shè)者要不斷的聆聽分析員的意見岂昭。分析人員在建立數(shù)據(jù)倉庫的時候并不知道自己需要什么,只有在他們看到最終分析結(jié)果狠怨,才能告訴數(shù)據(jù)倉庫工作人員什么才是他們真正有用的约啊。為了有效的獲得反饋,以下幾點技巧可供參考:

快速建立數(shù)據(jù)倉庫很小的子集并認真聽取用戶的反饋意見佣赖;

? ? ? ? ? 使用原型方法恰矩;

? ? ? ? ? 參考別人的經(jīng)驗;

? ? ? ? ? 與有經(jīng)驗的用戶協(xié)同工作憎蛤;

? ? ? ? ? 以企業(yè)中已有的功能需要作參考外傅;

? ? ? ? ? 定期舉行數(shù)據(jù)倉庫建設(shè)例會。

3.例舉銀行粒度小例子

3.1.銀行環(huán)境中粒度級別俩檬,下圖是銀行中的數(shù)據(jù)粒度例子萎胰。


銀行數(shù)據(jù)粒度

銀行的操作層存放的是以日為單位粒度的數(shù)據(jù)。銀行的各個業(yè)務(wù)系統(tǒng)只存放最近60天交易活動明細內(nèi)容棚辽,方便用戶查詢最近兩個月的交易信息詳情技竟,這段時間用戶對交易數(shù)據(jù)明細最為關(guān)心。

數(shù)據(jù)倉庫層將數(shù)據(jù)匯聚成以月為單位粒度的匯總數(shù)據(jù)晚胡。銀行將過去長達十年的數(shù)據(jù)按每個賬戶每月交易信息進行匯聚灵奖,存儲在直接存儲設(shè)備嚼沿,供高速查詢訪問估盘,用戶對過去很久的交易明細并不在意瓷患,但是用戶需要快速查詢得出結(jié)果,此時提供以月為單位的匯總數(shù)據(jù)可以滿足用戶的需求遣妥。

所有的歷史數(shù)據(jù)以日為單位存放在溢出存儲區(qū)擅编,該區(qū)域數(shù)據(jù)量極大,訪問頻率極低箫踩。一般銀行不受理長達十年的歷史明細數(shù)據(jù)查詢的請求爱态,如果一些特殊情況需要查詢超過十年的歷史數(shù)據(jù),查詢時間會相當緩慢境钟。

4.小結(jié)

數(shù)據(jù)倉庫粒度的確定是一個困難的過程锦担,要求一個合適的級別,既不能太高也不能太低慨削。

選擇粒度級別很大程度上基于常識洞渔。建設(shè)之前作好適當?shù)囊?guī)劃,估算數(shù)據(jù)量并建立相應(yīng)的反饋制度缚态。在實施的過程中磁椒,首先建立數(shù)據(jù)倉庫的一小部分,并讓分析人員使用玫芦。然后聆聽他們的意見浆熔,根據(jù)他們的反饋對粒度級別進行適當?shù)恼{(diào)整。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末桥帆,一起剝皮案震驚了整個濱河市医增,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌老虫,老刑警劉巖调窍,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異张遭,居然都是意外死亡邓萨,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進店門菊卷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來缔恳,“玉大人,你說我怎么就攤上這事洁闰∏干酰” “怎么了?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵扑眉,是天一觀的道長纸泄。 經(jīng)常有香客問我赖钞,道長,這世上最難降的妖魔是什么聘裁? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任雪营,我火速辦了婚禮,結(jié)果婚禮上衡便,老公的妹妹穿的比我還像新娘献起。我一直安慰自己,他們只是感情好镣陕,可當我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布谴餐。 她就那樣靜靜地躺著,像睡著了一般呆抑。 火紅的嫁衣襯著肌膚如雪岂嗓。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天鹊碍,我揣著相機與錄音厌殉,去河邊找鬼。 笑死妹萨,一個胖子當著我的面吹牛年枕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播乎完,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼熏兄,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了树姨?” 一聲冷哼從身側(cè)響起摩桶,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎帽揪,沒想到半個月后硝清,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡转晰,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年芦拿,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片查邢。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡蔗崎,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出扰藕,到底是詐尸還是另有隱情缓苛,我是刑警寧澤,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布邓深,位于F島的核電站未桥,受9級特大地震影響笔刹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜冬耿,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一舌菜、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧淆党,春花似錦酷师、人聲如沸讶凉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽懂讯。三九已至荷憋,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間褐望,已是汗流浹背勒庄。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留瘫里,地道東北人实蔽。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像谨读,于是被迫代替她去往敵國和親局装。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內(nèi)容