Developing Effective Oracle Data Warehouse and OLAP Applications(學(xué)習(xí)辽故、筆記)

越來(lái)越多的公司開(kāi)始嘗試使用歷史數(shù)據(jù)庫(kù)來(lái)進(jìn)行聯(lián)機(jī)分析處理(OLAP)和實(shí)現(xiàn)決策支持系統(tǒng)(DSS)毕匀。很多人將數(shù)據(jù)倉(cāng)庫(kù)和多維數(shù)據(jù)庫(kù)(MDDB)應(yīng)用于高級(jí)系統(tǒng)如專(zhuān)家系統(tǒng)或DSS翁潘。這些系統(tǒng)可以用來(lái)解決半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的問(wèn)題。

決策支持系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)

DDS決策支持系統(tǒng)是解決半結(jié)構(gòu)化問(wèn)題的系統(tǒng)-問(wèn)題有結(jié)構(gòu)化部分也有人工直覺(jué)部分忍弛。
DSS還可以讓用戶創(chuàng)造“what if”場(chǎng)景响迂。DDS讓用戶通過(guò)應(yīng)用他們自己的決策規(guī)則和直覺(jué)來(lái)控制系統(tǒng)的決策選擇過(guò)程。
有其他方法來(lái)模擬多維表——oracle7.3 中使用的設(shè)計(jì)技術(shù)(push toward star schema design)细疚。

模擬多維表

使用關(guān)系數(shù)據(jù)庫(kù)實(shí)現(xiàn)OLAP是通過(guò)下列技術(shù)的綜合來(lái)實(shí)現(xiàn)的:

  1. pre-joining tables together預(yù)-連接表
    對(duì)多個(gè)表的預(yù)連接生產(chǎn)的denormalized table去規(guī)格化表可以稱為星型模式中的事實(shí)表蔗彤。

  2. pre-summarization預(yù)-匯總
    這是為了應(yīng)付處理任何drill-down向下鉆取細(xì)節(jié)數(shù)據(jù)的請(qǐng)求。

  3. Massive denormalization大量去規(guī)格化
    存儲(chǔ)空間越來(lái)越大越來(lái)越便宜疯兼,使得人們重新思考第三范式的優(yōu)缺點(diǎn)∪欢簦現(xiàn)在數(shù)據(jù)冗余已經(jīng)是可以接受的了,且看如此多的復(fù)制工具吧彪,快照工具和非第一范式數(shù)據(jù)庫(kù)的存在啦鸣。如果預(yù)先生成盡可能多的結(jié)果表,在用戶使用時(shí)就可以大大提升響應(yīng)時(shí)間来氧。星型模型就是大量去規(guī)格化的例子诫给。

  4. Controlled periodic batch updating定期地批量更新
    重新計(jì)算匯總值香拉,并加入數(shù)據(jù)庫(kù)。

數(shù)據(jù)聚集和向下鉆取

MDDB最基本的原則就是聚集的思想中狂。為了讓管理者能選擇不同的聚集層次凫碌,大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)提供了“向下鉆取”特性來(lái)允許用戶選擇不同層次的細(xì)節(jié),最終訪問(wèn)原始交易數(shù)據(jù)胃榕。

預(yù)先計(jì)算聚集數(shù)據(jù)并載入數(shù)據(jù)倉(cāng)庫(kù)

有很多類(lèi)型的聚集盛险,最常見(jiàn)的是“Roll-up”上卷。比如將日銷(xiāo)售額上卷到月銷(xiāo)售額勋又。

Oracle對(duì)于MDDB的關(guān)系型解決方案

Dr. Ralph Kimball提出了使用星型模型來(lái)描述一個(gè)模擬MDDB結(jié)構(gòu)并去規(guī)格化的過(guò)程苦掘。

ER model for a sales database

在上面的3NF數(shù)據(jù)庫(kù)模型中,要查找123號(hào)訂單的總交易額楔壤,必須對(duì)123號(hào)訂單中的所有項(xiàng)進(jìn)行quantity乘以price鹤啡,并最終求和。

    create table temp as
    select (quantity.quantity_sold * 
     item.list_price) line_total
    from quantity, item
    where
    quantity.order_nbr = 123
    and
    quantity.item_nbr = item.item_nbr;

    select SUM(line_total) from temp;

為計(jì)算西部地區(qū)的所有訂單交易額的和蹲嚣,需要進(jìn)行五重表聯(lián)合操作递瑰。

    CREATE TABLE temp AS
    SELECT (quantity.quantity_sold * item.list_price) line_total
    FROM quantity, item, customer, city, state
    WHERE
    quantity.item_nbr = item.item_nbr   /* join ITEM and QUANTITY */
    AND
    item.cust_nbr = customer.cust_nbr   /* join ITEM and CUSTOMER */
    AND
    customer.city_name = city.city_name /* join CUSTOMER and CITY */
    AND
    city.state_name = state.state_name  /* join CITY and STATE */
    AND
    state.region_name = 'WEST';

而星型模型的好處是為性能考慮而引入冗余數(shù)據(jù)。根本而言隙畜,一張事實(shí)表是一個(gè)對(duì)原交易數(shù)據(jù)的1NF表示的數(shù)據(jù)庫(kù)抖部,其中的數(shù)據(jù)存在大量冗余。

星型模型议惰,存在和前面3NF相同的數(shù)據(jù)

表中有些維度包含數(shù)據(jù)可以進(jìn)行連接操作慎颗,有些維度如地域不包含任何數(shù)據(jù)。
雖然存在數(shù)據(jù)冗余言询,但星型模型帶來(lái)的好處卻是顯而易見(jiàn)的哗总。

比如,仍然要查找123號(hào)訂單的總交易額:

    select sum(total_cost) order_total
    from fact
    where
    fact.order_nbr = 123;

比如倍试,仍然計(jì)算西部地區(qū)的所有訂單交易額的和讯屈,雖然數(shù)據(jù)不是按地域組織的,仍可以快速算出:

    select sum(total_cost)
    from fact
    where
    region = 'west'

除了簡(jiǎn)化查詢結(jié)構(gòu)外县习,所有的表連接操作都被消除了涮母,你可以很方便地從星型模型中抽取數(shù)據(jù)。另外躁愿,類(lèi)似地域這樣的不超過(guò)3個(gè)離散值的列叛本,通過(guò)使用位圖索引,可以明顯地提高性能彤钟。
這種方法的直接結(jié)果是商店會(huì)保留兩份產(chǎn)品數(shù)據(jù)庫(kù)来候,一份3NF交易數(shù)據(jù)庫(kù),另一份即用于決策支持和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的去規(guī)格化版本的數(shù)據(jù)庫(kù)逸雹。

使用Oracle的分布式SQL來(lái)填充星型模型

那么营搅,我們?nèi)绾伪WC星型模型與操作型數(shù)據(jù)庫(kù)同步一致云挟?幸運(yùn)的是,Oracle提供了多個(gè)機(jī)制來(lái)保證數(shù)據(jù)的同步一致转质。當(dāng)然园欣,星型模型是為了執(zhí)行長(zhǎng)期趨勢(shì)分析,所以并不強(qiáng)制要求其與數(shù)據(jù)庫(kù)保持一致休蟹。
在這種合理假設(shè)下沸枯,你就可以使用一條SQL語(yǔ)句來(lái)從操作數(shù)據(jù)庫(kù)中抽取并填充新行到星型模型中。
假設(shè)星型模型位于London總部赂弓,對(duì)應(yīng)的表為fact_table绑榴。

    INSERT INTO fact_table@london
    SELECT
        order_year,
        order_quarter,  
        order_month,
        order_nbr,
        salesperson_name,
        customer_name,
        customer_city,
        customer_state,
        customer_region,
        item_nbr,
        quantity_sold,
        price*quantity_sold
    FROM quantity, item, customer, city, state
    WHERE
    quantity.item_nbr = item.item_nbr   /* join ITEM and QUANTITY */
    AND
    item.cust_nbr = customer.cust_nbr   /* join ITEM and CUSTOMER */
    AND
    customer.city_name = city.city_name /* join CUSTOMER and CITY */
    AND
    city.state_name = state.state_name  /* join CITY and STATE */
    AND
    order_date = SYSDATE                /* get only today's transactions */
    ;

代碼與前面的表并不完全對(duì)應(yīng)。

當(dāng)有些數(shù)據(jù)行需要被刪除怎么辦盈魁?比如交易被取消翔怎。這時(shí)候需要在操作數(shù)據(jù)庫(kù)上建立一個(gè)delete觸發(fā)器,當(dāng)刪除觸發(fā)器被觸發(fā)后會(huì)引起星型模型中所有對(duì)應(yīng)的無(wú)效數(shù)據(jù)的刪除备埃。

    CREATE TRIGGER delete_orders
        AFTER DELETE ON order
    BEGIN
    DELETE FROM fact_table@london
        WHERE
        order_nbr=:del_ord
    END;

這樣就可以讓星型模型與操作數(shù)據(jù)庫(kù)相對(duì)同步姓惑。

當(dāng)事實(shí)表擴(kuò)展到超出其初始表容量怎么辦褐奴?而且還要考慮索引帶來(lái)的內(nèi)存開(kāi)銷(xiāo)按脚,對(duì)于多維表的查詢可能涉及超過(guò)5個(gè)索引的讀取。
為了減輕這個(gè)問(wèn)題敦冬,許多設(shè)計(jì)者將表分割到較小的子表中辅搬,分開(kāi)使用。比如脖旱,將每個(gè)月的數(shù)據(jù)分存到單獨(dú)的表中fact_table_1_96, fact_table_2_96堪遂。當(dāng)需要在單個(gè)操作中使用多張表時(shí),就可以使用SQL union操作來(lái)合并表萌庆。

    SELECT * FROM fact_table_1_96
    UNION ALL
    SELECT * FROM fact_table_2_96
    UNION ALL
    SELECT * FROM fact_table_3_96
    ORDER BY order_year, order_month;

除了較小表索引外溶褪,這種表分割和union all操作帶來(lái)了使得Oracle并行查詢引擎可以在子表上同步進(jìn)行全表掃描。這種情況下践险,系統(tǒng)為每個(gè)子表掃描啟動(dòng)一個(gè)進(jìn)程猿妈。上例中,性能大概會(huì)有50%的提升巍虫。

聚集彭则,上卷,和星型模型

運(yùn)行時(shí)聚集的一個(gè)解決方案是提前編寫(xiě)SQL來(lái)根據(jù)用戶可能感興趣的維度預(yù)先聚集數(shù)據(jù)占遥。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末桥氏,一起剝皮案震驚了整個(gè)濱河市商叹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌凌节,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件糟秘,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)芹缔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)瓶盛,“玉大人最欠,你說(shuō)我怎么就攤上這事〕兔ǎ” “怎么了芝硬?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)轧房。 經(jīng)常有香客問(wèn)我拌阴,道長(zhǎng),這世上最難降的妖魔是什么奶镶? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任迟赃,我火速辦了婚禮,結(jié)果婚禮上厂镇,老公的妹妹穿的比我還像新娘纤壁。我一直安慰自己,他們只是感情好捺信,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布酌媒。 她就那樣靜靜地躺著,像睡著了一般迄靠。 火紅的嫁衣襯著肌膚如雪秒咨。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1 285
  • 那天掌挚,我揣著相機(jī)與錄音雨席,去河邊找鬼。 笑死吠式,一個(gè)胖子當(dāng)著我的面吹牛陡厘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播奇徒,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼雏亚,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了摩钙?” 一聲冷哼從身側(cè)響起罢低,我...
    開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后网持,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體宜岛,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年功舀,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了萍倡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡辟汰,死狀恐怖列敲,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情帖汞,我是刑警寧澤戴而,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站翩蘸,受9級(jí)特大地震影響所意,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜催首,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一扶踊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧郎任,春花似錦秧耗、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)胶台。三九已至歼疮,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間诈唬,已是汗流浹背韩脏。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留铸磅,地道東北人赡矢。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像阅仔,于是被迫代替她去往敵國(guó)和親吹散。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 第三章 數(shù)據(jù)庫(kù)系統(tǒng) 3.1 數(shù)據(jù)庫(kù)管理系統(tǒng)的類(lèi)型 通常有多個(gè)分類(lèi)標(biāo)準(zhǔn)八酒。如按數(shù)據(jù)模型分類(lèi)空民、按用戶數(shù)分類(lèi)、按數(shù)據(jù)庫(kù)分布...
    步積閱讀 2,679評(píng)論 0 7
  • 上一篇:098-BigData-26Hive企業(yè)級(jí)調(diào)優(yōu) 十、數(shù)據(jù)倉(cāng)庫(kù) 10.1 什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)界轩,英文名稱為...
    AncientMing閱讀 863評(píng)論 0 2
  • 10.1 什么是數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù)画饥,英文名稱為Data Warehouse,可簡(jiǎn)寫(xiě)為DW或DWH浊猾。數(shù)據(jù)倉(cāng)庫(kù)抖甘,是為企...
    碼農(nóng)GG閱讀 472評(píng)論 0 0
  • 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的Int...
    Albert陳凱閱讀 4,942評(píng)論 0 15
  • 江南的雨季葫慎,總是這樣的潮濕膩滑衔彻。雨滴從屋檐滑落,穿成一條長(zhǎng)長(zhǎng)的珠簾偷办;雨滴落在小河里米奸,蕩起一圈一圈的綠紋;雨滴打在玻...
    游荇閱讀 152評(píng)論 0 0