越來(lái)越多的公司開(kāi)始嘗試使用歷史數(shù)據(jù)庫(kù)來(lái)進(jìn)行聯(lián)機(jī)分析處理(OLAP)和實(shí)現(xiàn)決策支持系統(tǒng)(DSS)毕匀。很多人將數(shù)據(jù)倉(cāng)庫(kù)和多維數(shù)據(jù)庫(kù)(MDDB)應(yīng)用于高級(jí)系統(tǒng)如專(zhuān)家系統(tǒng)或DSS翁潘。這些系統(tǒng)可以用來(lái)解決半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的問(wèn)題。
決策支持系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)
DDS決策支持系統(tǒng)是解決半結(jié)構(gòu)化問(wèn)題的系統(tǒng)-問(wèn)題有結(jié)構(gòu)化部分也有人工直覺(jué)部分忍弛。
DSS還可以讓用戶創(chuàng)造“what if”場(chǎng)景响迂。DDS讓用戶通過(guò)應(yīng)用他們自己的決策規(guī)則和直覺(jué)來(lái)控制系統(tǒng)的決策選擇過(guò)程。
有其他方法來(lái)模擬多維表——oracle7.3 中使用的設(shè)計(jì)技術(shù)(push toward star schema design)细疚。
使用關(guān)系數(shù)據(jù)庫(kù)實(shí)現(xiàn)OLAP是通過(guò)下列技術(shù)的綜合來(lái)實(shí)現(xiàn)的:
pre-joining tables together預(yù)-連接表
對(duì)多個(gè)表的預(yù)連接生產(chǎn)的denormalized table去規(guī)格化表可以稱為星型模式中的事實(shí)表蔗彤。pre-summarization預(yù)-匯總
這是為了應(yīng)付處理任何drill-down向下鉆取細(xì)節(jié)數(shù)據(jù)的請(qǐng)求。Massive denormalization大量去規(guī)格化
存儲(chǔ)空間越來(lái)越大越來(lái)越便宜疯兼,使得人們重新思考第三范式的優(yōu)缺點(diǎn)∪欢簦現(xiàn)在數(shù)據(jù)冗余已經(jīng)是可以接受的了,且看如此多的復(fù)制工具吧彪,快照工具和非第一范式數(shù)據(jù)庫(kù)的存在啦鸣。如果預(yù)先生成盡可能多的結(jié)果表,在用戶使用時(shí)就可以大大提升響應(yīng)時(shí)間来氧。星型模型就是大量去規(guī)格化的例子诫给。Controlled periodic batch updating定期地批量更新
重新計(jì)算匯總值香拉,并加入數(shù)據(jù)庫(kù)。
數(shù)據(jù)聚集和向下鉆取
MDDB最基本的原則就是聚集的思想中狂。為了讓管理者能選擇不同的聚集層次凫碌,大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)提供了“向下鉆取”特性來(lái)允許用戶選擇不同層次的細(xì)節(jié),最終訪問(wèn)原始交易數(shù)據(jù)胃榕。
有很多類(lèi)型的聚集盛险,最常見(jiàn)的是“Roll-up”上卷。比如將日銷(xiāo)售額上卷到月銷(xiāo)售額勋又。
Oracle對(duì)于MDDB的關(guān)系型解決方案
Dr. Ralph Kimball提出了使用星型模型來(lái)描述一個(gè)模擬MDDB結(jié)構(gòu)并去規(guī)格化的過(guò)程苦掘。
在上面的3NF數(shù)據(jù)庫(kù)模型中,要查找123號(hào)訂單的總交易額楔壤,必須對(duì)123號(hào)訂單中的所有項(xiàng)進(jìn)行quantity乘以price鹤啡,并最終求和。
create table temp as
select (quantity.quantity_sold *
item.list_price) line_total
from quantity, item
where
quantity.order_nbr = 123
and
quantity.item_nbr = item.item_nbr;
select SUM(line_total) from temp;
為計(jì)算西部地區(qū)的所有訂單交易額的和蹲嚣,需要進(jìn)行五重表聯(lián)合操作递瑰。
CREATE TABLE temp AS
SELECT (quantity.quantity_sold * item.list_price) line_total
FROM quantity, item, customer, city, state
WHERE
quantity.item_nbr = item.item_nbr /* join ITEM and QUANTITY */
AND
item.cust_nbr = customer.cust_nbr /* join ITEM and CUSTOMER */
AND
customer.city_name = city.city_name /* join CUSTOMER and CITY */
AND
city.state_name = state.state_name /* join CITY and STATE */
AND
state.region_name = 'WEST';
而星型模型的好處是為性能考慮而引入冗余數(shù)據(jù)。根本而言隙畜,一張事實(shí)表是一個(gè)對(duì)原交易數(shù)據(jù)的1NF表示的數(shù)據(jù)庫(kù)抖部,其中的數(shù)據(jù)存在大量冗余。
表中有些維度包含數(shù)據(jù)可以進(jìn)行連接操作慎颗,有些維度如地域不包含任何數(shù)據(jù)。
雖然存在數(shù)據(jù)冗余言询,但星型模型帶來(lái)的好處卻是顯而易見(jiàn)的哗总。
比如,仍然要查找123號(hào)訂單的總交易額:
select sum(total_cost) order_total
from fact
where
fact.order_nbr = 123;
比如倍试,仍然計(jì)算西部地區(qū)的所有訂單交易額的和讯屈,雖然數(shù)據(jù)不是按地域組織的,仍可以快速算出:
select sum(total_cost)
from fact
where
region = 'west'
除了簡(jiǎn)化查詢結(jié)構(gòu)外县习,所有的表連接操作都被消除了涮母,你可以很方便地從星型模型中抽取數(shù)據(jù)。另外躁愿,類(lèi)似地域這樣的不超過(guò)3個(gè)離散值的列叛本,通過(guò)使用位圖索引,可以明顯地提高性能彤钟。
這種方法的直接結(jié)果是商店會(huì)保留兩份產(chǎn)品數(shù)據(jù)庫(kù)来候,一份3NF交易數(shù)據(jù)庫(kù),另一份即用于決策支持和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的去規(guī)格化版本的數(shù)據(jù)庫(kù)逸雹。
使用Oracle的分布式SQL來(lái)填充星型模型
那么营搅,我們?nèi)绾伪WC星型模型與操作型數(shù)據(jù)庫(kù)同步一致云挟?幸運(yùn)的是,Oracle提供了多個(gè)機(jī)制來(lái)保證數(shù)據(jù)的同步一致转质。當(dāng)然园欣,星型模型是為了執(zhí)行長(zhǎng)期趨勢(shì)分析,所以并不強(qiáng)制要求其與數(shù)據(jù)庫(kù)保持一致休蟹。
在這種合理假設(shè)下沸枯,你就可以使用一條SQL語(yǔ)句來(lái)從操作數(shù)據(jù)庫(kù)中抽取并填充新行到星型模型中。
假設(shè)星型模型位于London總部赂弓,對(duì)應(yīng)的表為fact_table绑榴。
INSERT INTO fact_table@london
SELECT
order_year,
order_quarter,
order_month,
order_nbr,
salesperson_name,
customer_name,
customer_city,
customer_state,
customer_region,
item_nbr,
quantity_sold,
price*quantity_sold
FROM quantity, item, customer, city, state
WHERE
quantity.item_nbr = item.item_nbr /* join ITEM and QUANTITY */
AND
item.cust_nbr = customer.cust_nbr /* join ITEM and CUSTOMER */
AND
customer.city_name = city.city_name /* join CUSTOMER and CITY */
AND
city.state_name = state.state_name /* join CITY and STATE */
AND
order_date = SYSDATE /* get only today's transactions */
;
代碼與前面的表并不完全對(duì)應(yīng)。
當(dāng)有些數(shù)據(jù)行需要被刪除怎么辦盈魁?比如交易被取消翔怎。這時(shí)候需要在操作數(shù)據(jù)庫(kù)上建立一個(gè)delete觸發(fā)器,當(dāng)刪除觸發(fā)器被觸發(fā)后會(huì)引起星型模型中所有對(duì)應(yīng)的無(wú)效數(shù)據(jù)的刪除备埃。
CREATE TRIGGER delete_orders
AFTER DELETE ON order
BEGIN
DELETE FROM fact_table@london
WHERE
order_nbr=:del_ord
END;
這樣就可以讓星型模型與操作數(shù)據(jù)庫(kù)相對(duì)同步姓惑。
當(dāng)事實(shí)表擴(kuò)展到超出其初始表容量怎么辦褐奴?而且還要考慮索引帶來(lái)的內(nèi)存開(kāi)銷(xiāo)按脚,對(duì)于多維表的查詢可能涉及超過(guò)5個(gè)索引的讀取。
為了減輕這個(gè)問(wèn)題敦冬,許多設(shè)計(jì)者將表分割到較小的子表中辅搬,分開(kāi)使用。比如脖旱,將每個(gè)月的數(shù)據(jù)分存到單獨(dú)的表中fact_table_1_96, fact_table_2_96堪遂。當(dāng)需要在單個(gè)操作中使用多張表時(shí),就可以使用SQL union操作來(lái)合并表萌庆。
SELECT * FROM fact_table_1_96
UNION ALL
SELECT * FROM fact_table_2_96
UNION ALL
SELECT * FROM fact_table_3_96
ORDER BY order_year, order_month;
除了較小表索引外溶褪,這種表分割和union all操作帶來(lái)了使得Oracle并行查詢引擎可以在子表上同步進(jìn)行全表掃描。這種情況下践险,系統(tǒng)為每個(gè)子表掃描啟動(dòng)一個(gè)進(jìn)程猿妈。上例中,性能大概會(huì)有50%的提升巍虫。
聚集彭则,上卷,和星型模型
運(yùn)行時(shí)聚集的一個(gè)解決方案是提前編寫(xiě)SQL來(lái)根據(jù)用戶可能感興趣的維度預(yù)先聚集數(shù)據(jù)占遥。