我們知道
當(dāng)今的數(shù)據(jù)處理大致可分為兩大類(lèi)
-
聯(lián)機(jī)事務(wù)處理 OLTP
(on-line transaction processing)
-
聯(lián)機(jī)分析處理 OLAP
(On-Line Analytical Processing)
OLTP 是傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用
用來(lái)執(zhí)行一些基本的晚唇、日常的事務(wù)處理
比如數(shù)據(jù)庫(kù)記錄的增础嫡、刪跺讯、改姨俩、查等等
而 OLAP 則是分布式數(shù)據(jù)庫(kù)的主要應(yīng)用
它對(duì)實(shí)時(shí)性要求不高倍奢,但處理的數(shù)據(jù)量大
通常應(yīng)用于復(fù)雜的動(dòng)態(tài)報(bào)表系統(tǒng)上
OLTP與OLAP
在數(shù)據(jù)庫(kù)的應(yīng)用類(lèi)別方面
為何會(huì)出現(xiàn)顯著差別呢?
其實(shí)伊者,這是因數(shù)據(jù)庫(kù)存儲(chǔ)模式不同而造成的
-
行式存儲(chǔ)和列式存儲(chǔ)
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)略荡,如 Oracle夏哭、DB2箕慧、MySQL服球、SQL SERVER 等采用行式存儲(chǔ)法(Row-based)再层,在基于行式存儲(chǔ)的數(shù)據(jù)庫(kù)中枫笛, 數(shù)據(jù)是按照行數(shù)據(jù)為基礎(chǔ)邏輯存儲(chǔ)單元進(jìn)行存儲(chǔ)的, 一行中的數(shù)據(jù)在存儲(chǔ)介質(zhì)中以連續(xù)存儲(chǔ)形式存在进胯。
列式存儲(chǔ)(Column-based)是相對(duì)于行式存儲(chǔ)來(lái)說(shuō)的伐庭,新興的 Hbase粉渠、HP Vertica、EMC Greenplum 等分布式數(shù)據(jù)庫(kù)均采用列式存儲(chǔ)似忧。在基于列式存儲(chǔ)的數(shù)據(jù)庫(kù)中渣叛, 數(shù)據(jù)是按照列為基礎(chǔ)邏輯存儲(chǔ)單元進(jìn)行存儲(chǔ)的,一列中的數(shù)據(jù)在存儲(chǔ)介質(zhì)中以連續(xù)存儲(chǔ)形式存在盯捌。
-
行式存儲(chǔ)的適用場(chǎng)景包括:
1淳衙、適合隨機(jī)的增刪改查操作;
2、需要在行中選取所有屬性的查詢(xún)操作;
3、需要頻繁插入或更新的操作箫攀,其操作與索引和行的大小更為相關(guān)肠牲。
實(shí)操中我們會(huì)發(fā)現(xiàn)
行式數(shù)據(jù)庫(kù)在讀取數(shù)據(jù)的時(shí)候
會(huì)存在一個(gè)固有的“缺陷”
比如,所選擇查詢(xún)的目標(biāo)即使只涉及少數(shù)幾項(xiàng)屬性
但由于這些目標(biāo)數(shù)據(jù)埋藏在各行數(shù)據(jù)單元中
而行單元往往又特別大
應(yīng)用程序必須讀取每一條完整的行記錄
從而使得讀取效率大大降低
對(duì)此靴跛,行式數(shù)據(jù)庫(kù)給出的優(yōu)化方案是加“索引”
在OLTP類(lèi)型的應(yīng)用中
通過(guò)索引機(jī)制或給表分區(qū)等手段
可以簡(jiǎn)化查詢(xún)操作步驟缀雳,并提升查詢(xún)效率
但針對(duì)海量數(shù)據(jù)背景的OLAP應(yīng)用
(例如分布式數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等等)
行式存儲(chǔ)的數(shù)據(jù)庫(kù)就有些“力不從心”了
行式數(shù)據(jù)庫(kù)建立索引和物化視圖
需要花費(fèi)大量時(shí)間和資源
因此還是得不償失
無(wú)法從根本上解決查詢(xún)性能和維護(hù)成本等問(wèn)題
也不適用于數(shù)據(jù)倉(cāng)庫(kù)等應(yīng)用場(chǎng)景
所以后來(lái)出現(xiàn)了基于列式存儲(chǔ)的數(shù)據(jù)庫(kù)
對(duì)于數(shù)據(jù)倉(cāng)庫(kù)和分布式數(shù)據(jù)庫(kù)來(lái)說(shuō)
大部分情況下它會(huì)從各個(gè)數(shù)據(jù)源匯總數(shù)據(jù)
然后進(jìn)行分析和反饋
其操作大多是圍繞同一列屬性的數(shù)據(jù)進(jìn)行的
而當(dāng)查詢(xún)某屬性的數(shù)據(jù)記錄時(shí)
列式數(shù)據(jù)庫(kù)只需返回與列屬性相關(guān)的值
在大數(shù)據(jù)量查詢(xún)場(chǎng)景中
列式數(shù)據(jù)庫(kù)可在內(nèi)存中高效組裝各列的值
最終形成關(guān)系記錄集
因此可以顯著減少I(mǎi)O消耗
并降低查詢(xún)響應(yīng)時(shí)間
非常適合數(shù)據(jù)倉(cāng)庫(kù)和分布式的應(yīng)用
-
列式存儲(chǔ)引擎的適用場(chǎng)景包括:
1梢睛、查詢(xún)過(guò)程中肥印,可針對(duì)各列的運(yùn)算并發(fā)執(zhí)行(SMP),最后在內(nèi)存中聚合完整記錄集绝葡,最大可能降低查詢(xún)響應(yīng)時(shí)間;
2深碱、可在數(shù)據(jù)列中高效查找數(shù)據(jù),無(wú)需維護(hù)索引(任何列都能作為索引)藏畅,查詢(xún)過(guò)程中能夠盡量減少無(wú)關(guān)IO敷硅,避免全表掃描;
3、因?yàn)楦髁歇?dú)立存儲(chǔ)愉阎,且數(shù)據(jù)類(lèi)型已知绞蹦,可以針對(duì)該列的數(shù)據(jù)類(lèi)型、數(shù)據(jù)量大小等因素動(dòng)態(tài)選擇壓縮算法榜旦,以提高物理存儲(chǔ)利用率;如果某一行的某一列沒(méi)有數(shù)據(jù)幽七,那在列存儲(chǔ)時(shí),就可以不存儲(chǔ)該列的值章办,這將比行式存儲(chǔ)更節(jié)省空間锉走。
當(dāng)然,跟行數(shù)據(jù)庫(kù)一樣
列式存儲(chǔ)也有不太適用的場(chǎng)景
主要包括:
數(shù)據(jù)需要頻繁更新的交易場(chǎng)景
表中列屬性較少的小量數(shù)據(jù)庫(kù)場(chǎng)景
不適合做含有刪除和更新的實(shí)時(shí)操作