背景
mysql的集群方案副签,可降低并發(fā)時(shí)的讀寫壓力,將讀寫操作按照算法分布到集群中不同機(jī)器上基矮。不管是pxc各個(gè)節(jié)點(diǎn)還是replication的slave和master節(jié)點(diǎn)淆储,他們每個(gè)節(jié)點(diǎn)的數(shù)據(jù)都是相同復(fù)制的。并不是分片存儲(chǔ)的家浇。當(dāng)數(shù)據(jù)庫(kù)節(jié)點(diǎn)數(shù)據(jù)大于2000萬(wàn)條后性能就會(huì)下降本砰,那么問題來(lái)了,當(dāng)有海量數(shù)據(jù)钢悲,幾千萬(wàn)甚至上億時(shí)該怎么辦点额?這時(shí)就需要使用分表舔株、分庫(kù)、分區(qū)还棱、分片操作载慈。
分表
分表方式:
- 水平分表:將一張表中的數(shù)據(jù)分成多個(gè)表且表結(jié)構(gòu)不變。
- 垂直分表:將一張表按照字段分成不同的表且表結(jié)構(gòu)發(fā)送改變珍手。
使用場(chǎng)景:
- 水平分表:一張表有海量數(shù)據(jù)办铡,且通過(guò)索引優(yōu)化后速度依然慢。這時(shí)就需要對(duì)其水平分表琳要。舉個(gè)例子寡具,某表有2000萬(wàn)條數(shù)據(jù),分成20個(gè)表焙蹭,每個(gè)表100萬(wàn)條數(shù)據(jù)晒杈,你說(shuō)在100萬(wàn)表數(shù)據(jù)中查詢快還在在2000萬(wàn)條數(shù)據(jù)中查詢快采呐?水平分表可以解決數(shù)據(jù)量過(guò)大帶來(lái)的查詢效率降低的問題夭谤,即能提高讀的速度君躺。
- 垂直分表:當(dāng)表中有大字段如text類型的颁湖、或者是表中字段非常多就需要垂直分表灵汪。這里涉及到一個(gè)mysql的概念蹬铺,mysql采用數(shù)據(jù)頁(yè)的形式組織數(shù)據(jù)察纯。你可以把一張數(shù)據(jù)表理解為一本書闸拿,索引為目錄污桦,表中所有數(shù)據(jù)為整本書的內(nèi)容亩歹,而書中內(nèi)容是以每頁(yè)的形式展現(xiàn)給你的,凡橱,也就是所說(shuō)的數(shù)據(jù)頁(yè)小作。由于每頁(yè)的字書是固定不變的,也就是說(shuō)如果有大字段的話,它會(huì)占用你每頁(yè)中的更多空間稼钩,接著每頁(yè)查詢的記錄數(shù)就會(huì)變少顾稀,查詢的頁(yè)數(shù)就會(huì)變多。你看書時(shí)一個(gè)內(nèi)容明明一頁(yè)可以看完坝撑,現(xiàn)在要翻倆頁(yè)静秆,簡(jiǎn)單點(diǎn)說(shuō)就是讀的效率降低了,也就是說(shuō)
注意:如果一張表中有一個(gè)大字段抚笔,那么雖然查詢時(shí)沒有查詢?cè)撟侄危窃诟鶕?jù)id或者其他索引進(jìn)行查詢的時(shí)候也會(huì)把大字段一起查出來(lái)侨拦。就是這個(gè)大字段也占用數(shù)據(jù)頁(yè)的空間殊橙,所以查詢出來(lái)的記錄數(shù)就變少了。總結(jié):mysql底層是通過(guò)數(shù)據(jù)頁(yè)存儲(chǔ)的蛀柴,如果一條記錄占用空間過(guò)大,就可能造成跨頁(yè)查詢的問題螃概,通過(guò)垂直分表可有效解決這個(gè)問題。
注意:在水平分表后鸽疾,我們通常是對(duì)主鍵id取模,然后定位具體表训貌。如果是vachar類型怎么取模制肮?可以對(duì)varchar類型md5然后取模,因?yàn)閙d5是16進(jìn)制的递沪。
分庫(kù)
使用場(chǎng)景:
- 幾個(gè)業(yè)務(wù)完全不相關(guān)的表可以進(jìn)行分庫(kù)豺鼻,這樣可以降低單個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)的壓力。比如款慨,有1000人在操作A模塊儒飒,有1000人在操作B模塊,這時(shí)mysql就相當(dāng)2000個(gè)并發(fā)壓力檩奠,而分庫(kù)后桩了,每個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)承受1000并發(fā)壓力。如果分庫(kù)后埠戳,倆庫(kù)還有業(yè)務(wù)聯(lián)系井誉,這時(shí)會(huì)涉及到分布式事務(wù)問題,所以要選擇合適的分庫(kù)策略整胃。
- 分庫(kù)是為了降低節(jié)點(diǎn)數(shù)據(jù)庫(kù)壓力颗圣,提高并發(fā)而提出的策略。既然是為了降低數(shù)據(jù)庫(kù)壓力所以通常數(shù)據(jù)庫(kù)是放到不同的節(jié)點(diǎn)上屁使。
- 每個(gè)數(shù)據(jù)庫(kù)支持的連接數(shù)是有限的在岂,每一次的數(shù)據(jù)庫(kù)請(qǐng)求都會(huì)產(chǎn)生一條數(shù)據(jù)庫(kù)連接,當(dāng)一個(gè)庫(kù)連接數(shù)超過(guò)max_connection時(shí)就會(huì)報(bào)too many connections的問題蛮寂,也就是無(wú)法支持更多訪問的時(shí)候蔽午,我們會(huì)把原來(lái)的單個(gè)數(shù)據(jù)庫(kù)分成多個(gè),幫助分擔(dān)壓力共郭。說(shuō)白了就是分散數(shù)據(jù)庫(kù)壓力祠丝。
- 分庫(kù)還有一個(gè)很常用的場(chǎng)景就是冷熱分離,比如訂單表除嘹,用戶經(jīng)常查的是一個(gè)月內(nèi)的訂單写半,我們稱這部分?jǐn)?shù)據(jù)為熱數(shù)據(jù),而一個(gè)月之內(nèi)的訂單很少查但不代表不查尉咕,我們稱這部分?jǐn)?shù)據(jù)為冷數(shù)據(jù)叠蝇。一個(gè)幾千萬(wàn)表數(shù)據(jù)中查詢數(shù)據(jù),可想而至速度很慢年缎,此時(shí)如果把冷數(shù)據(jù)挪到另一個(gè)庫(kù)中悔捶,而生產(chǎn)庫(kù)只保留熱數(shù)據(jù)铃慷,這樣查詢起來(lái)速度是不是很快了呢?冷熱分離即保證了查詢速度又保證了數(shù)據(jù)的完整性蜕该,所以是很值得的犁柜。
分區(qū)
分區(qū)是將一張表的數(shù)據(jù)分成多個(gè)區(qū)塊,存放到不同的位置堂淡,可以在同一磁盤馋缅,數(shù)據(jù)存放的位置方式改變。也可以在不同磁盤绢淀,分區(qū)不存在分表萤悴,分區(qū)后的表還是一張表。
分片
分片帶來(lái)的問題
- 分布式事務(wù)一致性
- 跨節(jié)點(diǎn)Join的問題
分區(qū)和分表的區(qū)別
分表后磁盤文件
比如對(duì)alluser表進(jìn)行分表皆的,分倆張表user1和user2,在磁盤中文件如下
alluser.MRG
alluser.frm
user1.MYD
user1.MYI
user1.frm
user2.MYD
user2.MYI
user2.frm
frm
文件是表結(jié)構(gòu)文件覆履,MYI
是索引文件,MYD
是數(shù)據(jù)文件费薄。
可以看出user1和user2都有這3個(gè)文件, alluser表只要一個(gè)frm文件硝全,alluser只是一個(gè)邏輯表。MRG文件是存了一些分表的對(duì)應(yīng)關(guān)系义锥。
分區(qū)后磁盤文件
比如對(duì)aa表進(jìn)行分區(qū)柳沙,為p1和p3分區(qū),磁盤文件如下
aa#P#p1.MYD
aa#P#p1.MYI
aa#P#p3.MYD
aa#P#p3.MYI
aa.frm
aa.par
可以看出只有一個(gè)frm拌倍,而每個(gè)分區(qū)都有單獨(dú)的MYD和MYI文件赂鲤。par文件記錄的是分區(qū)的對(duì)應(yīng)關(guān)系。
分表和分區(qū)后柱恤,一個(gè)大的數(shù)據(jù)文件分成多個(gè)小的數(shù)據(jù)文件数初,這樣查詢性能肯定能大幅提高。也正是由于分成了多個(gè)文件梗顺,磁盤的io性能也可以大幅提高泡孩。
分區(qū)是mysql天然支持的,而分表需要業(yè)務(wù)代碼的支持寺谤,我理解水平分表
(不包括垂直分表)和分區(qū)達(dá)到的效果是一致的仑鸥,如果在水平分表和分區(qū)之間選擇,最好選擇分區(qū)吧