MySQL分庫(kù)分表總結(jié):
單庫(kù)單表 :
單庫(kù)單表是最常見(jiàn)的數(shù)據(jù)庫(kù)設(shè)計(jì),例如蛹含,有一張用戶(user)表放在數(shù)據(jù)庫(kù)db中毅厚,所有的用戶都可以在db庫(kù)中的user表中查到。
單庫(kù)多表 :
隨著用戶數(shù)量的增加浦箱,user表的數(shù)據(jù)量會(huì)越來(lái)越大吸耿,當(dāng)數(shù)據(jù)量達(dá)到一定程度的時(shí)候?qū)ser表的查詢會(huì)漸漸的變慢,從而影響整個(gè)DB的性能酷窥。如果使用
mysql, 還有一個(gè)更嚴(yán)重的問(wèn)題是咽安,當(dāng)需要添加一列的時(shí)候,mysql會(huì)鎖表蓬推,期間所有的讀寫(xiě)操作只能等待妆棒。 可以通過(guò)某種方式將user進(jìn)行水平的切分,產(chǎn)生兩個(gè)表結(jié)構(gòu)完全一樣的user_0000,user_0001等表沸伏,user_0000 + user_0001 + …的數(shù)據(jù)剛好是一份完整的數(shù)據(jù)糕珊。
多庫(kù)多表 :
隨著數(shù)據(jù)量增加也許單臺(tái)DB的存儲(chǔ)空間不夠,隨著查詢量的增加單臺(tái)數(shù)據(jù)庫(kù)服務(wù)器已經(jīng)沒(méi)辦法支撐毅糟。這個(gè)時(shí)候可以再對(duì)數(shù)據(jù)庫(kù)進(jìn)行水平區(qū)分放接。
分庫(kù)分表規(guī)則 :
設(shè)計(jì)表的時(shí)候需要確定此表按照什么樣的規(guī)則進(jìn)行分庫(kù)分表。例如留特,當(dāng)有新用戶時(shí),程序得確定將此用戶信息添加到哪個(gè)表中玛瘸;同理蜕青,當(dāng)?shù)卿浀臅r(shí)候我們得通過(guò)用戶的賬號(hào)找到數(shù)據(jù)庫(kù)中對(duì)應(yīng)的記錄,所有的這些都需要按照某一規(guī)則進(jìn)行糊渊。
路由
通過(guò)分庫(kù)分表規(guī)則查找到對(duì)應(yīng)的表和庫(kù)的過(guò)程右核。如分庫(kù)分表的規(guī)則是user_id mod 4的方式,當(dāng)用戶新注冊(cè)了一個(gè)賬號(hào)渺绒,賬號(hào)id的123,我們可以通
過(guò)id mod 4的方式確定此賬號(hào)應(yīng)該保存到User_0003表中贺喝。當(dāng)用戶123登錄的時(shí)候菱鸥,我們通過(guò)123 mod 4后確定記錄在User_0003中。
分庫(kù)分表產(chǎn)生的問(wèn)題躏鱼,及注意事項(xiàng)
- 分庫(kù)分表維度的問(wèn)題
假如用戶購(gòu)買(mǎi)了商品,需要將交易記錄保存取來(lái)氮采,如果按照用戶的緯度分表,則每個(gè)用戶的交易記錄都保存在同一表中染苛,所以很快很方便的查找到某用
戶的購(gòu)買(mǎi)情況鹊漠,但是某商品被購(gòu)買(mǎi)的情況則很有可能分布在多張表中,查找起來(lái)比較麻煩茶行。反之躯概,按照商品維度分表,可以很方便的查找到此商品的購(gòu)
買(mǎi)情況畔师,但要查找到買(mǎi)人的交易記錄比較麻煩娶靡。
所以常見(jiàn)的解決方式有:
a.通過(guò)掃表的方式解決,此方法基本不可能看锉,效率太低了姿锭。
b.記錄兩份數(shù)據(jù),一份按照用戶緯度分表度陆,一份按照商品維度分表艾凯。
c.通過(guò)搜索引擎解決,但如果實(shí)時(shí)性要求很高懂傀,又得關(guān)系到實(shí)時(shí)搜索趾诗。
- 聯(lián)合查詢的問(wèn)題
聯(lián)合查詢基本不可能,因?yàn)殛P(guān)聯(lián)的表有可能不在同一數(shù)據(jù)庫(kù)中蹬蚁。
- 避免跨庫(kù)事務(wù)
避免在一個(gè)事務(wù)中修改db0中的表的時(shí)候同時(shí)修改db1中的表恃泪,一個(gè)是操作起來(lái)更復(fù)雜,效率也會(huì)有一定影響犀斋。
- 盡量把同一組數(shù)據(jù)放到同一DB服務(wù)器上
例如將賣(mài)家a的商品和交易信息都放到db0中贝乎,當(dāng)db1掛了的時(shí)候,賣(mài)家a相關(guān)的東西可以正常使用叽粹。也就是說(shuō)避免數(shù)據(jù)庫(kù)中的數(shù)據(jù)依賴另一數(shù)據(jù)庫(kù)中的數(shù)據(jù)览效。
一主多備
在實(shí)際的應(yīng)用中,絕大部分情況都是讀遠(yuǎn)大于寫(xiě)虫几。Mysql提供了讀寫(xiě)分離的機(jī)制锤灿,所有的寫(xiě)操作都必須對(duì)應(yīng)到Master,讀操作可以在Master和Slave機(jī)器上進(jìn)行辆脸,Slave與Master的結(jié)構(gòu)完全一樣但校,一個(gè)Master可以有多個(gè)Slave,甚至Slave下還可以掛Slave,通過(guò)此方式可以有效的提高DB集群的QPS.
所有的寫(xiě)操作都是先在Master上操作,然后同步更新到Slave上啡氢,所以從Master同步到Slave機(jī)器有一定的延遲状囱,當(dāng)系統(tǒng)很繁忙的時(shí)候术裸,延遲問(wèn)題會(huì)更加嚴(yán)重,Slave機(jī)器數(shù)量的增加也會(huì)使這個(gè)問(wèn)題更加嚴(yán)重亭枷。
此外袭艺,可以看出Master是集群的瓶頸,當(dāng)寫(xiě)操作過(guò)多奶栖,會(huì)嚴(yán)重影響到Master的穩(wěn)定性匹表,如果Master掛掉,整個(gè)集群都將不能正常工作宣鄙。
所以袍镀,1. 當(dāng)讀壓力很大的時(shí)候,可以考慮添加Slave機(jī)器的分式解決冻晤,但是當(dāng)Slave機(jī)器達(dá)到一定的數(shù)量就得考慮分庫(kù)了苇羡。 2. 當(dāng)寫(xiě)壓力很大的時(shí)候,就必須得進(jìn)行分庫(kù)操作鼻弧。
MySQL使用為什么要分庫(kù)分表
可以用說(shuō)用到MySQL的地方,只要數(shù)據(jù)量一大, 馬上就會(huì)遇到一個(gè)問(wèn)題,要分庫(kù)分表.
這里引用一個(gè)問(wèn)題為什么要分庫(kù)分表呢?MySQL處理不了大的表嗎?
其實(shí)是可以處理的大表的.我所經(jīng)歷的項(xiàng)目中單表物理上文件大小在80G多,單表記錄數(shù)在5億以上,而且這個(gè)表
屬于一個(gè)非常核用的表:朋友關(guān)系表.
但這種方式可以說(shuō)不是一個(gè)最佳方式. 因?yàn)槊媾R文件系統(tǒng)如Ext3文件系統(tǒng)對(duì)大于大文件處理上也有許多問(wèn)題.
這個(gè)層面可以用xfs文件系統(tǒng)進(jìn)行替換.但MySQL單表太大后有一個(gè)問(wèn)題是不好解決: 表結(jié)構(gòu)調(diào)整相關(guān)的操作基
本不在可能.所以大項(xiàng)在使用中都會(huì)面監(jiān)著分庫(kù)分表的應(yīng)用.
從Innodb本身來(lái)講數(shù)據(jù)文件的Btree上只有兩個(gè)鎖, 葉子節(jié)點(diǎn)鎖和子節(jié)點(diǎn)鎖,可以想而知道,當(dāng)發(fā)生頁(yè)拆分或是添加
新葉時(shí)都會(huì)造成表里不能寫(xiě)入數(shù)據(jù).
所以分庫(kù)分表還就是一個(gè)比較好的選擇了.
那么分庫(kù)分表多少合適呢?
經(jīng)測(cè)試在單表1000萬(wàn)條記錄一下,寫(xiě)入讀取性能是比較好的. 這樣在留點(diǎn)buffer,那么單表全是數(shù)據(jù)字型的保持在
800萬(wàn)條記錄以下, 有字符型的單表保持在500萬(wàn)以下.
如果按 100庫(kù)100表來(lái)規(guī)劃,如用戶業(yè)務(wù):
500萬(wàn)100100 = 50000000萬(wàn) = 5000億記錄.
心里有一個(gè)數(shù)了,按業(yè)務(wù)做規(guī)劃還是比較容易的.
分布式數(shù)據(jù)庫(kù)架構(gòu)--排序设江、分頁(yè)、分組攘轩、實(shí)現(xiàn)
最近研究分布式數(shù)據(jù)庫(kù)架構(gòu)叉存,發(fā)現(xiàn)排序、分組及分頁(yè)讓著實(shí)人有點(diǎn)頭疼《劝铮現(xiàn)把問(wèn)題及解決思路整理如下歼捏。
一、 多分片(水平切分)返回結(jié)果合并(排序)
1笨篷、Select + None Aggregate Function的有序記錄合并排序
解決思路:對(duì)各分片返回的有序記錄瞳秽,進(jìn)行排序去重合并。此處主要是編寫(xiě)排序去重合
并算法率翅。
2练俐、Select + None Aggregate Function的無(wú)序記錄合并
解決思路:對(duì)各分片返回的無(wú)序記錄,進(jìn)行去重合并。
優(yōu)點(diǎn):實(shí)現(xiàn)比較簡(jiǎn)單。
缺點(diǎn):數(shù)據(jù)量越大,字段越多,去重處理就會(huì)越耗時(shí)剧辐。
3、Select + Aggregate Function的記錄合并(排序)
Oracle常用聚合函數(shù):Count、Max、Min、Avg连霉、Sum榴芳。
AF:Max嗡靡、Min
思路:通過(guò)算法對(duì)各分片返回結(jié)果再求max、min值窟感。
AF:Avg讨彼、Sum、Count
思路:分片間無(wú)重復(fù)記錄或字段時(shí)柿祈,通過(guò)算法對(duì)各分片返回結(jié)果再求avg哈误、sum、count值躏嚎。分片間有重復(fù)記錄或字段時(shí)蜜自,先對(duì)各分片記錄去重合并,再通過(guò)算法求avg卢佣、sum重荠、count值。
比如:
select count(*) from user
select count(deptno) from user;
select count(distinct deptno) from user;
二虚茶、多分片(水平切分)返回結(jié)果分頁(yè)
解決思路:合并各分片返回結(jié)果戈鲁,邏輯分頁(yè)。
優(yōu)點(diǎn): 實(shí)現(xiàn)簡(jiǎn)單嘹叫。
缺點(diǎn): 數(shù)據(jù)量越大婆殿,緩存壓力就越大。
分片數(shù)據(jù)量越大罩扇,查詢也會(huì)越慢婆芦。
三、多分片(水平切分)查詢有分組語(yǔ)法的合并
1暮蹂、Group By Having + None Aggregate Function時(shí)
Select + None Aggregate Function
比如:select job user group by job;
思路:直接去重(排序)合并寞缝。
Select + Aggregate Function
比如:select max(sal),job user group by job;
思路:同Select + Aggregate Function的記錄合并(排序)。
2仰泻、Group By Having + Aggregate Function時(shí)
解決思路:去掉having AF條件查詢各分片荆陆,然后把數(shù)據(jù)放到一張表里。再用group by having 聚合函數(shù)查詢集侯。
四被啼、分布式數(shù)據(jù)庫(kù)架構(gòu)--排序分組分頁(yè)參考解決方案
解決方案1:Hadoop + Hive。
思路:使用Hadoop HDFS來(lái)存儲(chǔ)數(shù)據(jù)棠枉,通過(guò)Hdoop MapReduce完成數(shù)據(jù)計(jì)算浓体,通過(guò)Hive HQL語(yǔ)言使用部分與RDBBS一樣的表格查詢特性和分布式存儲(chǔ)計(jì)算特性。
優(yōu)點(diǎn): 可以解決問(wèn)題
具有并發(fā)處理能力
可以離線處理
缺點(diǎn): 實(shí)時(shí)性不能保證
網(wǎng)絡(luò)延遲會(huì)增加
異常捕獲難度增加
Web應(yīng)用起來(lái)比較復(fù)雜
解決方案2:總庫(kù)集中查詢辈讶。
優(yōu)點(diǎn): 可以解決問(wèn)題
實(shí)現(xiàn)簡(jiǎn)單
缺點(diǎn): 總庫(kù)數(shù)據(jù)不能太大
并發(fā)壓力大
五命浴、小結(jié)
對(duì) 于分布式數(shù)據(jù)庫(kù)架構(gòu)來(lái)說(shuō),排序、分頁(yè)生闲、分組一直就是一個(gè)比較復(fù)雜的問(wèn)題媳溺。避免此問(wèn)題需要好好地設(shè)計(jì)分庫(kù)、分表策略碍讯。同時(shí)根據(jù)特定的場(chǎng)景來(lái)解決問(wèn)題悬蔽。也可以 充分利用[海量數(shù)據(jù)](https://www.baidu.com/s?wd=%E6%B5%B7%E9%87%8F%E6%95%B0%E6%8D%AE&tn=24004469_oem_dg&rsv_dl=gh_pl_sl_csd)存儲(chǔ)(Hadoop-HDFS|Hive|HBse)、搜索引擎(Lucene|Solr)及分布式計(jì)算(MapReduce)等技術(shù)來(lái) 解決問(wèn)題捉兴。
別外蝎困,也可以用NoSQL技術(shù)替代關(guān)系性數(shù)據(jù)庫(kù)來(lái)解決問(wèn)題,比如MogonDB\redis倍啥。
原文出處:https://blog.csdn.net/carechere/article/details/51211236