范式與反范式
但在互聯(lián)網(wǎng)應(yīng)用中,為了性能或便于開發(fā)诡挂,違背范式的設(shè)計(jì)比比皆是,如字段冗余临谱、字段存一個(gè)復(fù)雜的JSON串璃俗、分庫分表之后數(shù)據(jù)多維度冗余存儲(chǔ)、寬表等悉默。如果系統(tǒng)是重業(yè)務(wù)性的系統(tǒng)城豁,對(duì)性能、高并發(fā)的要求沒有那么高抄课,最好保證數(shù)據(jù)庫的設(shè)計(jì)達(dá)到第三范式的要求唱星。
分庫分表
為什么要分?
- 業(yè)務(wù)拆分跟磨,便于職責(zé)分工间聊,便于系統(tǒng)擴(kuò)展
- 應(yīng)對(duì)高并發(fā),讀多寫少抵拘,可以通過從庫哎榴、加緩存解決,不一定分庫分表僵蛛,讀少寫多尚蝌,寫入的QPS達(dá)到數(shù)據(jù)庫的瓶頸,考慮分庫分表
- 數(shù)據(jù)隔離
拆分維度的選擇
- 建立映射表:建立輔助維度和主維度之間的映射關(guān)系
問題:映射表本身也需要分庫分表墩瞳,即使不分庫分表驼壶,寫入一條訂單的數(shù)據(jù)也可能需要同時(shí)寫兩個(gè)庫,屬于分布式事務(wù)問題喉酌。對(duì)于這種問題热凹,通常也只能做一個(gè)后臺(tái)任務(wù)定時(shí)比對(duì),保證訂單表和映射表的數(shù)據(jù)最終一致泪电。 - 業(yè)務(wù)雙寫:同一份數(shù)據(jù)般妙,兩套分庫分表。例如相速,一套按照用戶ID切分碟渺,一套按商戶ID切分。
問題:同樣存在多個(gè)庫的分布式事務(wù)問題突诬。 - 異步雙寫:還是兩套表苫拍,只是業(yè)務(wù)單寫芜繁。然后通過監(jiān)聽Binlog。同步到另外一套表上绒极。
- 兩個(gè)維度統(tǒng)一到一個(gè)維度:比如把用戶ID作為訂單ID的某幾位骏令,這樣訂單ID中就包含了用戶ID的信息。
Join查詢問題
- 把Join拆成多個(gè)單表查詢垄提,不讓數(shù)據(jù)庫做Join榔袋,而是在代碼層對(duì)結(jié)果進(jìn)行拼接。非常常見铡俐,降低慢查詢的概率
- 做寬表凰兑,重寫輕讀,另外做join表审丘,提前把結(jié)果join好吏够。
- 利用搜索引擎,利用ES的搜索引擎备恤,把數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入搜索引擎中進(jìn)行查詢稿饰,從而解決join問題。
B+樹
- 范圍查詢
- 前綴匹配模糊查詢
- 排序和分頁
B+樹邏輯結(jié)構(gòu)
- 在葉子節(jié)點(diǎn)一層露泊,所有記錄的主鍵按照從小到大的順序排序喉镰,并且形成了一個(gè)雙向鏈表,葉子節(jié)點(diǎn)的每一個(gè)key指向一條記錄惭笑。
-
非葉子節(jié)點(diǎn)取得是葉子節(jié)點(diǎn)里面key的最小值侣姆。這意味著所有非葉子節(jié)點(diǎn)的key都是冗余的葉子節(jié)點(diǎn)。同一層的非葉子節(jié)點(diǎn)也互相串聯(lián)沉噩,形成了一個(gè)雙向鏈表捺宗。
基于B+樹的特性,會(huì)發(fā)現(xiàn)對(duì)于offet這種特性川蒙,其實(shí)是用不到索引的蚜厉。例如select xxx where xxx limit 1000,10,從offset=1000的位置開始取10條畜眨。雖然只取了10條昼牛,但實(shí)際上數(shù)據(jù)要把前面的1000條數(shù)據(jù)都遍歷才能知道offset=1000的位置在哪。合理的辦法是將offset的位置換算成某個(gè)max_id康聂,然后用where語句實(shí)現(xiàn)贰健,就變成select xxx wehere id>max_id limit 10;
B+樹物理結(jié)構(gòu)
對(duì)于磁盤,是以”塊“為單位進(jìn)行讀寫的恬汁。InnoDB默認(rèn)定義的塊大小是16KB伶椿,通過innodb_page_size參數(shù)指定。InnoDB每一次磁盤IO,讀取的都是16KB的整數(shù)倍的數(shù)據(jù)脊另。無論是葉子節(jié)點(diǎn)导狡,還是非葉子節(jié)點(diǎn),都會(huì)裝在page里偎痛。16KB如果用來裝非葉子節(jié)點(diǎn)烘豌,一個(gè)page大概可以裝1000個(gè)key,意味著B+樹有1000個(gè)分叉看彼;如果用來裝葉子節(jié)點(diǎn),一個(gè)Page大概可以裝200條記錄囚聚【搁牛基于這種估算,一個(gè)三層的B+樹可以存儲(chǔ)多少數(shù)據(jù)量呢顽铸?
第一層:一個(gè)節(jié)點(diǎn)是一個(gè)Page茁计,里面存放了1000個(gè)key,對(duì)應(yīng)1000個(gè)分叉
第二次:1000個(gè)節(jié)點(diǎn)1000page,每個(gè)page存放1000個(gè)key谓松,對(duì)應(yīng)10001000個(gè)分叉
第三層:10001000個(gè)節(jié)點(diǎn)星压,每個(gè)page存放200條記錄,即是10001000200=2億條記錄鬼譬,總?cè)萘渴?6KB10001000娜膘,約為16GB。
把第一層和第二層的索引全裝入內(nèi)存里优质,也就約16MB的內(nèi)存竣贪。三層B+樹就可以支撐2億條記錄,并且一次基于主鍵的等值查詢巩螃,只需要一次IO.
page與page之間組成雙向鏈表演怎,每一個(gè)page頭部有兩個(gè)關(guān)鍵字段;前一個(gè)page的編號(hào)避乏,后一個(gè)page的編號(hào)爷耀。page里面存儲(chǔ)一條條的記錄,記錄之間用單向鏈表串聯(lián)拍皮。定位到了page歹叮,也就定位到了Page里面的記錄。因?yàn)镻age會(huì)一次性讀入內(nèi)存春缕,同一個(gè)page里面的記錄可以在內(nèi)存中順序查找盗胀。
非主鍵索引
在InnoDB中,非主鍵索引的葉子節(jié)點(diǎn)存儲(chǔ)的不是記錄的指針锄贼,而是主鍵的值票灰。且值可以重復(fù),一個(gè)key可能對(duì)應(yīng)多條記錄。對(duì)于非葉子節(jié)點(diǎn)屑迂,不僅存儲(chǔ)了索引字段的值浸策,同時(shí)也存儲(chǔ)了對(duì)應(yīng)的主鍵的最小值。
事務(wù)與鎖
事務(wù)的四個(gè)隔離級(jí)別
悲觀鎖和樂觀鎖
悲觀鎖惹盼,就是認(rèn)為數(shù)據(jù)發(fā)生并發(fā)沖突的概率很大庸汗,所以讀之前就上鎖。利用select xxx for update語句手报。容易造成死鎖以及高并發(fā)場景下會(huì)造成用戶端的大量請(qǐng)求阻塞蚯舱。
樂觀鎖,認(rèn)為數(shù)據(jù)發(fā)生沖突的概率比較小掩蛤,所以讀之前不上鎖枉昏,等到寫回去的時(shí)候再判斷數(shù)據(jù)是否被其他事務(wù)改了。類似于cas揍鸟,給表結(jié)構(gòu)里加一列verson字段兄裂。在實(shí)現(xiàn)層面,就是利用update語句的原子性實(shí)現(xiàn)了cas阳藻。當(dāng)且僅當(dāng)version為期望值時(shí)晰奖,才更新成功。同時(shí)腥泥,version也必須加1.version的比較匾南,數(shù)據(jù)的更新,version的加1,這三件事情是在一條update語句里面完成的蛔外,這是整個(gè)事情的關(guān)鍵所在午衰。
分布式鎖
樂觀鎖的方案限制時(shí)select合update的是同一張表的同一條記錄。如果是更加復(fù)雜的場景冒萄,就需要使用分布式鎖來解決了臊岸。
死鎖檢測
以事務(wù)為頂點(diǎn),以事務(wù)請(qǐng)求的鎖為邊尊流,構(gòu)建一個(gè)有向圖帅戒,這個(gè)圖被稱為wait-for graph。死鎖檢測就是發(fā)現(xiàn)這種有向圖中存在的環(huán)崖技。檢測到死鎖后逻住,數(shù)據(jù)庫可以強(qiáng)制讓其中某個(gè)事務(wù)回滾,釋放掉鎖迎献,把環(huán)斷開瞎访,死鎖就解除了。
事務(wù)實(shí)現(xiàn)原理之1:Redo Log
Write-Ahead
一個(gè)事務(wù)要修改多張表的多條記錄吁恍,多條記錄分布在不同的page里面扒秸,對(duì)應(yīng)到磁盤的不同位置播演。如果每個(gè)事務(wù)都直接寫磁盤,一次事務(wù)提交就要多次磁盤的隨機(jī)IO伴奥,性能達(dá)不到要求写烤。解決方案:現(xiàn)在內(nèi)存中提交事務(wù),然后寫日志(所謂的write-ahead log)拾徙,然后后臺(tái)任務(wù)把內(nèi)存中的數(shù)據(jù)異步刷到磁盤洲炊。日志是順序地在尾部append,從而避免了一個(gè)事務(wù)發(fā)生多次磁盤隨機(jī)IO的問題尼啡。所謂的write-ahead log就是redo log暂衡。redo log寫入的本身也是異步的。在事務(wù)提交后崖瞭,redo log先寫入內(nèi)存中的redo log buffer中古徒,然后異步地刷到磁盤上的Redo Log。
redo log物理結(jié)構(gòu)
- 磁盤的讀取和寫入是按”塊“為單位進(jìn)行讀取和寫入读恃。對(duì)于redo log來說,就是redo log block代态,為512字節(jié)寺惫。在早期的磁盤,一個(gè)扇區(qū)就是存儲(chǔ)512個(gè)字節(jié)數(shù)據(jù)蹦疑。
- redo log為一個(gè)規(guī)定大小的文件西雀,循環(huán)使用,寫到尾部之后歉摧,回到頭部覆寫艇肴。之所以能覆寫,因?yàn)橐坏㏄age數(shù)據(jù)刷到磁盤上叁温,日志數(shù)據(jù)就沒有存在的必要了再悼。