MySQL中B+Tree索引原理(摘選)

B+樹索引是B+樹在數(shù)據(jù)庫(kù)中的一種實(shí)現(xiàn)痛倚,是最常見也是數(shù)據(jù)庫(kù)中使用最為頻繁的一種索引。B+樹中的B代表平衡(balance)棒动,而不是二叉(binary)恋博,因?yàn)锽+樹是從最早的平衡二叉樹演化而來的。在講B+樹之前必須先了解二叉查找樹涨冀、平衡二叉樹(AVLTree)和平衡多路查找樹(B-Tree)填硕,B+樹即由這些樹逐步優(yōu)化而來。

二叉查找樹

二叉樹具有以下性質(zhì):左子樹的鍵值小于根的鍵值鹿鳖,右子樹的鍵值大于根的鍵值扁眯。

如下圖所示就是一棵二叉查找樹,

對(duì)該二叉樹的節(jié)點(diǎn)進(jìn)行查找發(fā)現(xiàn)深度為1的節(jié)點(diǎn)的查找次數(shù)為1翅帜,深度為2的查找次數(shù)為2姻檀,深度為n的節(jié)點(diǎn)的查找次數(shù)為n,因此其平均查找次數(shù)為 (1+2+2+3+3+3) / 6 = 2.3次

二叉查找樹可以任意地構(gòu)造涝滴,同樣是2,3,5,6,7,8這六個(gè)數(shù)字绣版,也可以按照下圖的方式來構(gòu)造:

但是這棵二叉樹的查詢效率就低了。因此若想二叉樹的查詢效率盡可能高歼疮,需要這棵二叉樹是平衡的杂抽,從而引出新的定義——平衡二叉樹,或稱AVL樹韩脏。

平衡二叉樹(AVL Tree)

平衡二叉樹(AVL樹)在符合二叉查找樹的條件下缩麸,還滿足任何節(jié)點(diǎn)的兩個(gè)子樹的高度最大差為1。下面的兩張圖片赡矢,左邊是AVL樹杭朱,它的任何節(jié)點(diǎn)的兩個(gè)子樹的高度差<=1;右邊的不是AVL樹吹散,其根節(jié)點(diǎn)的左子樹高度為3痕檬,而右子樹高度為1;

如果在AVL樹中進(jìn)行插入或刪除節(jié)點(diǎn)送浊,可能導(dǎo)致AVL樹失去平衡梦谜,這種失去平衡的二叉樹可以概括為四種姿態(tài):LL(左左)、RR(右右)袭景、LR(左右)唁桩、RL(右左)。它們的示意圖如下:

這四種失去平衡的姿態(tài)都有各自的定義:

LL:LeftLeft耸棒,也稱“左左”荒澡。插入或刪除一個(gè)節(jié)點(diǎn)后,根節(jié)點(diǎn)的左孩子(Left Child)的左孩子(Left Child)還有非空節(jié)點(diǎn)与殃,導(dǎo)致根節(jié)點(diǎn)的左子樹高度比右子樹高度高2单山,AVL樹失去平衡碍现。

RR:RightRight重斑,也稱“右右”篱竭。插入或刪除一個(gè)節(jié)點(diǎn)后,根節(jié)點(diǎn)的右孩子(Right Child)的右孩子(Right Child)還有非空節(jié)點(diǎn)绑咱,導(dǎo)致根節(jié)點(diǎn)的右子樹高度比左子樹高度高2悴晰,AVL樹失去平衡慢睡。

LR:LeftRight,也稱“左右”铡溪。插入或刪除一個(gè)節(jié)點(diǎn)后漂辐,根節(jié)點(diǎn)的左孩子(Left Child)的右孩子(Right Child)還有非空節(jié)點(diǎn),導(dǎo)致根節(jié)點(diǎn)的左子樹高度比右子樹高度高2棕硫,AVL樹失去平衡髓涯。

RL:RightLeft,也稱“右左”哈扮。插入或刪除一個(gè)節(jié)點(diǎn)后复凳,根節(jié)點(diǎn)的右孩子(Right Child)的左孩子(Left Child)還有非空節(jié)點(diǎn),導(dǎo)致根節(jié)點(diǎn)的右子樹高度比左子樹高度高2灶泵,AVL樹失去平衡育八。

AVL樹失去平衡之后,可以通過旋轉(zhuǎn)使其恢復(fù)平衡赦邻。下面分別介紹四種失去平衡的情況下對(duì)應(yīng)的旋轉(zhuǎn)方法髓棋。

LL的旋轉(zhuǎn)。LL失去平衡的情況下惶洲,可以通過一次旋轉(zhuǎn)讓AVL樹恢復(fù)平衡按声。步驟如下:

將根節(jié)點(diǎn)的左孩子作為新根節(jié)點(diǎn)。

將新根節(jié)點(diǎn)的右孩子作為原根節(jié)點(diǎn)的左孩子恬吕。

將原根節(jié)點(diǎn)作為新根節(jié)點(diǎn)的右孩子签则。

LL旋轉(zhuǎn)示意圖如下:

RR的旋轉(zhuǎn):RR失去平衡的情況下,旋轉(zhuǎn)方法與LL旋轉(zhuǎn)對(duì)稱铐料,步驟如下:

將根節(jié)點(diǎn)的右孩子作為新根節(jié)點(diǎn)渐裂。

將新根節(jié)點(diǎn)的左孩子作為原根節(jié)點(diǎn)的右孩子。

將原根節(jié)點(diǎn)作為新根節(jié)點(diǎn)的左孩子钠惩。

RR旋轉(zhuǎn)示意圖如下:

LR的旋轉(zhuǎn):LR失去平衡的情況下柒凉,需要進(jìn)行兩次旋轉(zhuǎn),步驟如下:

圍繞根節(jié)點(diǎn)的左孩子進(jìn)行RR旋轉(zhuǎn)篓跛。

圍繞根節(jié)點(diǎn)進(jìn)行LL旋轉(zhuǎn)膝捞。

LR的旋轉(zhuǎn)示意圖如下:

RL的旋轉(zhuǎn):RL失去平衡的情況下也需要進(jìn)行兩次旋轉(zhuǎn),旋轉(zhuǎn)方法與LR旋轉(zhuǎn)對(duì)稱愧沟,步驟如下:

圍繞根節(jié)點(diǎn)的右孩子進(jìn)行LL旋轉(zhuǎn)蔬咬。

圍繞根節(jié)點(diǎn)進(jìn)行RR旋轉(zhuǎn)鲤遥。

RL的旋轉(zhuǎn)示意圖如下:

平衡多路查找樹(B-Tree)

B-Tree是為磁盤等外存儲(chǔ)設(shè)備設(shè)計(jì)的一種平衡查找樹。因此在講B-Tree之前先了解下磁盤的相關(guān)知識(shí)林艘。

系統(tǒng)從磁盤讀取數(shù)據(jù)到內(nèi)存時(shí)是以磁盤塊(block)為基本單位的盖奈,位于同一個(gè)磁盤塊中的數(shù)據(jù)會(huì)被一次性讀取出來,而不是需要什么取什么北启。

InnoDB存儲(chǔ)引擎中有頁(yè)(Page)的概念卜朗,頁(yè)是其磁盤管理的最小單位拔第。InnoDB存儲(chǔ)引擎中默認(rèn)每個(gè)頁(yè)的大小為16KB咕村,可通過參數(shù)innodb_page_size將頁(yè)的大小設(shè)置為4K、8K蚊俺、16K懈涛,在MySQL中可通過如下命令查看頁(yè)的大小:

mysql> show variableslike'innodb_page_size';

而系統(tǒng)一個(gè)磁盤塊的存儲(chǔ)空間往往沒有這么大泳猬,因此InnoDB每次申請(qǐng)磁盤空間時(shí)都會(huì)是若干地址連續(xù)磁盤塊來達(dá)到頁(yè)的大小16KB批钠。InnoDB在把磁盤數(shù)據(jù)讀入到磁盤時(shí)會(huì)以頁(yè)為基本單位,在查詢數(shù)據(jù)時(shí)如果一個(gè)頁(yè)中的每條數(shù)據(jù)都能有助于定位數(shù)據(jù)記錄的位置得封,這將會(huì)減少磁盤I/O次數(shù)埋心,提高查詢效率。

B-Tree結(jié)構(gòu)的數(shù)據(jù)可以讓系統(tǒng)高效的找到數(shù)據(jù)所在的磁盤塊忙上。為了描述B-Tree拷呆,首先定義一條記錄為一個(gè)二元組[key, data] ,key為記錄的鍵值疫粥,對(duì)應(yīng)表中的主鍵值茬斧,data為一行記錄中除主鍵外的數(shù)據(jù)。對(duì)于不同的記錄梗逮,key值互不相同项秉。

一棵m階的B-Tree有如下特性:

1. 每個(gè)節(jié)點(diǎn)最多有m個(gè)孩子。

2. 除了根節(jié)點(diǎn)和葉子節(jié)點(diǎn)外慷彤,其它每個(gè)節(jié)點(diǎn)至少有Ceil(m/2)個(gè)孩子娄蔼。

3. 若根節(jié)點(diǎn)不是葉子節(jié)點(diǎn),則至少有2個(gè)孩子

4. 所有葉子節(jié)點(diǎn)都在同一層底哗,且不包含其它關(guān)鍵字信息

5. 每個(gè)非終端節(jié)點(diǎn)包含n個(gè)關(guān)鍵字信息(P0,P1,…Pn, k1,…kn)

6. 關(guān)鍵字的個(gè)數(shù)n滿足:ceil(m/2)-1 <= n <= m-1

7. ki(i=1,…n)為關(guān)鍵字贷屎,且關(guān)鍵字升序排序。

8. Pi(i=1,…n)為指向子樹根節(jié)點(diǎn)的指針艘虎。P(i-1)指向的子樹的所有節(jié)點(diǎn)關(guān)鍵字均小于ki唉侄,但都大于k(i-1)

B-Tree中的每個(gè)節(jié)點(diǎn)根據(jù)實(shí)際情況可以包含大量的關(guān)鍵字信息和分支,如下圖所示為一個(gè)3階的B-Tree:

每個(gè)節(jié)點(diǎn)占用一個(gè)盤塊的磁盤空間野建,一個(gè)節(jié)點(diǎn)上有兩個(gè)升序排序的關(guān)鍵字和三個(gè)指向子樹根節(jié)點(diǎn)的指針属划,指針存儲(chǔ)的是子節(jié)點(diǎn)所在磁盤塊的地址恬叹。兩個(gè)關(guān)鍵詞劃分成的三個(gè)范圍域?qū)?yīng)三個(gè)指針指向的子樹的數(shù)據(jù)的范圍域。以根節(jié)點(diǎn)為例同眯,關(guān)鍵字為17和35绽昼,P1指針指向的子樹的數(shù)據(jù)范圍為小于17,P2指針指向的子樹的數(shù)據(jù)范圍為17~35须蜗,P3指針指向的子樹的數(shù)據(jù)范圍為大于35硅确。

模擬查找關(guān)鍵字29的過程:

根據(jù)根節(jié)點(diǎn)找到磁盤塊1,讀入內(nèi)存明肮×馀【磁盤I/O操作第1次】

比較關(guān)鍵字29在區(qū)間(17,35),找到磁盤塊1的指針P2柿估。

根據(jù)P2指針找到磁盤塊3循未,讀入內(nèi)存★啵【磁盤I/O操作第2次】

比較關(guān)鍵字29在區(qū)間(26,30)的妖,找到磁盤塊3的指針P2。

根據(jù)P2指針找到磁盤塊8足陨,讀入內(nèi)存嫂粟。【磁盤I/O操作第3次】

在磁盤塊8中的關(guān)鍵字列表中找到關(guān)鍵字29墨缘。

分析上面過程星虹,發(fā)現(xiàn)需要3次磁盤I/O操作,和3次內(nèi)存查找操作飒房。由于內(nèi)存中的關(guān)鍵字是一個(gè)有序表結(jié)構(gòu)搁凸,可以利用二分法查找提高效率。而3次磁盤I/O操作是影響整個(gè)B-Tree查找效率的決定因素狠毯。B-Tree相對(duì)于AVLTree縮減了節(jié)點(diǎn)個(gè)數(shù)护糖,使每次磁盤I/O取到內(nèi)存的數(shù)據(jù)都發(fā)揮了作用,從而提高了查詢效率嚼松。

B+Tree

B+Tree是在B-Tree基礎(chǔ)上的一種優(yōu)化嫡良,使其更適合實(shí)現(xiàn)外存儲(chǔ)索引結(jié)構(gòu),InnoDB存儲(chǔ)引擎就是用B+Tree實(shí)現(xiàn)其索引結(jié)構(gòu)献酗。

從上一節(jié)中的B-Tree結(jié)構(gòu)圖中可以看到每個(gè)節(jié)點(diǎn)中不僅包含數(shù)據(jù)的key值寝受,還有data值。而每一個(gè)頁(yè)的存儲(chǔ)空間是有限的罕偎,如果data數(shù)據(jù)較大時(shí)將會(huì)導(dǎo)致每個(gè)節(jié)點(diǎn)(即一個(gè)頁(yè))能存儲(chǔ)的key的數(shù)量很小很澄,當(dāng)存儲(chǔ)的數(shù)據(jù)量很大時(shí)同樣會(huì)導(dǎo)致B-Tree的深度較大,增大查詢時(shí)的磁盤I/O次數(shù),進(jìn)而影響查詢效率甩苛。在B+Tree中蹂楣,所有數(shù)據(jù)記錄節(jié)點(diǎn)都是按照鍵值大小順序存放在同一層的葉子節(jié)點(diǎn)上,而非葉子節(jié)點(diǎn)上只存儲(chǔ)key值信息讯蒲,這樣可以大大加大每個(gè)節(jié)點(diǎn)存儲(chǔ)的key值數(shù)量痊土,降低B+Tree的高度。

B+Tree相對(duì)于B-Tree有幾點(diǎn)不同:

非葉子節(jié)點(diǎn)只存儲(chǔ)鍵值信息墨林。

所有葉子節(jié)點(diǎn)之間都有一個(gè)鏈指針赁酝。

數(shù)據(jù)記錄都存放在葉子節(jié)點(diǎn)中。

將上一節(jié)中的B-Tree優(yōu)化旭等,由于B+Tree的非葉子節(jié)點(diǎn)只存儲(chǔ)鍵值信息酌呆,假設(shè)每個(gè)磁盤塊能存儲(chǔ)4個(gè)鍵值及指針信息,則變成B+Tree后其結(jié)構(gòu)如下圖所示:

通常在B+Tree上有兩個(gè)頭指針辆雾,一個(gè)指向根節(jié)點(diǎn)肪笋,另一個(gè)指向關(guān)鍵字最小的葉子節(jié)點(diǎn)月劈,而且所有葉子節(jié)點(diǎn)(即數(shù)據(jù)節(jié)點(diǎn))之間是一種鏈?zhǔn)江h(huán)結(jié)構(gòu)度迂。因此可以對(duì)B+Tree進(jìn)行兩種查找運(yùn)算:一種是對(duì)于主鍵的范圍查找和分頁(yè)查找,另一種是從根節(jié)點(diǎn)開始猜揪,進(jìn)行隨機(jī)查找惭墓。

可能上面例子中只有22條數(shù)據(jù)記錄,看不出B+Tree的優(yōu)點(diǎn)而姐,下面做一個(gè)推算:

InnoDB存儲(chǔ)引擎中頁(yè)的大小為16KB腊凶,一般表的主鍵類型為INT(占用4個(gè)字節(jié))或BIGINT(占用8個(gè)字節(jié)),指針類型也一般為4或8個(gè)字節(jié)拴念,也就是說一個(gè)頁(yè)(B+Tree中的一個(gè)節(jié)點(diǎn))中大概存儲(chǔ)16KB/(8B+8B)=1K個(gè)鍵值(因?yàn)槭枪乐稻迹瑸榉奖阌?jì)算,這里的K取值為〖10〗^3)政鼠。也就是說一個(gè)深度為3的B+Tree索引可以維護(hù)10^3 * 10^3 * 10^3 = 10億 條記錄风瘦。

實(shí)際情況中每個(gè)節(jié)點(diǎn)可能不能填充滿,因此在數(shù)據(jù)庫(kù)中公般,B+Tree的高度一般都在2~4層万搔。mysql的InnoDB存儲(chǔ)引擎在設(shè)計(jì)時(shí)是將根節(jié)點(diǎn)常駐內(nèi)存的,也就是說查找某一鍵值的行記錄時(shí)最多只需要1~3次磁盤I/O操作官帘。

數(shù)據(jù)庫(kù)中的B+Tree索引可以分為聚集索引(clustered index)和輔助索引(secondary index)瞬雹。上面的B+Tree示例圖在數(shù)據(jù)庫(kù)中的實(shí)現(xiàn)即為聚集索引,聚集索引的B+Tree中的葉子節(jié)點(diǎn)存放的是整張表的行記錄數(shù)據(jù)刽虹。輔助索引與聚集索引的區(qū)別在于輔助索引的葉子節(jié)點(diǎn)并不包含行記錄的全部數(shù)據(jù)酗捌,而是存儲(chǔ)相應(yīng)行數(shù)據(jù)的聚集索引鍵,即主鍵。當(dāng)通過輔助索引來查詢數(shù)據(jù)時(shí)胖缤,InnoDB存儲(chǔ)引擎會(huì)遍歷輔助索引找到主鍵馅巷,然后再通過主鍵在聚集索引中找到完整的行記錄數(shù)據(jù)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末草姻,一起剝皮案震驚了整個(gè)濱河市钓猬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌撩独,老刑警劉巖敞曹,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異综膀,居然都是意外死亡澳迫,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門剧劝,熙熙樓的掌柜王于貴愁眉苦臉地迎上來橄登,“玉大人,你說我怎么就攤上這事讥此÷G拢” “怎么了?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵萄喳,是天一觀的道長(zhǎng)卒稳。 經(jīng)常有香客問我,道長(zhǎng)他巨,這世上最難降的妖魔是什么充坑? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮染突,結(jié)果婚禮上捻爷,老公的妹妹穿的比我還像新娘。我一直安慰自己份企,他們只是感情好也榄,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著薪棒,像睡著了一般手蝎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上俐芯,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天棵介,我揣著相機(jī)與錄音,去河邊找鬼吧史。 笑死邮辽,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播吨述,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼岩睁,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了揣云?” 一聲冷哼從身側(cè)響起捕儒,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎邓夕,沒想到半個(gè)月后刘莹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡焚刚,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年点弯,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矿咕。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡抢肛,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出碳柱,到底是詐尸還是另有隱情捡絮,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布士聪,位于F島的核電站锦援,受9級(jí)特大地震影響猛蔽,放射性物質(zhì)發(fā)生泄漏剥悟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一曼库、第九天 我趴在偏房一處隱蔽的房頂上張望区岗。 院中可真熱鬧,春花似錦毁枯、人聲如沸慈缔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)藐鹤。三九已至,卻和暖如春赂韵,著一層夾襖步出監(jiān)牢的瞬間娱节,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工祭示, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留肄满,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像稠歉,于是被迫代替她去往敵國(guó)和親掰担。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • http://blog.csdn.net/u013235478/article/details/50625677 ...
    sherlock_6981閱讀 314評(píng)論 0 1
  • 1.什么是索引怒炸? 索引:加速查詢的數(shù)據(jù)結(jié)構(gòu)带饱。 2.索引常見數(shù)據(jù)結(jié)構(gòu): #1.順序查找: 最基本的查詢算法-復(fù)雜度O...
    極簡(jiǎn)架構(gòu)閱讀 40,758評(píng)論 16 96
  • B樹的定義 一棵m階的B樹滿足下列條件: 樹中每個(gè)結(jié)點(diǎn)至多有m個(gè)孩子。 除根結(jié)點(diǎn)和葉子結(jié)點(diǎn)外阅羹,其它每個(gè)結(jié)點(diǎn)至少有m...
    文檔隨手記閱讀 13,183評(píng)論 0 25
  • 二叉搜索樹问潭,平衡樹猿诸,B,b-狡忙,b+,b*,紅黑樹 二叉搜索樹 ? 1.所有非葉子結(jié)點(diǎn)至多擁有兩個(gè)兒子(Le...
    raincoffee閱讀 3,854評(píng)論 3 18
  • 貴還丑還難次梳虽。 就是什么味道都不咋滴,而且辣鍋很嗆灾茁。
    菠00閱讀 214評(píng)論 0 0