聚簇索引
數(shù)據(jù)庫(kù)表的索引從數(shù)據(jù)存儲(chǔ)方式上可以分為聚簇索引和非聚簇索引(又叫二級(jí)索引)兩種攒岛。
存儲(chǔ)引擎Innodb中的聚簇索引在同一個(gè)B+-Tree中保存了索引和數(shù)據(jù)行够坐,在聚簇索引中,實(shí)際的數(shù)據(jù)保存在葉子頁(yè)中架谎,中間的節(jié)點(diǎn)頁(yè)保存指向下一層節(jié)點(diǎn)頁(yè)(也可能是葉子葉)的指針。“聚簇”的意思是數(shù)據(jù)行被按照一定順序一個(gè)個(gè)緊密地排列在一起存儲(chǔ)遮晚。一個(gè)表只能有一個(gè)聚簇索引,因?yàn)樵谝粋€(gè)表中數(shù)據(jù)的存放方式只有一種迫悠。
一般來(lái)說鹏漆,將通過主鍵作為聚簇索引的索引列,也就是通過主鍵聚集數(shù)據(jù)创泄。下圖展示了Innodb中聚簇索引的結(jié)構(gòu)(圖片來(lái)自《高性能MySQL(第三版)》):
聚簇索引的結(jié)構(gòu)
這里要特別注意‘頁(yè)’的概念艺玲,一個(gè)頁(yè)可以理解為一塊具有一定大小的連續(xù)的存儲(chǔ)區(qū)域。相同頁(yè)內(nèi)的數(shù)據(jù)行在物理上是相鄰的鞠抑,因此邏輯上鍵值相鄰的頁(yè)在物理上可能相隔很遠(yuǎn)饭聚。
在中間的某個(gè)節(jié)點(diǎn)頁(yè)中,主鍵<11的葉子頁(yè)和11<主鍵<21的葉子頁(yè)分別被兩個(gè)指針?biāo)赶蚋樽荆抑麈I<11的葉子頁(yè)也有一個(gè)指針指向了11<主鍵<21的葉子頁(yè)秒梳,其余頁(yè)之間的關(guān)系也是一樣。
聚簇索引的優(yōu)點(diǎn)
- 聚簇索引將索引和數(shù)據(jù)行保存在同一個(gè)B+-Tree中箕速,查詢通過聚簇索引可以直接獲取數(shù)據(jù)酪碘,相比非聚簇索引需要第二次查詢(非覆蓋索引的情況下)效率要高。
- 聚簇索引對(duì)于范圍查詢的效率很高盐茎,因?yàn)槠鋽?shù)據(jù)是按照大小排列的兴垦,
聚簇索引的缺點(diǎn)
- 聚簇索引的更新代價(jià)比較高,如果更新了行的聚簇索引列字柠,就需要將數(shù)據(jù)移動(dòng)到相應(yīng)的位置探越。這可能因?yàn)橐迦氲捻?yè)已滿而導(dǎo)致“頁(yè)分裂”。
- 插入速度嚴(yán)重依賴于插入順序窑业,按照主鍵進(jìn)行插入的速度是加載數(shù)據(jù)到Innodb中的最快方式钦幔。如果不是按照主鍵插入,最好在加載完成后使用
OPTIMIZE TABLE
命令重新組織一下表常柄。 - 聚簇索引在插入新行和更新主鍵時(shí)鲤氢,可能導(dǎo)致“頁(yè)分裂”問題。
- 聚簇索引可能導(dǎo)致全表掃描速度變慢西潘,因?yàn)榭赡苄枰虞d物理上相隔較遠(yuǎn)的頁(yè)到內(nèi)存中(需要耗時(shí)的磁盤尋道操作)铜异。
非聚簇索引
非聚簇索引,又叫二級(jí)索引秸架。Innodb中二級(jí)索引的葉子節(jié)點(diǎn)中保存的不是指向行的物理指針(MyISAM又不一樣揍庄,它的二級(jí)索引葉子節(jié)點(diǎn)存儲(chǔ)的是物理指針),而是行的主鍵值东抹。當(dāng)通過二級(jí)索引查找行蚂子,存儲(chǔ)引擎需要在二級(jí)索引中找到相應(yīng)的葉子節(jié)點(diǎn)沃测,獲得行的主鍵值,然后使用主鍵去聚簇索引中查找數(shù)據(jù)行食茎,這需要兩次B+-Tree查找蒂破。
好處很明顯就是在數(shù)據(jù)爺裂開數(shù)據(jù)存儲(chǔ)位置發(fā)生改變時(shí)不用維護(hù)數(shù)據(jù)物理指針的變化了。缺點(diǎn)也是有的多了一次B+Tree的查詢(根據(jù)主鍵在聚簇索引查詢出主鍵所在的葉子頁(yè))别渔。
總結(jié)
下面是Innodb聚簇索引和非聚簇索引的示意圖(圖片來(lái)自《高性能MySQL(第三版)》:
Innodb聚簇索引和非聚簇索引