1. 概述
這一章主要講到了幾種索引的常見模型,InnoDB的索引模型枪蘑,主鍵索引和非主鍵索引,頁分裂和頁合并照捡。以及使用自增主鍵和使用業(yè)務(wù)邏輯字段做主鍵的應(yīng)用場景话侧。
2. 總結(jié)
2.1 什么是索引或者索引的作用
索引的出現(xiàn)其實(shí)就是為了提高數(shù)據(jù)查詢的效率,就像書的目錄一樣
2.3 索引的常見模型
- 哈希表:key-value鍵值對悲立,多個(gè)相同的key存儲需要拉出一個(gè)鏈表新博。這種結(jié)構(gòu)適用于只有等值查詢的場景,比如 Memcached 及其他一些 NoSQL 引擎赫悄。
- 有序數(shù)組:在等值查詢和范圍查詢場景中的性能就都非常優(yōu)秀。但是在往中間插入一個(gè)數(shù)據(jù)就必須得挪動后面所有的記錄姑隅,成本太高倔撞。這種結(jié)構(gòu)只適用于靜態(tài)存儲引擎,比如你要保存的是 2017 年某個(gè)城市的所有人口信息痪蝇,這類不會再修改的數(shù)據(jù)。
- 二叉搜索樹:父節(jié)點(diǎn)左子樹所有結(jié)點(diǎn)的值小于父節(jié)點(diǎn)的值柔吼,右子樹所有結(jié)點(diǎn)的值大于父節(jié)點(diǎn)的值。但是實(shí)際上大多數(shù)的數(shù)據(jù)庫存儲卻并不使用二叉樹觅玻,是因?yàn)樗饕恢勾嬖趦?nèi)存中培漏,還要寫到磁盤上。如果使用二叉樹來存儲牌柄,樹的層高會很高,一個(gè)查詢會訪問多個(gè)數(shù)據(jù)塊蹋宦,效率很低咒锻。
2.3 在 InnoDB 中,表都是根據(jù)主鍵順序以索引的形式存放的蒿辙,這種存儲方式的表稱為索引組織表
2.4 InnoDB 使用了 B+ 樹索引模型滨巴,所以數(shù)據(jù)都是存儲在 B+ 樹中的
2.5 索引類型分為主鍵索引和非主鍵索引
- 主鍵索引的葉子節(jié)點(diǎn)內(nèi)容是整行數(shù)據(jù)。在 InnoDB 中恭取,主鍵索引也被稱聚簇索引。
- 非主鍵索引的葉子節(jié)點(diǎn)內(nèi)容是主鍵的值甜奄。在 InnoDB 里窃款,非主鍵索引也被稱為二級索引、非聚簇索引晨继。
2.6 普通索引查詢,需要先搜索普通索引樹找到對應(yīng)主鍵索引蜒茄,再搜索主鍵索引樹,這個(gè)過程稱為回表玩祟。
非主鍵索引的查詢需要多掃描一棵索引樹屿聋,所以應(yīng)用中建議盡量使用主鍵查詢
2.7 B+ 樹為了維護(hù)索引有序性,在插入新值的時(shí)候需要做必要的維護(hù)
- 插入一個(gè)新值润讥,如果所在數(shù)據(jù)頁已經(jīng)滿了楚殿,根據(jù) B+ 樹的算法,這時(shí)候需要申請一個(gè)新的數(shù)據(jù)頁脆粥,然后挪動部分?jǐn)?shù)據(jù)過去。這個(gè)過程稱為頁分裂。在這種情況下常潮,性能自然會受影響。而且頁分裂操作還影響數(shù)據(jù)頁的利用率孵户,整體空間利用率降低大約 50%
- 當(dāng)相鄰兩個(gè)頁由于刪除了數(shù)據(jù)岔留,利用率很低之后,會將數(shù)據(jù)頁做合并竖配。合并的過程里逆,可以認(rèn)為是分裂過程的逆過程。
2.8 基于上面提到的頁分裂和頁合并的問題原押,自增主鍵的插入數(shù)據(jù)模式,從性能和存儲空間方面考量都是更加合理的盯漂。但是在典型的KV場景,即只有一個(gè)索引且該索引必須是唯一索引的情況下帖渠,使用業(yè)務(wù)邏輯數(shù)據(jù)作為主鍵索引更加合理违崇,能夠避免回表,減少一次索引樹的搜索過程羞延。
2.9 思考題:通過兩個(gè) alter 語句重建索引 k,以及通過兩個(gè) alter 語句重建主鍵索引是否合理
重建索引 k 的做法是合理的入愧,可以達(dá)到省空間的目的嗤谚。但是,重建主鍵的過程不合理巩步。不論是刪除主鍵還是創(chuàng)建主鍵椅野,都會將整個(gè)表重建。所以連著執(zhí)行這兩個(gè)語句的話竟闪,第一個(gè)語句就白做了。這兩個(gè)語句妖爷,你可以用這個(gè)語句代替 : alter table T engine=InnoDB理朋。