在后端開發(fā)的工作中如何輕松绣否、高效地設計大量數(shù)據(jù)庫索引呢誊涯?通過下面這四步,20分鐘后你就再也不會為數(shù)據(jù)庫的索引設計而發(fā)愁了蒜撮。
順暢地閱讀這篇文章需要了解數(shù)據(jù)庫索引的組織方式暴构,如果你還不熟悉的話,可以通過另一篇文章來快速了解一下——數(shù)據(jù)庫索引融會貫通淀弹。
這篇文章是一系列數(shù)據(jù)庫索引文章中的第三篇丹壕,這個系列包括了下面四篇文章:
- 數(shù)據(jù)庫索引是什么?新華字典來幫你 —— 理解
- 數(shù)據(jù)庫索引融會貫通 —— 深入
- 20分鐘數(shù)據(jù)庫索引設計實戰(zhàn) —— 實戰(zhàn)
- 數(shù)據(jù)庫索引為什么用B+樹實現(xiàn)薇溃? —— 擴展
這一系列涵蓋了數(shù)據(jù)庫索引從理論到實踐的一系列知識菌赖,一站式解決了從理解到融會貫通的全過程,相信每一篇文章都可以給你帶來更深入的體驗沐序。
1. 整理查詢條件
我們設計索引的目的主要是為了加快查詢琉用,所以堕绩,設計索引的第一步是整理需要用到的查詢條件,也就是我們會在where
子句邑时、join
連接條件中使用的字段奴紧。一般來說會整理程序中除了insert語句之外的所有SQL語句,按不同的表分別整理出每張表上的查詢條件晶丘。也可以根據(jù)對業(yè)務的理解添加一些暫時還沒有使用到的查詢條件黍氮。
對索引的設計一般會逐表進行,所以按數(shù)據(jù)表收集查詢條件可以方便后面步驟的執(zhí)行浅浮。
2. 分析字段的可選擇性
整理出所有查詢條件之后沫浆,我們需要分析出每個字段的可選擇性,那么什么是可選擇性呢滚秩?
字段的可選擇性指的就是字段的值的區(qū)分度专执,例如一張表中保存了用戶的手機號、性別郁油、姓名本股、年齡這幾個字段,且一個手機號只能注冊一個用戶桐腌。在這種情況下拄显,像手機號這種唯一的字段就是可選擇性最高的一種情況;而年齡雖然有幾十種可能哩掺,但是區(qū)分度就沒有手機號那么大了凿叠;性別這樣的字段則只有幾種可能涩笤,所以可選擇性最差嚼吞。所以俺可選擇性從高到低排列就是:手機號 > 年齡 > 性別。
但是不同字段的值分布是不同的蹬碧,有一些值的數(shù)量是大致均勻的舱禽,例如性別為男和女的值數(shù)量可能就差別不大,但是像年齡超過100歲這樣的記錄就非常少了恩沽。所以對于年齡這個字段誊稚,20-30這樣的值就是可選擇性很小的,因為每一個年齡都有非常多的記錄罗心;但是像100這樣的值里伯,那它的可選擇性就非常高了。
如果我們在表中添加了一個字段表示用戶是否是管理員渤闷,那么在查詢網(wǎng)站的管理員信息列表時疾瓮,這個字段的可選擇性就非常高。但是如果我們要查詢的是非管理員信息列表時飒箭,這個字段的可選擇性就非常低了狼电。
從經(jīng)驗上來說蜒灰,我們會把可選擇性高的字段放到前面,可選擇性低的字段放在后面肩碟,如果可選擇性非常低强窖,一般不會把這樣的字段放到索引里。
3. 合并查詢條件
雖然索引可以加快查詢的效率削祈,但是索引越多就會導致插入和更新數(shù)據(jù)的成本變高翅溺,因為索引是分開存儲的,所有數(shù)據(jù)的插入和更新操作都要對相關的索引進行修改髓抑。所以設計索引時還需要控制索引的數(shù)量未巫,不能盲目地增加索引。
一般我們會根據(jù)最左匹配原則來合并查詢條件启昧,盡可能讓不同的查詢條件使用同一個索引叙凡。例如有兩個查詢條件where a = 1 and b = 1
和where b = 1
,那么我們就可以創(chuàng)建一個索引idx_eg(b, a)
來同時服務兩個查詢條件密末。
同時握爷,因為范圍條件會終止使用索引中后續(xù)的字段,所以對于使用范圍條件查詢的字段我們也會盡可能放在索引的后面严里。
4. 考慮是否需要使用全覆蓋索引
最后新啼,我們會考慮是否需要使用全覆蓋索引,因為全覆蓋索引沒有回表的開銷刹碾,效率會更高燥撞。所以一般我們會在回表成本特別高的情況下考慮是否使用全覆蓋索引,例如根據(jù)索引字段篩選后的結果需要返回其他字段或者使用其他字段做進一步篩選的情況迷帜。
例如物舒,我們有一張用戶表,其中有年齡戏锹、姓名冠胯、手機號三個字段。我們需要查詢在指定年齡的所有用戶的姓名锦针,已有索引idx_age_name(年齡, 姓名)
荠察,目前我們使用下面這樣的查詢語句進行查詢:
SELECT *
FROM 用戶表
WHERE 年齡 = ?;
一般情況下,將一個索引優(yōu)化為全覆蓋索引有兩種方式:
- 增加索引中的字段奈搜,讓索引字段覆蓋SQL語句中使用的所有字段
- 在這個例子中悉盆,我們可以創(chuàng)建一個同時包含所有字段的索引
idx_all(年齡, 姓名, 手機號)
,以此提高查詢的效率馋吗。
- 在這個例子中悉盆,我們可以創(chuàng)建一個同時包含所有字段的索引
- 減少SQL語句中使用的字段焕盟,使SQL需要的字段都包含在現(xiàn)有索引中
- 在這個例子中,其實更好的方法是將
SELECT
子句修改為SELECT 姓名
耗美,因為我們的需求只是查詢用戶的姓名京髓,并不需要手機號字段航缀,去掉SELECT
子句多余的字段不僅能夠滿足我們的需求,而且也不用對索引做修改堰怨。
- 在這個例子中,其實更好的方法是將