<轉(zhuǎn)>MySQL優(yōu)化

原文鏈接：http://www.reibang.com/p/d7665192aaaf

說起MySQL的查詢優(yōu)化蛹锰，相信大家收藏了一堆奇技淫巧：不能使用SELECT *、不使用NULL字段、合理創(chuàng)建索引、為字段選擇合適的數(shù)據(jù)類型..... 你是否真的理解這些優(yōu)化技巧喝噪？是否理解其背后的工作原理？在實(shí)際場(chǎng)景下性能真有提升嗎指么？我想未必酝惧。因而理解這些優(yōu)化建議背后的原理就尤為重要，希望本文能讓你重新審視這些優(yōu)化建議伯诬，并在實(shí)際業(yè)務(wù)場(chǎng)景下合理的運(yùn)用晚唇。

MySQL邏輯架構(gòu)

如果能在頭腦中構(gòu)建一幅MySQL各組件之間如何協(xié)同工作的架構(gòu)圖，有助于深入理解MySQL服務(wù)器盗似。下圖展示了MySQL的邏輯架構(gòu)圖哩陕。

image

MySQL邏輯架構(gòu)整體分為三層，最上層為客戶端層赫舒，并非MySQL所獨(dú)有悍及，諸如：連接處理、授權(quán)認(rèn)證接癌、安全等功能均在這一層處理心赶。

MySQL大多數(shù)核心服務(wù)均在中間這一層，包括查詢解析缺猛、分析缨叫、優(yōu)化、緩存枯夜、內(nèi)置函數(shù)(比如：時(shí)間弯汰、數(shù)學(xué)艰山、加密等函數(shù))湖雹。所有的跨存儲(chǔ)引擎的功能也在這一層實(shí)現(xiàn)：存儲(chǔ)過程、觸發(fā)器曙搬、視圖等摔吏。

最下層為存儲(chǔ)引擎鸽嫂，其負(fù)責(zé)MySQL中的數(shù)據(jù)存儲(chǔ)和提取。和Linux下的文件系統(tǒng)類似征讲，每種存儲(chǔ)引擎都有其優(yōu)勢(shì)和劣勢(shì)据某。中間的服務(wù)層通過API與存儲(chǔ)引擎通信，這些API接口屏蔽了不同存儲(chǔ)引擎間的差異诗箍。

MySQL查詢過程

我們總是希望MySQL能夠獲得更高的查詢性能癣籽，最好的辦法是弄清楚MySQL是如何優(yōu)化和執(zhí)行查詢的。一旦理解了這一點(diǎn)滤祖，就會(huì)發(fā)現(xiàn)：很多的查詢優(yōu)化工作實(shí)際上就是遵循一些原則讓MySQL的優(yōu)化器能夠按照預(yù)想的合理方式運(yùn)行而已筷狼。

當(dāng)向MySQL發(fā)送一個(gè)請(qǐng)求的時(shí)候，MySQL到底做了些什么呢匠童？

image

客戶端/服務(wù)端通信協(xié)議

MySQL客戶端/服務(wù)端通信協(xié)議是“半雙工”的：在任一時(shí)刻埂材，要么是服務(wù)器向客戶端發(fā)送數(shù)據(jù)，要么是客戶端向服務(wù)器發(fā)送數(shù)據(jù)汤求，這兩個(gè)動(dòng)作不能同時(shí)發(fā)生俏险。一旦一端開始發(fā)送消息，另一端要接收完整個(gè)消息才能響應(yīng)它扬绪，所以我們無法也無須將一個(gè)消息切成小塊獨(dú)立發(fā)送竖独，也沒有辦法進(jìn)行流量控制。

客戶端用一個(gè)單獨(dú)的數(shù)據(jù)包將查詢請(qǐng)求發(fā)送給服務(wù)器挤牛，所以當(dāng)查詢語句很長(zhǎng)的時(shí)候预鬓，需要設(shè)置max_allowed_packet參數(shù)。但是需要注意的是赊颠，如果查詢實(shí)在是太大格二，服務(wù)端會(huì)拒絕接收更多數(shù)據(jù)并拋出異常。

與之相反的是竣蹦，服務(wù)器響應(yīng)給用戶的數(shù)據(jù)通常會(huì)很多顶猜，由多個(gè)數(shù)據(jù)包組成。但是當(dāng)服務(wù)器響應(yīng)客戶端請(qǐng)求時(shí)痘括，客戶端必須完整的接收整個(gè)返回結(jié)果长窄，而不能簡(jiǎn)單的只取前面幾條結(jié)果，然后讓服務(wù)器停止發(fā)送纲菌。因而在實(shí)際開發(fā)中挠日，盡量保持查詢簡(jiǎn)單且只返回必需的數(shù)據(jù)，減小通信間數(shù)據(jù)包的大小和數(shù)量是一個(gè)非常好的習(xí)慣翰舌，這也是查詢中盡量避免使用SELECT *以及加上LIMIT限制的原因之一嚣潜。

查詢緩存

在解析一個(gè)查詢語句前，如果查詢緩存是打開的椅贱，那么MySQL會(huì)檢查這個(gè)查詢語句是否命中查詢緩存中的數(shù)據(jù)懂算。如果當(dāng)前查詢恰好命中查詢緩存只冻，在檢查一次用戶權(quán)限后直接返回緩存中的結(jié)果。這種情況下计技，查詢不會(huì)被解析喜德，也不會(huì)生成執(zhí)行計(jì)劃，更不會(huì)執(zhí)行垮媒。

MySQL將緩存存放在一個(gè)引用表（不要理解成table舍悯，可以認(rèn)為是類似于HashMap的數(shù)據(jù)結(jié)構(gòu)），通過一個(gè)哈希值索引睡雇，這個(gè)哈希值通過查詢本身贱呐、當(dāng)前要查詢的數(shù)據(jù)庫(kù)、客戶端協(xié)議版本號(hào)等一些可能影響結(jié)果的信息計(jì)算得來入桂。所以兩個(gè)查詢?cè)谌魏巫址系牟煌ɡ纾嚎崭裱俎薄⒆⑨專紩?huì)導(dǎo)致緩存不會(huì)命中抗愁。

如果查詢中包含任何用戶自定義函數(shù)馁蒂、存儲(chǔ)函數(shù)、用戶變量蜘腌、臨時(shí)表沫屡、mysql庫(kù)中的系統(tǒng)表，其查詢結(jié)果
都不會(huì)被緩存撮珠。比如函數(shù)NOW()或者CURRENT_DATE()會(huì)因?yàn)椴煌牟樵儠r(shí)間沮脖，返回不同的查詢結(jié)果，再比如包含CURRENT_USER或者CONNECION_ID()的查詢語句會(huì)因?yàn)椴煌挠脩舳祷夭煌慕Y(jié)果芯急，將這樣的查詢結(jié)果緩存起來沒有任何的意義勺届。

既然是緩存，就會(huì)失效娶耍，那查詢緩存何時(shí)失效呢免姿？MySQL的查詢緩存系統(tǒng)會(huì)跟蹤查詢中涉及的每個(gè)表，如果這些表（數(shù)據(jù)或結(jié)構(gòu)）發(fā)生變化榕酒，那么和這張表相關(guān)的所有緩存數(shù)據(jù)都將失效胚膊。正因?yàn)槿绱耍谌魏蔚膶懖僮鲿r(shí)想鹰，MySQL必須將對(duì)應(yīng)表的所有緩存都設(shè)置為失效紊婉。如果查詢緩存非常大或者碎片很多，這個(gè)操作就可能帶來很大的系統(tǒng)消耗辑舷，甚至導(dǎo)致系統(tǒng)僵死一會(huì)兒喻犁。而且查詢緩存對(duì)系統(tǒng)的額外消耗也不僅僅在寫操作，讀操作也不例外：

任何的查詢語句在開始之前都必須經(jīng)過檢查，即使這條SQL語句永遠(yuǎn)不會(huì)命中緩存
如果查詢結(jié)果可以被緩存株汉，那么執(zhí)行完成后，會(huì)將結(jié)果存入緩存歌殃，也會(huì)帶來額外的系統(tǒng)消耗

基于此乔妈，我們要知道并不是什么情況下查詢緩存都會(huì)提高系統(tǒng)性能，緩存和失效都會(huì)帶來額外消耗氓皱，只有當(dāng)緩存帶來的資源節(jié)約大于其本身消耗的資源時(shí)路召，才會(huì)給系統(tǒng)帶來性能提升。但要如何評(píng)估打開緩存是否能夠帶來性能提升是一件非常困難的事情波材，也不在本文討論的范疇內(nèi)股淡。如果系統(tǒng)確實(shí)存在一些性能問題，可以嘗試打開查詢緩存廷区，并在數(shù)據(jù)庫(kù)設(shè)計(jì)上做一些優(yōu)化唯灵，比如：

用多個(gè)小表代替一個(gè)大表，注意不要過度設(shè)計(jì)
批量插入代替循環(huán)單條插入
合理控制緩存空間大小隙轻，一般來說其大小設(shè)置為幾十兆比較合適
可以通過SQL_CACHE和SQL_NO_CACHE來控制某個(gè)查詢語句是否需要進(jìn)行緩存

最后的忠告是不要輕易打開查詢緩存埠帕，特別是寫密集型應(yīng)用。如果你實(shí)在是忍不住玖绿，可以將query_cache_type設(shè)置為DEMAND敛瓷，這時(shí)只有加入SQL_CACHE的查詢才會(huì)走緩存，其他查詢則不會(huì)斑匪，這樣可以非常自由地控制哪些查詢需要被緩存呐籽。

當(dāng)然查詢緩存系統(tǒng)本身是非常復(fù)雜的，這里討論的也只是很小的一部分蚀瘸，其他更深入的話題狡蝶，比如：緩存是如何使用內(nèi)存的？如何控制內(nèi)存的碎片化贮勃？事務(wù)對(duì)查詢緩存有何影響等等牢酵，讀者可以自行閱讀相關(guān)資料，這里權(quán)當(dāng)拋磚引玉吧衙猪。

語法解析和預(yù)處理

MySQL通過關(guān)鍵字將SQL語句進(jìn)行解析馍乙，并生成一顆對(duì)應(yīng)的解析樹。這個(gè)過程解析器主要通過語法規(guī)則來驗(yàn)證和解析垫释。比如SQL中是否使用了錯(cuò)誤的關(guān)鍵字或者關(guān)鍵字的順序是否正確等等丝格。預(yù)處理則會(huì)根據(jù)MySQL規(guī)則進(jìn)一步檢查解析樹是否合法。比如檢查要查詢的數(shù)據(jù)表和數(shù)據(jù)列是否存在等等棵譬。

查詢優(yōu)化

經(jīng)過前面的步驟生成的語法樹被認(rèn)為是合法的了显蝌，并且由優(yōu)化器將其轉(zhuǎn)化成查詢計(jì)劃。多數(shù)情況下，一條查詢可以有很多種執(zhí)行方式曼尊，最后都返回相應(yīng)的結(jié)果酬诀。優(yōu)化器的作用就是找到這其中最好的執(zhí)行計(jì)劃。

MySQL使用基于成本的優(yōu)化器骆撇，它嘗試預(yù)測(cè)一個(gè)查詢使用某種執(zhí)行計(jì)劃時(shí)的成本瞒御，并選擇其中成本最小的一個(gè)。在MySQL可以通過查詢當(dāng)前會(huì)話的last_query_cost的值來得到其計(jì)算當(dāng)前查詢的成本神郊。

mysql> select * from t_message limit 10;
...省略結(jié)果集

mysql> show status like 'last_query_cost';
+-----------------+-------------+
| Variable_name   | Value       |
+-----------------+-------------+
| Last_query_cost | 6391.799000 |
+-----------------+-------------+

示例中的結(jié)果表示優(yōu)化器認(rèn)為大概需要做6391個(gè)數(shù)據(jù)頁的隨機(jī)查找才能完成上面的查詢肴裙。這個(gè)結(jié)果是根據(jù)一些列的統(tǒng)計(jì)信息計(jì)算得來的，這些統(tǒng)計(jì)信息包括：每張表或者索引的頁面?zhèn)€數(shù)涌乳、索引的基數(shù)蜻懦、索引和數(shù)據(jù)行的長(zhǎng)度、索引的分布情況等等夕晓。

有非常多的原因會(huì)導(dǎo)致MySQL選擇錯(cuò)誤的執(zhí)行計(jì)劃宛乃，比如統(tǒng)計(jì)信息不準(zhǔn)確、不會(huì)考慮不受其控制的操作成本（用戶自定義函數(shù)蒸辆、存儲(chǔ)過程）烤惊、MySQL認(rèn)為的最優(yōu)跟我們想的不一樣（我們希望執(zhí)行時(shí)間盡可能短，但MySQL值選擇它認(rèn)為成本小的吁朦，但成本小并不意味著執(zhí)行時(shí)間短）等等柒室。

MySQL的查詢優(yōu)化器是一個(gè)非常復(fù)雜的部件，它使用了非常多的優(yōu)化策略來生成一個(gè)最優(yōu)的執(zhí)行計(jì)劃：

重新定義表的關(guān)聯(lián)順序（多張表關(guān)聯(lián)查詢時(shí)逗宜，并不一定按照SQL中指定的順序進(jìn)行雄右，但有一些技巧可以指定關(guān)聯(lián)順序）
優(yōu)化MIN()和MAX()函數(shù)（找某列的最小值，如果該列有索引纺讲，只需要查找B+Tree索引最左端擂仍，反之則可以找到最大值，具體原理見下文）
提前終止查詢（比如：使用Limit時(shí)熬甚，查找到滿足數(shù)量的結(jié)果集后會(huì)立即終止查詢）
優(yōu)化排序（在老版本MySQL會(huì)使用兩次傳輸排序逢渔，即先讀取行指針和需要排序的字段在內(nèi)存中對(duì)其排序，然后再根據(jù)排序結(jié)果去讀取數(shù)據(jù)行乡括，而新版本采用的是單次傳輸排序肃廓，也就是一次讀取所有的數(shù)據(jù)行，然后根據(jù)給定的列排序诲泌。對(duì)于I/O密集型應(yīng)用盲赊，效率會(huì)高很多）

隨著MySQL的不斷發(fā)展，優(yōu)化器使用的優(yōu)化策略也在不斷的進(jìn)化敷扫，這里僅僅介紹幾個(gè)非常常用且容易理解的優(yōu)化策略哀蘑，其他的優(yōu)化策略，大家自行查閱吧。

查詢執(zhí)行引擎

在完成解析和優(yōu)化階段以后绘迁，MySQL會(huì)生成對(duì)應(yīng)的執(zhí)行計(jì)劃合溺，查詢執(zhí)行引擎根據(jù)執(zhí)行計(jì)劃給出的指令逐步執(zhí)行得出結(jié)果。整個(gè)執(zhí)行過程的大部分操作均是通過調(diào)用存儲(chǔ)引擎實(shí)現(xiàn)的接口來完成缀台，這些接口被稱為handler API棠赛。查詢過程中的每一張表由一個(gè)handler實(shí)例表示。實(shí)際上将硝，MySQL在查詢優(yōu)化階段就為每一張表創(chuàng)建了一個(gè)handler實(shí)例恭朗，優(yōu)化器可以根據(jù)這些實(shí)例的接口來獲取表的相關(guān)信息屏镊，包括表的所有列名依疼、索引統(tǒng)計(jì)信息等。存儲(chǔ)引擎接口提供了非常豐富的功能而芥，但其底層僅有幾十個(gè)接口律罢，這些接口像搭積木一樣完成了一次查詢的大部分操作。

返回結(jié)果給客戶端

查詢執(zhí)行的最后一個(gè)階段就是將結(jié)果返回給客戶端棍丐。即使查詢不到數(shù)據(jù)误辑，MySQL仍然會(huì)返回這個(gè)查詢的相關(guān)信息，比如該查詢影響到的行數(shù)以及執(zhí)行時(shí)間等等歌逢。

如果查詢緩存被打開且這個(gè)查詢可以被緩存巾钉，MySQL也會(huì)將結(jié)果存放到緩存中。

結(jié)果集返回客戶端是一個(gè)增量且逐步返回的過程秘案。有可能MySQL在生成第一條結(jié)果時(shí)砰苍，就開始向客戶端逐步返回結(jié)果集了。這樣服務(wù)端就無須存儲(chǔ)太多結(jié)果而消耗過多內(nèi)存阱高，也可以讓客戶端第一時(shí)間獲得返回結(jié)果赚导。需要注意的是，結(jié)果集中的每一行都會(huì)以一個(gè)滿足①中所描述的通信協(xié)議的數(shù)據(jù)包發(fā)送赤惊，再通過TCP協(xié)議進(jìn)行傳輸吼旧，在傳輸過程中，可能對(duì)MySQL的數(shù)據(jù)包進(jìn)行緩存然后批量發(fā)送未舟。

回頭總結(jié)一下MySQL整個(gè)查詢執(zhí)行過程圈暗，總的來說分為6個(gè)步驟：

客戶端向MySQL服務(wù)器發(fā)送一條查詢請(qǐng)求
服務(wù)器首先檢查查詢緩存，如果命中緩存裕膀，則立刻返回存儲(chǔ)在緩存中的結(jié)果厂置。否則進(jìn)入下一階段
服務(wù)器進(jìn)行SQL解析、預(yù)處理魂角、再由優(yōu)化器生成對(duì)應(yīng)的執(zhí)行計(jì)劃
MySQL根據(jù)執(zhí)行計(jì)劃昵济，調(diào)用存儲(chǔ)引擎的API來執(zhí)行查詢
將結(jié)果返回給客戶端，同時(shí)緩存查詢結(jié)果

性能優(yōu)化建議

看了這么多，你可能會(huì)期待給出一些優(yōu)化手段访忿，是的瞧栗，下面會(huì)從3個(gè)不同方面給出一些優(yōu)化建議。但請(qǐng)等等海铆，還有一句忠告要先送給你：不要聽信你看到的關(guān)于優(yōu)化的“絕對(duì)真理”迹恐，包括本文所討論的內(nèi)容，而應(yīng)該是在實(shí)際的業(yè)務(wù)場(chǎng)景下通過測(cè)試來驗(yàn)證你關(guān)于執(zhí)行計(jì)劃以及響應(yīng)時(shí)間的假設(shè)卧斟。

Scheme設(shè)計(jì)與數(shù)據(jù)類型優(yōu)化

選擇數(shù)據(jù)類型只要遵循小而簡(jiǎn)單的原則就好殴边，越小的數(shù)據(jù)類型通常會(huì)更快，占用更少的磁盤珍语、內(nèi)存锤岸，處理時(shí)需要的CPU周期也更少。越簡(jiǎn)單的數(shù)據(jù)類型在計(jì)算時(shí)需要更少的CPU周期板乙，比如是偷，整型就比字符操作代價(jià)低，因而會(huì)使用整型來存儲(chǔ)ip地址募逞，使用DATETIME來存儲(chǔ)時(shí)間蛋铆，而不是使用字符串。

這里總結(jié)幾個(gè)可能容易理解錯(cuò)誤的技巧：

通常來說把可為NULL的列改為NOT NULL不會(huì)對(duì)性能提升有多少幫助放接，只是如果計(jì)劃在列上創(chuàng)建索引刺啦，就應(yīng)該將該列設(shè)置為NOT NULL。
對(duì)整數(shù)類型指定寬度纠脾，比如INT(11)玛瘸，沒有任何卵用。INT使用32位（4個(gè)字節(jié)）存儲(chǔ)空間乳乌，那么它的表示范圍已經(jīng)確定捧韵，所以INT(1)和INT(20)對(duì)于存儲(chǔ)和計(jì)算是相同的。
UNSIGNED表示不允許負(fù)值汉操，大致可以使正數(shù)的上限提高一倍再来。比如TINYINT存儲(chǔ)范圍是-128 ~ 127，而UNSIGNED TINYINT存儲(chǔ)的范圍卻是0 - 255磷瘤。
通常來講芒篷，沒有太大的必要使用DECIMAL數(shù)據(jù)類型。即使是在需要存儲(chǔ)財(cái)務(wù)數(shù)據(jù)時(shí)采缚，仍然可以使用BIGINT针炉。比如需要精確到萬分之一，那么可以將數(shù)據(jù)乘以一百萬然后使用BIGINT存儲(chǔ)扳抽。這樣可以避免浮點(diǎn)數(shù)計(jì)算不準(zhǔn)確和DECIMAL精確計(jì)算代價(jià)高的問題篡帕。
TIMESTAMP使用4個(gè)字節(jié)存儲(chǔ)空間殖侵，DATETIME使用8個(gè)字節(jié)存儲(chǔ)空間。因而镰烧，TIMESTAMP只能表示1970 - 2038年拢军，比DATETIME表示的范圍小得多，而且TIMESTAMP的值因時(shí)區(qū)不同而不同怔鳖。
大多數(shù)情況下沒有使用枚舉類型的必要茉唉，其中一個(gè)缺點(diǎn)是枚舉的字符串列表是固定的，添加和刪除字符串（枚舉選項(xiàng)）必須使用ALTER TABLE（如果只只是在列表末尾追加元素结执，不需要重建表）度陆。
schema的列不要太多。原因是存儲(chǔ)引擎的API工作時(shí)需要在服務(wù)器層和存儲(chǔ)引擎層之間通過行緩沖格式拷貝數(shù)據(jù)献幔，然后在服務(wù)器層將緩沖內(nèi)容解碼成各個(gè)列懂傀，這個(gè)轉(zhuǎn)換過程的代價(jià)是非常高的。如果列太多而實(shí)際使用的列又很少的話斜姥，有可能會(huì)導(dǎo)致CPU占用過高鸿竖。
大表ALTER TABLE非常耗時(shí)沧竟，MySQL執(zhí)行大部分修改表結(jié)果操作的方法是用新的結(jié)構(gòu)創(chuàng)建一個(gè)張空表铸敏，從舊表中查出所有的數(shù)據(jù)插入新表，然后再刪除舊表悟泵。尤其當(dāng)內(nèi)存不足而表又很大杈笔，而且還有很大索引的情況下，耗時(shí)更久糕非。當(dāng)然有一些奇技淫巧可以解決這個(gè)問題蒙具，有興趣可自行查閱。

創(chuàng)建高性能索引

索引是提高M(jìn)ySQL查詢性能的一個(gè)重要途徑朽肥，但過多的索引可能會(huì)導(dǎo)致過高的磁盤使用率以及過高的內(nèi)存占用禁筏，從而影響應(yīng)用程序的整體性能。應(yīng)當(dāng)盡量避免事后才想起添加索引衡招，因?yàn)槭潞罂赡苄枰O(jiān)控大量的SQL才能定位到問題所在篱昔，而且添加索引的時(shí)間肯定是遠(yuǎn)大于初始添加索引所需要的時(shí)間，可見索引的添加也是非常有技術(shù)含量的始腾。

接下來將向你展示一系列創(chuàng)建高性能索引的策略州刽，以及每條策略其背后的工作原理。但在此之前浪箭，先了解與索引相關(guān)的一些算法和數(shù)據(jù)結(jié)構(gòu)穗椅，將有助于更好的理解后文的內(nèi)容。

索引相關(guān)的數(shù)據(jù)結(jié)構(gòu)和算法

通常我們所說的索引是指B-Tree索引，它是目前關(guān)系型數(shù)據(jù)庫(kù)中查找數(shù)據(jù)最為常用和有效的索引蕴掏，大多數(shù)存儲(chǔ)引擎都支持這種索引。使用B-Tree這個(gè)術(shù)語番电，是因?yàn)镸ySQL在CREATE TABLE或其它語句中使用了這個(gè)關(guān)鍵字袍镀，但實(shí)際上不同的存儲(chǔ)引擎可能使用不同的數(shù)據(jù)結(jié)構(gòu)拜鹤，比如InnoDB就是使用的B+Tree。

B+Tree中的B是指balance流椒，意為平衡敏簿。需要注意的是，B+樹索引并不能找到一個(gè)給定鍵值的具體行宣虾，它找到的只是被查找數(shù)據(jù)行所在的頁惯裕，接著數(shù)據(jù)庫(kù)會(huì)把頁讀入到內(nèi)存，再在內(nèi)存中進(jìn)行查找绣硝，最后得到要查找的數(shù)據(jù)蜻势。

在介紹B+Tree前，先了解一下二叉查找樹鹉胖，它是一種經(jīng)典的數(shù)據(jù)結(jié)構(gòu)握玛，其左子樹的值總是小于根的值，右子樹的值總是大于根的值甫菠，如下圖①挠铲。如果要在這課樹中查找值為5的記錄，其大致流程：先找到根寂诱，其值為6拂苹，大于5，所以查找左子樹痰洒，找到3瓢棒，而5大于3，接著找3的右子樹丘喻，總共找了3次脯宿。同樣的方法，如果查找值為8的記錄泉粉，也需要查找3次连霉。所以二叉查找樹的平均查找次數(shù)為(3 + 3 + 3 + 2 + 2 + 1) / 6 = 2.3次，而順序查找的話搀继，查找值為2的記錄窘面，僅需要1次，但查找值為8的記錄則需要6次叽躯，所以順序查找的平均查找次數(shù)為：(1 + 2 + 3 + 4 + 5 + 6) / 6 = 3.3次财边，因此大多數(shù)情況下二叉查找樹的平均查找速度比順序查找要快。

image

由于二叉查找樹可以任意構(gòu)造点骑，同樣的值酣难，可以構(gòu)造出如圖②的二叉查找樹谍夭，顯然這棵二叉樹的查詢效率和順序查找差不多。若想二叉查找數(shù)的查詢性能最高憨募，需要這棵二叉查找樹是平衡的紧索，也即平衡二叉樹（AVL樹）。

平衡二叉樹首先需要符合二叉查找樹的定義菜谣，其次必須滿足任何節(jié)點(diǎn)的兩個(gè)子樹的高度差不能大于1珠漂。顯然圖②不滿足平衡二叉樹的定義，而圖①是一課平衡二叉樹尾膊。平衡二叉樹的查找性能是比較高的（性能最好的是最優(yōu)二叉樹）媳危，查詢性能越好，維護(hù)的成本就越大冈敛。比如圖①的平衡二叉樹待笑，當(dāng)用戶需要插入一個(gè)新的值9的節(jié)點(diǎn)時(shí)，就需要做出如下變動(dòng)抓谴。

image

通過一次左旋操作就將插入后的樹重新變?yōu)槠胶舛鏄涫亲詈?jiǎn)單的情況了暮蹂，實(shí)際應(yīng)用場(chǎng)景中可能需要旋轉(zhuǎn)多次。至此我們可以考慮一個(gè)問題癌压，平衡二叉樹的查找效率還不錯(cuò)仰泻，實(shí)現(xiàn)也非常簡(jiǎn)單，相應(yīng)的維護(hù)成本還能接受措拇，為什么MySQL索引不直接使用平衡二叉樹我纪？

隨著數(shù)據(jù)庫(kù)中數(shù)據(jù)的增加慎宾，索引本身大小隨之增加丐吓，不可能全部存儲(chǔ)在內(nèi)存中，因此索引往往以索引文件的形式存儲(chǔ)的磁盤上趟据。這樣的話券犁，索引查找過程中就要產(chǎn)生磁盤I/O消耗，相對(duì)于內(nèi)存存取汹碱，I/O存取的消耗要高幾個(gè)數(shù)量級(jí)粘衬。可以想象一下一棵幾百萬節(jié)點(diǎn)的二叉樹的深度是多少咳促？如果將這么大深度的一顆二叉樹放磁盤上稚新，每讀取一個(gè)節(jié)點(diǎn)，需要一次磁盤的I/O讀取跪腹，整個(gè)查找的耗時(shí)顯然是不能夠接受的褂删。那么如何減少查找過程中的I/O存取次數(shù)？

一種行之有效的解決方法是減少樹的深度冲茸，將二叉樹變?yōu)閙叉樹（多路搜索樹）屯阀，而B+Tree就是一種多路搜索樹缅帘。理解B+Tree時(shí)，只需要理解其最重要的兩個(gè)特征即可：第一难衰，所有的關(guān)鍵字（可以理解為數(shù)據(jù)）都存儲(chǔ)在葉子節(jié)點(diǎn)（Leaf Page）钦无，非葉子節(jié)點(diǎn)（Index Page）并不存儲(chǔ)真正的數(shù)據(jù)，所有記錄節(jié)點(diǎn)都是按鍵值大小順序存放在同一層葉子節(jié)點(diǎn)上盖袭。其次失暂，所有的葉子節(jié)點(diǎn)由指針連接。如下圖為高度為2的簡(jiǎn)化了的B+Tree鳄虱。

image

怎么理解這兩個(gè)特征趣席？MySQL將每個(gè)節(jié)點(diǎn)的大小設(shè)置為一個(gè)頁的整數(shù)倍（原因下文會(huì)介紹），也就是在節(jié)點(diǎn)空間大小一定的情況下醇蝴，每個(gè)節(jié)點(diǎn)可以存儲(chǔ)更多的內(nèi)結(jié)點(diǎn)宣肚，這樣每個(gè)結(jié)點(diǎn)能索引的范圍更大更精確。所有的葉子節(jié)點(diǎn)使用指針鏈接的好處是可以進(jìn)行區(qū)間訪問悠栓，比如上圖中霉涨，如果查找大于20而小于30的記錄，只需要找到節(jié)點(diǎn)20惭适，就可以遍歷指針依次找到25笙瑟、30。如果沒有鏈接指針的話癞志，就無法進(jìn)行區(qū)間查找往枷。這也是MySQL使用B+Tree作為索引存儲(chǔ)結(jié)構(gòu)的重要原因。

MySQL為何將節(jié)點(diǎn)大小設(shè)置為頁的整數(shù)倍凄杯，這就需要理解磁盤的存儲(chǔ)原理错洁。磁盤本身存取就比主存慢很多，在加上機(jī)械運(yùn)動(dòng)損耗（特別是普通的機(jī)械硬盤）戒突，磁盤的存取速度往往是主存的幾百萬分之一屯碴，為了盡量減少磁盤I/O，磁盤往往不是嚴(yán)格按需讀取膊存，而是每次都會(huì)預(yù)讀导而，即使只需要一個(gè)字節(jié)，磁盤也會(huì)從這個(gè)位置開始隔崎，順序向后讀取一定長(zhǎng)度的數(shù)據(jù)放入內(nèi)存今艺，預(yù)讀的長(zhǎng)度一般為頁的整數(shù)倍。

頁是計(jì)算機(jī)管理存儲(chǔ)器的邏輯塊爵卒，硬件及OS往往將主存和磁盤存儲(chǔ)區(qū)分割為連續(xù)的大小相等的塊虚缎，每個(gè)存儲(chǔ)塊稱為一頁（許多OS中，頁的大小通常為4K）技潘。主存和磁盤以頁為單位交換數(shù)據(jù)遥巴。當(dāng)程序要讀取的數(shù)據(jù)不在主存中時(shí)千康，會(huì)觸發(fā)一個(gè)缺頁異常，此時(shí)系統(tǒng)會(huì)向磁盤發(fā)出讀盤信號(hào)铲掐，磁盤會(huì)找到數(shù)據(jù)的起始位置并向后連續(xù)讀取一頁或幾頁載入內(nèi)存中拾弃，然后一起返回，程序繼續(xù)運(yùn)行摆霉。

MySQL巧妙利用了磁盤預(yù)讀原理豪椿，將一個(gè)節(jié)點(diǎn)的大小設(shè)為等于一個(gè)頁，這樣每個(gè)節(jié)點(diǎn)只需要一次I/O就可以完全載入携栋。為了達(dá)到這個(gè)目的搭盾，每次新建節(jié)點(diǎn)時(shí)，直接申請(qǐng)一個(gè)頁的空間婉支，這樣就保證一個(gè)節(jié)點(diǎn)物理上也存儲(chǔ)在一個(gè)頁里鸯隅，加之計(jì)算機(jī)存儲(chǔ)分配都是按頁對(duì)齊的，就實(shí)現(xiàn)了讀取一個(gè)節(jié)點(diǎn)只需一次I/O向挖。假設(shè)B+Tree的高度為h蝌以，一次檢索最多需要h-1次I/O（根節(jié)點(diǎn)常駐內(nèi)存），復(fù)雜度O(h) = O(logmN)何之。實(shí)際應(yīng)用場(chǎng)景中跟畅，M通常較大，常常超過100溶推，因此樹的高度一般都比較小徊件，通常不超過3。

最后簡(jiǎn)單了解下B+Tree節(jié)點(diǎn)的操作蒜危，在整體上對(duì)索引的維護(hù)有一個(gè)大概的了解虱痕，雖然索引可以大大提高查詢效率，但維護(hù)索引仍要花費(fèi)很大的代價(jià)舰褪，因此合理的創(chuàng)建索引也就尤為重要皆疹。

仍以上面的樹為例，我們假設(shè)每個(gè)節(jié)點(diǎn)只能存儲(chǔ)4個(gè)內(nèi)節(jié)點(diǎn)占拍。首先要插入第一個(gè)節(jié)點(diǎn)28，如下圖所示捎迫。

image

接著插入下一個(gè)節(jié)點(diǎn)70晃酒，在Index Page中查詢后得知應(yīng)該插入到50 - 70之間的葉子節(jié)點(diǎn)，但葉子節(jié)點(diǎn)已滿窄绒，這時(shí)候就需要進(jìn)行也分裂的操作贝次，當(dāng)前的葉子節(jié)點(diǎn)起點(diǎn)為50，所以根據(jù)中間值來拆分葉子節(jié)點(diǎn)彰导，如下圖所示蛔翅。

image

最后插入一個(gè)節(jié)點(diǎn)95敲茄，這時(shí)候Index Page和Leaf Page都滿了，就需要做兩次拆分山析，如下圖所示堰燎。

image

拆分后最終形成了這樣一顆樹。

image

B+Tree為了保持平衡笋轨，對(duì)于新插入的值需要做大量的拆分頁操作秆剪，而頁的拆分需要I/O操作，為了盡可能的減少頁的拆分操作爵政，B+Tree也提供了類似于平衡二叉樹的旋轉(zhuǎn)功能仅讽。當(dāng)Leaf Page已滿但其左右兄弟節(jié)點(diǎn)沒有滿的情況下，B+Tree并不急于去做拆分操作钾挟，而是將記錄移到當(dāng)前所在頁的兄弟節(jié)點(diǎn)上洁灵。通常情況下，左兄弟會(huì)被先檢查用來做旋轉(zhuǎn)操作掺出。就比如上面第二個(gè)示例处渣，當(dāng)插入70的時(shí)候，并不會(huì)去做頁拆分蛛砰，而是左旋操作罐栈。

image

通過旋轉(zhuǎn)操作可以最大限度的減少頁分裂，從而減少索引維護(hù)過程中的磁盤的I/O操作泥畅，也提高索引維護(hù)效率荠诬。需要注意的是，刪除節(jié)點(diǎn)跟插入節(jié)點(diǎn)類似位仁，仍然需要旋轉(zhuǎn)和拆分操作柑贞，這里就不再說明。

高性能策略

通過上文聂抢，相信你對(duì)B+Tree的數(shù)據(jù)結(jié)構(gòu)已經(jīng)有了大致的了解钧嘶，但MySQL中索引是如何組織數(shù)據(jù)的存儲(chǔ)呢？以一個(gè)簡(jiǎn)單的示例來說明琳疏，假如有如下數(shù)據(jù)表：

CREATE TABLE People(
    last_name varchar(50) not null,
    first_name varchar(50) not null,
    dob date not null,
    gender enum(`m`,`f`) not null,
    key(last_name,first_name,dob)
);

對(duì)于表中每一行數(shù)據(jù)有决，索引中包含了last_name、first_name空盼、dob列的值书幕，下圖展示了索引是如何組織數(shù)據(jù)存儲(chǔ)的。

image

可以看到揽趾，索引首先根據(jù)第一個(gè)字段來排列順序台汇，當(dāng)名字相同時(shí)，則根據(jù)第三個(gè)字段，即出生日期來排序苟呐，正是因?yàn)檫@個(gè)原因痒芝，才有了索引的“最左原則”。

1牵素、MySQL不會(huì)使用索引的情況：非獨(dú)立的列

“獨(dú)立的列”是指索引列不能是表達(dá)式的一部分严衬，也不能是函數(shù)的參數(shù)。比如：

select * from where id + 1 = 5

我們很容易看出其等價(jià)于 id = 4两波，但是MySQL無法自動(dòng)解析這個(gè)表達(dá)式瞳步，使用函數(shù)是同樣的道理。

2腰奋、前綴索引

如果列很長(zhǎng)单起，通常可以索引開始的部分字符劣坊，這樣可以有效節(jié)約索引空間嘀倒，從而提高索引效率。

3局冰、多列索引和索引順序

在多數(shù)情況下测蘑，在多個(gè)列上建立獨(dú)立的索引并不能提高查詢性能。理由非常簡(jiǎn)單康二，MySQL不知道選擇哪個(gè)索引的查詢效率更好碳胳，所以在老版本，比如MySQL5.0之前就會(huì)隨便選擇一個(gè)列的索引沫勿，而新的版本會(huì)采用合并索引的策略挨约。舉個(gè)簡(jiǎn)單的例子，在一張電影演員表中产雹，在actor_id和film_id兩個(gè)列上都建立了獨(dú)立的索引诫惭，然后有如下查詢：

select film_id,actor_id from film_actor where actor_id = 1 or film_id = 1

老版本的MySQL會(huì)隨機(jī)選擇一個(gè)索引，但新版本做如下的優(yōu)化：

select film_id,actor_id from film_actor where actor_id = 1  
union all 
select film_id,actor_id from film_actor where film_id = 1 and actor_id <> 1

當(dāng)出現(xiàn)多個(gè)索引做相交操作時(shí)（多個(gè)AND條件）蔓挖，通常來說一個(gè)包含所有相關(guān)列的索引要優(yōu)于多個(gè)獨(dú)立索引夕土。
當(dāng)出現(xiàn)多個(gè)索引做聯(lián)合操作時(shí)（多個(gè)OR條件），對(duì)結(jié)果集的合并瘟判、排序等操作需要耗費(fèi)大量的CPU和內(nèi)存資源怨绣，特別是當(dāng)其中的某些索引的選擇性不高，需要返回合并大量數(shù)據(jù)時(shí)荒适，查詢成本更高梨熙。所以這種情況下還不如走全表掃描。

因此explain時(shí)如果發(fā)現(xiàn)有索引合并（Extra字段出現(xiàn)Using union）刀诬，應(yīng)該好好檢查一下查詢和表結(jié)構(gòu)是不是已經(jīng)是最優(yōu)的，如果查詢和表都沒有問題，那只能說明索引建的非常糟糕陕壹，應(yīng)當(dāng)慎重考慮索引是否合適质欲，有可能一個(gè)包含所有相關(guān)列的多列索引更適合。

前面我們提到過索引如何組織數(shù)據(jù)存儲(chǔ)的糠馆，從圖中可以看到多列索引時(shí)嘶伟，索引的順序?qū)τ诓樵兪侵陵P(guān)重要的，很明顯應(yīng)該把選擇性更高的字段放到索引的前面又碌，這樣通過第一個(gè)字段就可以過濾掉大多數(shù)不符合條件的數(shù)據(jù)九昧。

索引選擇性是指不重復(fù)的索引值和數(shù)據(jù)表的總記錄數(shù)的比值，選擇性越高查詢效率越高毕匀，因?yàn)檫x擇性越高的索引可以讓MySQL在查詢時(shí)過濾掉更多的行铸鹰。唯一索引的選擇性是1，這是最好的索引選擇性皂岔，性能也是最好的蹋笼。

理解索引選擇性的概念后，就不難確定哪個(gè)字段的選擇性較高了躁垛，查一下就知道了剖毯，比如：

SELECT * FROM payment where staff_id = 2 and customer_id = 584

是應(yīng)該創(chuàng)建(staff_id,customer_id)的索引還是應(yīng)該顛倒一下順序？執(zhí)行下面的查詢教馆，哪個(gè)字段的選擇性更接近1就把哪個(gè)字段索引前面就好逊谋。

select count(distinct staff_id)/count(*) as staff_id_selectivity,
       count(distinct customer_id)/count(*) as customer_id_selectivity,
       count(*) from payment

多數(shù)情況下使用這個(gè)原則沒有任何問題，但仍然注意你的數(shù)據(jù)中是否存在一些特殊情況土铺。舉個(gè)簡(jiǎn)單的例子胶滋，比如要查詢某個(gè)用戶組下有過交易的用戶信息：

select user_id from trade where user_group_id = 1 and trade_amount > 0

MySQL為這個(gè)查詢選擇了索引(user_group_id,trade_amount)，如果不考慮特殊情況舒憾，這看起來沒有任何問題镀钓，但實(shí)際情況是這張表的大多數(shù)數(shù)據(jù)都是從老系統(tǒng)中遷移過來的，由于新老系統(tǒng)的數(shù)據(jù)不兼容镀迂，所以就給老系統(tǒng)遷移過來的數(shù)據(jù)賦予了一個(gè)默認(rèn)的用戶組丁溅。這種情況下，通過索引掃描的行數(shù)跟全表掃描基本沒什么區(qū)別探遵，索引也就起不到任何作用窟赏。

推廣開來說，經(jīng)驗(yàn)法則和推論在多數(shù)情況下是有用的箱季，可以指導(dǎo)我們開發(fā)和設(shè)計(jì)涯穷，但實(shí)際情況往往會(huì)更復(fù)雜，實(shí)際業(yè)務(wù)場(chǎng)景下的某些特殊情況可能會(huì)摧毀你的整個(gè)設(shè)計(jì)藏雏。

4拷况、避免多個(gè)范圍條件

實(shí)際開發(fā)中，我們會(huì)經(jīng)常使用多個(gè)范圍條件，比如想查詢某個(gè)時(shí)間段內(nèi)登錄過的用戶：

select user.* from user where login_time > '2017-04-01' and age between 18 and 30;

這個(gè)查詢有一個(gè)問題：它有兩個(gè)范圍條件赚瘦，login_time列和age列粟誓，MySQL可以使用login_time列的索引或者age列的索引，但無法同時(shí)使用它們起意。

5鹰服、覆蓋索引

如果一個(gè)索引包含或者說覆蓋所有需要查詢的字段的值，那么就沒有必要再回表查詢揽咕，這就稱為覆蓋索引悲酷。覆蓋索引是非常有用的工具，可以極大的提高性能亲善，因?yàn)椴樵冎恍枰獟呙杷饕龝?huì)帶來許多好處：

索引條目遠(yuǎn)小于數(shù)據(jù)行大小设易，如果只讀取索引，極大減少數(shù)據(jù)訪問量
索引是有按照列值順序存儲(chǔ)的逗爹，對(duì)于I/O密集型的范圍查詢要比隨機(jī)從磁盤讀取每一行數(shù)據(jù)的IO要少的多

6亡嫌、使用索引掃描來排序

MySQL有兩種方式可以生產(chǎn)有序的結(jié)果集，其一是對(duì)結(jié)果集進(jìn)行排序的操作掘而，其二是按照索引順序掃描得出的結(jié)果自然是有序的挟冠。如果explain的結(jié)果中type列的值為index表示使用了索引掃描來做排序。

掃描索引本身很快袍睡，因?yàn)橹恍枰獜囊粭l索引記錄移動(dòng)到相鄰的下一條記錄知染。但如果索引本身不能覆蓋所有需要查詢的列，那么就不得不每掃描一條索引記錄就回表查詢一次對(duì)應(yīng)的行斑胜。這個(gè)讀取操作基本上是隨機(jī)I/O控淡，因此按照索引順序讀取數(shù)據(jù)的速度通常要比順序地全表掃描要慢。

在設(shè)計(jì)索引時(shí)止潘，如果一個(gè)索引既能夠滿足排序掺炭，又滿足查詢，是最好的凭戴。

只有當(dāng)索引的列順序和ORDER BY子句的順序完全一致涧狮，并且所有列的排序方向也一樣時(shí)，才能夠使用索引來對(duì)結(jié)果做排序么夫。如果查詢需要關(guān)聯(lián)多張表者冤，則只有ORDER BY子句引用的字段全部為第一張表時(shí)，才能使用索引做排序档痪。ORDER BY子句和查詢的限制是一樣的涉枫，都要滿足最左前綴的要求（有一種情況例外，就是最左的列被指定為常數(shù)腐螟，下面是一個(gè)簡(jiǎn)單的示例）愿汰，其他情況下都需要執(zhí)行排序操作困后，而無法利用索引排序。

// 最左列為常數(shù)尼桶，索引：(date,staff_id,customer_id)
select  staff_id,customer_id from demo where date = '2015-06-01' order by staff_id,customer_id

7操灿、冗余和重復(fù)索引

冗余索引是指在相同的列上按照相同的順序創(chuàng)建的相同類型的索引锯仪，應(yīng)當(dāng)盡量避免這種索引泵督，發(fā)現(xiàn)后立即刪除。比如有一個(gè)索引(A,B)庶喜，再創(chuàng)建索引(A)就是冗余索引小腊。冗余索引經(jīng)常發(fā)生在為表添加新索引時(shí)，比如有人新建了索引(A,B)久窟，但這個(gè)索引不是擴(kuò)展已有的索引(A)秩冈。

大多數(shù)情況下都應(yīng)該盡量擴(kuò)展已有的索引而不是創(chuàng)建新索引。但有極少情況下出現(xiàn)性能方面的考慮需要冗余索引斥扛，比如擴(kuò)展已有索引而導(dǎo)致其變得過大入问，從而影響到其他使用該索引的查詢。

8稀颁、刪除長(zhǎng)期未使用的索引

定期刪除一些長(zhǎng)時(shí)間未使用過的索引是一個(gè)非常好的習(xí)慣芬失。

關(guān)于索引這個(gè)話題打算就此打住，最后要說一句匾灶，索引并不總是最好的工具棱烂，只有當(dāng)索引幫助提高查詢速度帶來的好處大于其帶來的額外工作時(shí)，索引才是有效的阶女。對(duì)于非常小的表颊糜，簡(jiǎn)單的全表掃描更高效。對(duì)于中到大型的表秃踩，索引就非常有效衬鱼。對(duì)于超大型的表，建立和維護(hù)索引的代價(jià)隨之增長(zhǎng)憔杨，這時(shí)候其他技術(shù)也許更有效鸟赫，比如分區(qū)表。最后的最后芍秆，explain后再提測(cè)是一種美德惯疙。

特定類型查詢優(yōu)化

優(yōu)化COUNT()查詢

COUNT()可能是被大家誤解最多的函數(shù)了，它有兩種不同的作用妖啥，其一是統(tǒng)計(jì)某個(gè)列值的數(shù)量霉颠，其二是統(tǒng)計(jì)行數(shù)。統(tǒng)計(jì)列值時(shí)荆虱，要求列值是非空的蒿偎，它不會(huì)統(tǒng)計(jì)NULL朽们。如果確認(rèn)括號(hào)中的表達(dá)式不可能為空時(shí)，實(shí)際上就是在統(tǒng)計(jì)行數(shù)诉位。最簡(jiǎn)單的就是當(dāng)使用COUNT(*)時(shí)骑脱，并不是我們所想象的那樣擴(kuò)展成所有的列，實(shí)際上苍糠，它會(huì)忽略所有的列而直接統(tǒng)計(jì)行數(shù)叁丧。

我們最常見的誤解也就在這兒，在括號(hào)內(nèi)指定了一列卻希望統(tǒng)計(jì)結(jié)果是行數(shù)岳瞭，而且還常常誤以為前者的性能會(huì)更好拥娄。但實(shí)際并非這樣，如果要統(tǒng)計(jì)行數(shù)瞳筏，直接使用COUNT(*)稚瘾，意義清晰，且性能更好姚炕。

有時(shí)候某些業(yè)務(wù)場(chǎng)景并不需要完全精確的COUNT值摊欠，可以用近似值來代替，EXPLAIN出來的行數(shù)就是一個(gè)不錯(cuò)的近似值柱宦，而且執(zhí)行EXPLAIN并不需要真正地去執(zhí)行查詢些椒，所以成本非常低。通常來說捷沸，執(zhí)行COUNT()都需要掃描大量的行才能獲取到精確的數(shù)據(jù)摊沉，因此很難優(yōu)化，MySQL層面還能做得也就只有覆蓋索引了痒给。如果不還能解決問題说墨，只有從架構(gòu)層面解決了，比如添加匯總表苍柏，或者使用redis這樣的外部緩存系統(tǒng)尼斧。

優(yōu)化關(guān)聯(lián)查詢

在大數(shù)據(jù)場(chǎng)景下，表與表之間通過一個(gè)冗余字段來關(guān)聯(lián)试吁，要比直接使用JOIN有更好的性能棺棵。如果確實(shí)需要使用關(guān)聯(lián)查詢的情況下，需要特別注意的是：

確保ON和USING字句中的列上有索引熄捍。在創(chuàng)建索引的時(shí)候就要考慮到關(guān)聯(lián)的順序烛恤。當(dāng)表A和表B用列c關(guān)聯(lián)的時(shí)候，如果優(yōu)化器關(guān)聯(lián)的順序是A余耽、B缚柏，那么就不需要在A表的對(duì)應(yīng)列上創(chuàng)建索引。沒有用到的索引會(huì)帶來額外的負(fù)擔(dān)碟贾，一般來說币喧，除非有其他理由轨域，只需要在關(guān)聯(lián)順序中的第二張表的相應(yīng)列上創(chuàng)建索引（具體原因下文分析）。
確保任何的GROUP BY和ORDER BY中的表達(dá)式只涉及到一個(gè)表中的列杀餐，這樣MySQL才有可能使用索引來優(yōu)化干发。

要理解優(yōu)化關(guān)聯(lián)查詢的第一個(gè)技巧，就需要理解MySQL是如何執(zhí)行關(guān)聯(lián)查詢的史翘。當(dāng)前MySQL關(guān)聯(lián)執(zhí)行的策略非常簡(jiǎn)單枉长，它對(duì)任何的關(guān)聯(lián)都執(zhí)行嵌套循環(huán)關(guān)聯(lián)操作，即先在一個(gè)表中循環(huán)取出單條數(shù)據(jù)恶座，然后在嵌套循環(huán)到下一個(gè)表中尋找匹配的行搀暑，依次下去，直到找到所有表中匹配的行為為止跨琳。然后根據(jù)各個(gè)表匹配的行，返回查詢中需要的各個(gè)列桐罕。

太抽象了脉让？以上面的示例來說明，比如有這樣的一個(gè)查詢：

SELECT A.xx,B.yy 
FROM A INNER JOIN B USING(c)
WHERE A.xx IN (5,6)

假設(shè)MySQL按照查詢中的關(guān)聯(lián)順序A功炮、B來進(jìn)行關(guān)聯(lián)操作溅潜，那么可以用下面的偽代碼表示MySQL如何完成這個(gè)查詢：

outer_iterator = SELECT A.xx,A.c FROM A WHERE A.xx IN (5,6);
outer_row = outer_iterator.next;
while(outer_row) {
    inner_iterator = SELECT B.yy FROM B WHERE B.c = outer_row.c;
    inner_row = inner_iterator.next;
    while(inner_row) {
        output[inner_row.yy,outer_row.xx];
        inner_row = inner_iterator.next;
    }
    outer_row = outer_iterator.next;
}

可以看到，最外層的查詢是根據(jù)A.xx列來查詢的薪伏，A.c上如果有索引的話滚澜，整個(gè)關(guān)聯(lián)查詢也不會(huì)使用。再看內(nèi)層的查詢嫁怀，很明顯B.c上如果有索引的話设捐，能夠加速查詢，因此只需要在關(guān)聯(lián)順序中的第二張表的相應(yīng)列上創(chuàng)建索引即可塘淑。

優(yōu)化LIMIT分頁

當(dāng)需要分頁操作時(shí)萝招，通常會(huì)使用LIMIT加上偏移量的辦法實(shí)現(xiàn)，同時(shí)加上合適的ORDER BY字句存捺。如果有對(duì)應(yīng)的索引槐沼，通常效率會(huì)不錯(cuò)，否則捌治，MySQL需要做大量的文件排序操作岗钩。

一個(gè)常見的問題是當(dāng)偏移量非常大的時(shí)候，比如：LIMIT 10000 20這樣的查詢肖油，MySQL需要查詢10020條記錄然后只返回20條記錄兼吓，前面的10000條都將被拋棄，這樣的代價(jià)非常高构韵。

優(yōu)化這種查詢一個(gè)最簡(jiǎn)單的辦法就是盡可能的使用覆蓋索引掃描周蹭，而不是查詢所有的列趋艘。然后根據(jù)需要做一次關(guān)聯(lián)查詢?cè)俜祷厮械牧小?duì)于偏移量很大時(shí)凶朗，這樣做的效率會(huì)提升非常大瓷胧。考慮下面的查詢：

SELECT film_id,description FROM film ORDER BY title LIMIT 50,5;

如果這張表非常大棚愤，那么這個(gè)查詢最好改成下面的樣子：

SELECT film.film_id,film.description
FROM film INNER JOIN (
    SELECT film_id FROM film ORDER BY title LIMIT 50,5
) AS tmp USING(film_id);

這里的延遲關(guān)聯(lián)將大大提升查詢效率搓萧，讓MySQL掃描盡可能少的頁面，獲取需要訪問的記錄后在根據(jù)關(guān)聯(lián)列回原表查詢所需要的列宛畦。

有時(shí)候如果可以使用書簽記錄上次取數(shù)據(jù)的位置瘸洛，那么下次就可以直接從該書簽記錄的位置開始掃描，這樣就可以避免使用OFFSET次和，比如下面的查詢：

SELECT id FROM t LIMIT 10000, 10;
改為：
SELECT id FROM t WHERE id > 10000 LIMIT 10;

其他優(yōu)化的辦法還包括使用預(yù)先計(jì)算的匯總表反肋，或者關(guān)聯(lián)到一個(gè)冗余表，冗余表中只包含主鍵列和需要做排序的列踏施。

優(yōu)化UNION

MySQL處理UNION的策略是先創(chuàng)建臨時(shí)表石蔗，然后再把各個(gè)查詢結(jié)果插入到臨時(shí)表中，最后再來做查詢畅形。因此很多優(yōu)化策略在UNION查詢中都沒有辦法很好的時(shí)候养距。經(jīng)常需要手動(dòng)將WHERE、LIMIT日熬、ORDER BY等字句“下推”到各個(gè)子查詢中棍厌，以便優(yōu)化器可以充分利用這些條件先優(yōu)化。

除非確實(shí)需要服務(wù)器去重竖席，否則就一定要使用UNION ALL耘纱，如果沒有ALL關(guān)鍵字，MySQL會(huì)給臨時(shí)表加上DISTINCT選項(xiàng)怕敬，這會(huì)導(dǎo)致整個(gè)臨時(shí)表的數(shù)據(jù)做唯一性檢查揣炕，這樣做的代價(jià)非常高。當(dāng)然即使使用ALL關(guān)鍵字东跪，MySQL總是將結(jié)果放入臨時(shí)表畸陡，然后再讀出，再返回給客戶端虽填。雖然很多時(shí)候沒有這個(gè)必要丁恭，比如有時(shí)候可以直接把每個(gè)子查詢的結(jié)果返回給客戶端。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末斋日，一起剝皮案震驚了整個(gè)濱河市牲览，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌恶守，老刑警劉巖第献，帶你破解...
沈念sama閱讀 217,509評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件贡必，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡庸毫，警方通過查閱死者的電腦和手機(jī)仔拟，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來飒赃，“玉大人利花，你說我怎么就攤上這事≡丶眩” “怎么了炒事？”我有些...
開封第一講書人閱讀 163,875評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)蔫慧。經(jīng)常有香客問我挠乳，道長(zhǎng)，這世上最難降的妖魔是什么藕漱？我笑而不...
開封第一講書人閱讀 58,441評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任欲侮，我火速辦了婚禮，結(jié)果婚禮上肋联，老公的妹妹穿的比我還像新娘。我一直安慰自己刁俭，他們只是感情好橄仍，可當(dāng)我...
茶點(diǎn)故事閱讀 67,488評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著牍戚，像睡著了一般侮繁。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上如孝，一...
開封第一講書人閱讀 51,365評(píng)論 1贊 302
城市分裂傳說
那天宪哩，我揣著相機(jī)與錄音，去河邊找鬼第晰。笑死锁孟，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的茁瘦。我是一名探鬼主播品抽，決...
沈念sama閱讀 40,190評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼甜熔！你這毒婦竟也來了圆恤？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,062評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤腔稀，失蹤者是張志新（化名）和其女友劉穎盆昙，沒想到半個(gè)月后羽历，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,500評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡淡喜，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,706評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年秕磷，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拆火。...
茶點(diǎn)故事閱讀 39,834評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡跳夭，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出们镜，到底是詐尸還是另有隱情币叹，我是刑警寧澤，帶...
沈念sama閱讀 35,559評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布模狭，位于F島的核電站颈抚，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏嚼鹉。R本人自食惡果不足惜贩汉，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,167評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望锚赤。院中可真熱鬧匹舞，春花似錦、人聲如沸线脚。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽浑侥。三九已至姊舵，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間寓落，已是汗流浹背括丁。一陣腳步聲響...
開封第一講書人閱讀 32,912評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留伶选，地道東北人史飞。一個(gè)月前我還...
沈念sama閱讀 47,958評(píng)論 2贊 370
代替公主和親
正文我出身青樓骂删，卻偏偏與公主長(zhǎng)得像摆屯，于是被迫代替她去往敵國(guó)和親民逼。傳聞我的和親對(duì)象是個(gè)殘疾皇子鞭盟，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,779評(píng)論 2贊 354

<轉(zhuǎn)>MySQL優(yōu)化

MySQL邏輯架構(gòu)

MySQL查詢過程

客戶端/服務(wù)端通信協(xié)議

查詢緩存

語法解析和預(yù)處理

查詢優(yōu)化

查詢執(zhí)行引擎

返回結(jié)果給客戶端

性能優(yōu)化建議

Scheme設(shè)計(jì)與數(shù)據(jù)類型優(yōu)化

創(chuàng)建高性能索引

索引相關(guān)的數(shù)據(jù)結(jié)構(gòu)和算法

高性能策略

1牵素、MySQL不會(huì)使用索引的情況：非獨(dú)立的列

2腰奋、前綴索引

3局冰、多列索引和索引順序

4拷况、避免多個(gè)范圍條件

5鹰服、覆蓋索引

6亡嫌、使用索引掃描來排序

7操灿、冗余和重復(fù)索引

8稀颁、刪除長(zhǎng)期未使用的索引

特定類型查詢優(yōu)化

優(yōu)化COUNT()查詢

優(yōu)化關(guān)聯(lián)查詢

優(yōu)化LIMIT分頁

優(yōu)化UNION

推薦閱讀更多精彩內(nèi)容