索引分為聚簇索引和非聚簇索引。
以一本英文課本為例庞呕,要找第8課新翎,直接翻書,若先翻到第5課住练,則往后翻地啰,再翻到第10課,則又往前翻讲逛。這本書本身就是一個索引亏吝,即“聚簇索引”。
如果要找"fire”這個單詞盏混,會翻到書后面的附錄蔚鸥,這個附錄是按字母排序的,找到F字母那一塊许赃,再找到"fire”株茶,對應(yīng)的會是它在第幾課。這個附錄图焰,為“非聚簇索引”。
由此可見蹦掐,聚簇索引的順序就是數(shù)據(jù)存放的順序技羔,所以,很容易理解卧抗,一張數(shù)據(jù)表只能有一個聚簇索引藤滥。
聚簇索引要比非聚簇索引查詢效率高很多,特別是范圍查詢的時候社裆。所以拙绊,至于聚簇索引到底應(yīng)該為主鍵,還是其他字段泳秀,這個可以再討論标沪。
1、MYSQL的索引
mysql中嗜傅,不同的存儲引擎對索引的實(shí)現(xiàn)方式不同金句,大致說下MyISAM和InnoDB兩種存儲引擎。
MyISAM的B+Tree的葉子節(jié)點(diǎn)上的data吕嘀,并不是數(shù)據(jù)本身违寞,而是數(shù)據(jù)存放的地址贞瞒。主索引和輔助索引沒啥區(qū)別,只是主索引中的key一定得是唯一的趁曼。這里的索引都是非聚簇索引军浆。
MyISAM還采用壓縮機(jī)制存儲索引,比如挡闰,第一個索引為“her”乒融,第二個索引為“here”,那么第二個索引會被存儲為“3,e”尿这,這樣的缺點(diǎn)是同一個節(jié)點(diǎn)中的索引只能采用順序查找簇抵。
InnoDB 的數(shù)據(jù)文件本身就是索引文件,B+Tree的葉子節(jié)點(diǎn)上的data就是數(shù)據(jù)本身射众,key為主鍵碟摆,這是聚簇索引。非聚簇索引叨橱,葉子節(jié)點(diǎn)上的data是主鍵 (所以聚簇索引的key典蜕,不能過長)。為什么存放的主鍵罗洗,而不是記錄所在地址呢愉舔,理由相當(dāng)簡單,因?yàn)?strong>記錄所在地址并不能保證一定不會變伙菜,但主鍵可以保證轩缤。
至于為什么主鍵通常建議使用自增id呢?
2贩绕、聚簇索引
聚簇索引的數(shù)據(jù)的物理存放順序與索引順序是一致的火的,即:只要索引是相鄰的,那么對應(yīng)的數(shù)據(jù)一定也是相鄰地存放在磁盤上的淑倾。如果主鍵不是自增id馏鹤,那么可以想 象,它會干些什么娇哆,不斷地調(diào)整數(shù)據(jù)的物理地址湃累、分頁,當(dāng)然也有其他一些措施來減少這些操作碍讨,但卻無法徹底避免治力。但,如果是自增的勃黍,那就簡單了琴许,它只需要一 頁一頁地寫,索引結(jié)構(gòu)相對緊湊溉躲,磁盤碎片少榜田,效率也高益兄。
聚簇索引不但在檢索上可以大大滴提高效率,在數(shù)據(jù)讀取上也一樣箭券。比如:需要查詢f~t的所有單詞净捅。
一個使用MyISAM的主索引,一個使用InnoDB的聚簇索引辩块。兩種索引的B+Tree檢索時間一樣蛔六,但讀取時卻有了差異。
因?yàn)镸yISAM的主索引并非聚簇索引废亭,那么他的數(shù)據(jù)的物理地址必然是凌亂的国章,拿到這些物理地址,按照合適的算法進(jìn)行I/O讀取豆村,于是開始不停的尋道不停的旋轉(zhuǎn)液兽。聚簇索引則只需一次I/O。
不過掌动,如果涉及到大數(shù)據(jù)量的排序四啰、全表掃描、count之類的操作的話粗恢,還是MyISAM占優(yōu)勢些柑晒,因?yàn)樗饕伎臻g小,這些操作是需要在內(nèi)存中完成的眷射。
鑒于聚簇索引的范圍查詢效率匙赞,很多人認(rèn)為使用主鍵作為聚簇索引太多浪費(fèi),畢竟幾乎不會使用主鍵進(jìn)行范圍查詢妖碉。但若再考慮到聚簇索引的存儲罚屋,就不好定論了。
感謝網(wǎng)友的分享:
http://hi.baidu.com/lzpsky/item/899e7df5498c66ce521c262b