1 案例: 給郵箱登錄字段加索引
2 部分前綴作為索引 add index index2(email(6)); 只取6個(gè)字節(jié)
3 使用前綴索引沟绪,定義好長(zhǎng)度,就可以做到既節(jié)省空間空猜,又不用額外增加太多的查詢成本绽慈。
4 通過(guò)區(qū)分度來(lái)確定某個(gè)字符串字段的長(zhǎng)度選取
5 select count(distinct email) as L from SUser; 獲取不重復(fù)的數(shù)量
6 mysql> select
count(distinct left(email,4))as L4,
count(distinct left(email,5))as L5,
count(distinct left(email,6))as L6,
count(distinct left(email,7))as L7,
from SUser; 獲取前幾個(gè)字節(jié)不重復(fù)的數(shù)量
7 可以考慮損失百分之95的區(qū)分度
8 使用前綴索引則無(wú)法用到覆蓋索引 , 因?yàn)樾枰乇砼袛?br>
9 身份證號(hào)的案例 , 18位 , 前6位是地址碼 , 區(qū)分度低 , 可以通過(guò)倒序存儲(chǔ) , 因?yàn)楹竺娴臄?shù)字區(qū)分度高一些 ,
10 第二種方法是使用hash , 新增一個(gè)字段存整數(shù)哈希 , 變成了4個(gè)字節(jié) , 節(jié)省空間
11 都不能進(jìn)行范圍查詢
12 對(duì)這兩種解決方案的對(duì)比
它們的區(qū)別,主要體現(xiàn)在以下三個(gè)方面:
- 從占用的額外空間來(lái)看抄肖,倒序存儲(chǔ)方式在主鍵索引上久信,不會(huì)消耗額外的存儲(chǔ)空間,而hash字段方法需要增加一個(gè)字段漓摩。當(dāng)然裙士,倒序存儲(chǔ)方式使用4個(gè)字節(jié)的前綴長(zhǎng)度應(yīng)該是不夠的,如果再長(zhǎng)一點(diǎn)管毙,這個(gè)消耗跟額外這個(gè)hash字段也差不多抵消了腿椎。
- 在CPU消耗方面,倒序方式每次寫和讀的時(shí)候夭咬,都需要額外調(diào)用一次reverse函數(shù)啃炸,而hash字段的方式需要額外調(diào)用一次crc32()函數(shù)。如果只從這兩個(gè)函數(shù)的計(jì)算復(fù)雜度來(lái)看的話卓舵,reverse函數(shù)額外消耗的CPU資源會(huì)更小些南用。
- 從查詢效率上看,使用hash字段方式的查詢性能相對(duì)更穩(wěn)定一些掏湾。因?yàn)閏rc32算出來(lái)的值雖然有沖突的概率裹虫,但是概率非常小,可以認(rèn)為每次查詢的平均掃描行數(shù)接近1融击。而倒序存儲(chǔ)方式畢竟還是用的前綴索引的方式筑公,也就是說(shuō)還是會(huì)增加掃描行數(shù)。
13 reverse() 函數(shù) crc32()函數(shù)
14 思考題: 如果你在維護(hù)一個(gè)學(xué)校的學(xué)生信息數(shù)據(jù)庫(kù)尊浪,學(xué)生登錄名的統(tǒng)一格式是”學(xué)號(hào)@gmail.com", 而學(xué)號(hào)的規(guī)則是:十五位的數(shù)字匣屡,其中前三位是所在城市編號(hào)封救、第四到第六位是學(xué)校編號(hào)、第七位到第十位是入學(xué)年份捣作、最后五位是順序編號(hào)誉结。系統(tǒng)登錄的時(shí)候都需要學(xué)生輸入登錄名和密碼,驗(yàn)證正確后才能繼續(xù)使用系統(tǒng)虾宇。就只考慮登錄驗(yàn)證這個(gè)行為的話搓彻,你會(huì)怎么設(shè)計(jì)這個(gè)登錄名的索引呢?
我會(huì)采用hash的方式 , 直接將學(xué)號(hào)字符串存為整數(shù) , 這也是一種最簡(jiǎn)單的哈希吧