mysql單表在數(shù)據(jù)量超過(guò)千萬(wàn)的時(shí)候,性能就會(huì)受到極大的影響。尤其是對(duì)于不命中索引的請(qǐng)求合武,破壞性是難以想象的。當(dāng)單表的數(shù)據(jù)量達(dá)到一定程度的時(shí)候涡扼,我們就需要進(jìn)行分表或者表分區(qū)了稼跳。分表面臨的第一個(gè)問(wèn)題就是主鍵ID生成的問(wèn)題,因?yàn)樯婕暗蕉啾沓曰Γ栽締伪淼淖栽鯥D生成已經(jīng)不可用了岂贩。那么我們就需要生成全局的ID,有兩種方法供我們選擇巷波,兩者也各有優(yōu)缺點(diǎn)萎津。
1.使用外部依賴(lài)生成全局ID#####
最常見(jiàn)的算法就是利用外部的存儲(chǔ),例如Redis抹镊、Mysql或者Zookeeper來(lái)實(shí)現(xiàn)锉屈。上述三者比較推崇的是用Redis來(lái)實(shí)現(xiàn),因?yàn)镽edis是單線(xiàn)程架構(gòu)垮耳,同時(shí)天生是為高并發(fā)而生颈渊,而且實(shí)現(xiàn)起來(lái)是比較簡(jiǎn)單的。對(duì)于Mysql的話(huà)有點(diǎn)重终佛,大家都懂俊嗽,性能實(shí)在不如Redis。對(duì)于Zookeeper的話(huà)铃彰,場(chǎng)景不是很適用绍豁,你可以創(chuàng)建順序的臨時(shí)節(jié)點(diǎn)來(lái)生成ID,但是這確實(shí)不是Zookeeper擅長(zhǎng)的牙捉,就像拿著鐵鍬切白菜竹揍。同時(shí)Zookeeper對(duì)于高并發(fā)場(chǎng)景實(shí)在是不行。例如邪铲,某東雙十一的服務(wù)爆炸事件....芬位。但是上面這些實(shí)現(xiàn)多少都有些臃腫。因?yàn)槟阈枰ヒ蕾?lài)一個(gè)第三方的東西带到,而僅僅是為了生成一個(gè)ID昧碉。第三方系統(tǒng)的可用性,也直接決定了你系統(tǒng)的可用性。這種依賴(lài)確實(shí)是有些重被饿。所以我們需要更輕量級(jí)的ID生成方案四康。
2.利用算法生成ID#####
相比上面依賴(lài)第三方生成ID,那么利用算法生成簡(jiǎn)直是輕量锹漱,性能也是遠(yuǎn)遠(yuǎn)高于上面的方法。但是有幾個(gè)關(guān)鍵的點(diǎn):
1.對(duì)于數(shù)據(jù)庫(kù)來(lái)說(shuō)慕嚷,對(duì)于隨機(jī)ID的插入會(huì)導(dǎo)致索引頁(yè)頻繁分裂哥牍,這樣會(huì)使插入操作變慢,索引頁(yè)碎片越來(lái)越嚴(yán)重喝检。所以成算法需要能保證生產(chǎn)ID有序嗅辣。
2.現(xiàn)在的后臺(tái)都是服務(wù)化的,那么這樣生成算法要保證挠说,無(wú)論在哪個(gè)節(jié)點(diǎn)都要保證生成的ID都是全局唯一的澡谭。
3.生成的ID需要有比較強(qiáng)的隨機(jī)性,這樣在分表的時(shí)候可以盡可能的均勻分布损俭。
這樣看來(lái)蛙奖,這樣的生成算法確實(shí)是比較困難的,下面我們就實(shí)現(xiàn)一個(gè)這樣的ID生成算法杆兵。
首先雁仲,我們需要確定一個(gè)隨機(jī)因素,這應(yīng)該是一個(gè)隨機(jī)遞增的因子琐脏,那么時(shí)間戳無(wú)疑十分合適攒砖,線(xiàn)上服務(wù)器往往都有全局統(tǒng)一的時(shí)間。我們可以用時(shí)間戳遞增的特點(diǎn)日裙,來(lái)保證ID遞增吹艇。
同時(shí)我們需要一個(gè)標(biāo)識(shí)來(lái)區(qū)分不同的機(jī)器,這樣能在同一毫秒沖突下昂拂,解決沖突問(wèn)題受神。
但是光有機(jī)器的沖突解決還是不夠的,在高并發(fā)場(chǎng)景下格侯,同一毫秒會(huì)有很多的請(qǐng)求路克,我們需要解決一臺(tái)機(jī)器的高并發(fā)問(wèn)題,我們可以使用一個(gè)遞增的序列號(hào)养交,來(lái)保證一臺(tái)機(jī)器上的ID是有序的精算。
那么ID就變成了下面的格式:
時(shí)間戳|機(jī)器ID|沖突遞增序列號(hào)####
這樣就解決了ID生成的問(wèn)題,但是好像還有一些問(wèn)題沒(méi)解決碎连,ID的長(zhǎng)度怎么控制灰羽,分表的路由規(guī)則怎么確定?
首先,對(duì)于ID長(zhǎng)度的確定廉嚼,上面的ID規(guī)則里玫镐,機(jī)器ID和沖突遞增號(hào)基本是不會(huì)更改的,我們可以決定一個(gè)Seed怠噪,來(lái)生成前綴時(shí)間戳恐似,可以用當(dāng)前時(shí)間戳減去Seed,這樣可以通過(guò)控制Seed的長(zhǎng)度來(lái)控制前綴時(shí)間戳的長(zhǎng)度傍念,進(jìn)而控制ID的長(zhǎng)度矫夷。
對(duì)于分表的路由規(guī)則,如果我們利用ID取模來(lái)實(shí)現(xiàn)路由憋槐,其實(shí)是不能保證均勻的双藕,因?yàn)楹竺鏅C(jī)器ID和沖突的序列號(hào)對(duì)路由取模是有很大影響的,所以我們可以利用位移運(yùn)算來(lái)取前綴的時(shí)間戳阳仔,因?yàn)榍熬Y時(shí)間戳是全局順序的忧陪,那么做分區(qū)路由的時(shí)候也會(huì)是盡可能均勻的。
其實(shí)ID的生成算法是比較簡(jiǎn)單的近范,但是使用過(guò)程中還是有很多問(wèn)題的嘶摊,比如ID長(zhǎng)度,看上去沒(méi)什么大礙评矩。但是對(duì)于一些對(duì)接其他系統(tǒng)的場(chǎng)景更卒,ID可能會(huì)讓你痛不欲生,而洗數(shù)據(jù)也是體力活兒稚照。如果ID過(guò)長(zhǎng)極容易產(chǎn)生前端顯示問(wèn)題蹂空,畢竟js的long是15位的。所以實(shí)際運(yùn)用中ID長(zhǎng)度也要嚴(yán)格把控果录。