熱Key問題
所謂熱key問題就是饰及,突然有幾十萬的請(qǐng)求去訪問redis上的某個(gè)特定key右蕊。那么,這樣會(huì)造成流量過于集中脯丝,達(dá)到物理網(wǎng)卡上線商膊,從而導(dǎo)致這臺(tái)redis的服務(wù)器宕機(jī)。
怎么發(fā)現(xiàn)熱key
方法一:憑借業(yè)務(wù)經(jīng)驗(yàn)宠进,進(jìn)行預(yù)估哪些是熱key
其實(shí)這個(gè)方法還是挺有可行性的翘狱。比如某商品在做秒殺,那這個(gè)商品的key就可以判斷出是熱key砰苍。缺點(diǎn)很明顯,并非所有業(yè)務(wù)都能預(yù)估出哪些key是熱key阱高。
方法二:在客戶端進(jìn)行收集
這個(gè)方式就是在操作redis之前赚导,加一行代碼進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。那么這個(gè)數(shù)據(jù)統(tǒng)計(jì)的方式有很多種赤惊,也可以是給外部的通訊系統(tǒng)發(fā)送一個(gè)通知信息吼旧。缺點(diǎn)就是對(duì)客戶端代碼造成入侵。
方法三:在Proxy做收集
有些集群架構(gòu)是下面這樣的未舟,Proxy可以是Twemproxy圈暗,是統(tǒng)一的入口≡0颍可以在Proxy層做收集上報(bào)员串,但是缺點(diǎn)很明顯,并非所有的redis集群架構(gòu)都有proxy昼扛。
方法四:用redis自帶命令
(1)monitor命令寸齐,該命令可以實(shí)時(shí)抓取出redis服務(wù)器接收到的命令,然后寫代碼統(tǒng)計(jì)出熱key是啥抄谐。當(dāng)然渺鹦,也有現(xiàn)成的分析工具可以給你使用,比如redis-faina蛹含。但是該命令在高并發(fā)的條件下毅厚,有內(nèi)存暴增的隱患,還會(huì)降低redis的性能浦箱。
(2)hotkeys參數(shù)吸耿,redis4.0.4提供了redis-cli的熱點(diǎn)key發(fā)現(xiàn)功能祠锣,執(zhí)行redis-cli時(shí)加上-hotkeys選項(xiàng)即可。但是該參數(shù)在執(zhí)行的時(shí)候珍语,如果key比較多锤岸,執(zhí)行起來比較慢。
方法五:自己抓包評(píng)估
Redis客戶端使用TCP協(xié)議與服務(wù)端進(jìn)行交互板乙,通信協(xié)議采用的是RESP是偷。自己寫程序監(jiān)聽端口,按照RESP協(xié)議規(guī)則解析數(shù)據(jù)募逞,進(jìn)行分析蛋铆。缺點(diǎn)就是開發(fā)成本高,維護(hù)困難放接,有丟包可能性刺啦。
如何解決
目前業(yè)內(nèi)的方案有兩種
一 利用二級(jí)緩存
比如利用ehcache,或者一個(gè)HashMap都可以纠脾。在你發(fā)現(xiàn)熱key以后玛瘸,把熱key加載到系統(tǒng)的JVM中。針對(duì)這種熱key請(qǐng)求苟蹈,會(huì)直接從jvm中取糊渊,而不會(huì)走到redis層。假設(shè)此時(shí)有十萬個(gè)針對(duì)同一個(gè)key的請(qǐng)求過來慧脱,如果沒有本地緩存渺绒,這十萬個(gè)請(qǐng)求就直接懟到同一臺(tái)redis上了。現(xiàn)在假設(shè)菱鸥,你的應(yīng)用層有50臺(tái)機(jī)器宗兼,你也有jvm緩存了。這十萬個(gè)請(qǐng)求平均分散開來氮采,每個(gè)機(jī)器有2000個(gè)請(qǐng)求殷绍,會(huì)從JVM中取到value值,然后返回?cái)?shù)據(jù)扳抽,避免了十萬個(gè)請(qǐng)求懟到同一臺(tái)redis上的情形篡帕。
二 備份熱key
這個(gè)方案也很簡(jiǎn)單。不要讓key走到同一臺(tái)redis上不就行了贸呢。我們把這個(gè)key镰烧,在多個(gè)redis上都存一份不就好了。接下來楞陷,有熱key請(qǐng)求進(jìn)來的時(shí)候,我們就在有備份的redis上隨機(jī)選取一臺(tái)固蛾,進(jìn)行訪問取值结执,返回?cái)?shù)據(jù)度陆。
假設(shè)redis的集群數(shù)量為N,步驟如下所示献幔。
注:不一定是2N懂傀,你想取3N,4N都可以蜡感,看要求蹬蚁。
偽代碼如下
const M = N * 2
//生成隨機(jī)數(shù)
random = GenRandom(0, M)
//構(gòu)造備份新key
bakHotKey = hotKey + “_” + random
data = redis.GET(bakHotKey)
if data == NULL {
data = GetFromDB()
redis.SET(bakHotKey, expireTime + GenRandom(0,5))
}
業(yè)內(nèi)方案
在項(xiàng)目運(yùn)行過程中,自動(dòng)發(fā)現(xiàn)熱key郑兴,然后程序自動(dòng)處理犀斋。主要有兩步:
(1)監(jiān)控?zé)醟ey
(2)通知系統(tǒng)做處理
透明多級(jí)緩存解決方案(TMC)
(1)監(jiān)控?zé)醟ey
在監(jiān)控?zé)醟ey方面,在客戶端進(jìn)行收集情连,TMC對(duì)原生jedis包的JedisPool和jedis類做了改造叽粹,在jedisPool初始化過程中集成TMC“熱點(diǎn)發(fā)現(xiàn)”+“本地緩存”功能Hermes-SDK包的初始化邏輯。
也就說人家改寫了jedis原生的jar包却舀,加入了Hermes-SDK包虫几。
Hermes-SDK包就是做熱點(diǎn)發(fā)現(xiàn)和本地緩存。從監(jiān)控的角度看挽拔,該包對(duì)于Jedis-Client的每次key值訪問請(qǐng)求持钉,Hermes-SDK都會(huì)通過其通信模塊將key訪問事件異步上報(bào)給Hermes服務(wù)端集群,以便其根據(jù)上報(bào)數(shù)據(jù)進(jìn)行“熱點(diǎn)探測(cè)”篱昔。
當(dāng)然,這只是其中一種方式始腾,有的公司在監(jiān)控方面用的是方式五:自己抓包評(píng)估州刽。
具體是這么做的,利用flink搭建一套流式計(jì)算系統(tǒng)浪箭。然后自己寫一個(gè)抓包程序抓redis監(jiān)聽端口的數(shù)據(jù)穗椅,抓到數(shù)據(jù)后往kafka里丟。接下來奶栖,流式計(jì)算系統(tǒng)消費(fèi)kafka里的數(shù)據(jù)匹表,進(jìn)行數(shù)據(jù)統(tǒng)計(jì)即可,也能達(dá)到監(jiān)控?zé)醟ey的目的宣鄙。
(2)通知系統(tǒng)做處理
這個(gè)角度袍镀,用到的是上面的解決方案一:利用二級(jí)緩存進(jìn)行處理。
在監(jiān)控到熱key后冻晤,Hermes服務(wù)端集群會(huì)通過各種手段通知各業(yè)務(wù)系統(tǒng)里的Hermes-SDK苇羡,告訴他們:“老弟,這個(gè)key是熱key鼻弧,記得做本地緩存”设江。
于是Hermes-SDK就會(huì)將key緩存在本地锦茁,對(duì)于后面的請(qǐng)求。Hermes-SDK發(fā)現(xiàn)這個(gè)是一個(gè)熱key叉存,直接從本地中拿码俩,而不會(huì)去訪問集群。
除了這種通知方式以外歼捏。我們也可以這么做稿存,比如你的流式計(jì)算系統(tǒng)監(jiān)控到熱key了,往zookeeper里頭的某個(gè)節(jié)點(diǎn)里寫甫菠。然后你的業(yè)務(wù)系統(tǒng)監(jiān)聽該節(jié)點(diǎn)挠铲,發(fā)現(xiàn)節(jié)點(diǎn)數(shù)據(jù)變化了,就代表發(fā)現(xiàn)熱key寂诱。最后往本地緩存里寫拂苹,也是可以的。