一. 背景
有一天,同事在進行測試環(huán)境項目啟動時轰异,發(fā)現(xiàn)項目啟動不了了岖沛,看了一下日志,發(fā)現(xiàn)是redis
連接不上搭独,測試又特別著急要測試即將上線的項目婴削,因此我快速的開始了bug的解決。我們項目使用的是redis-cluster
牙肝,一共部署了6個redis
唉俗,其中四臺是master
,兩臺slave
配椭,情況如下虫溜。
二. 問題解決
2.1 百度
遇到這個問題后第一時間想到的是百度,但是發(fā)現(xiàn)搜索了很久都沒有一篇與這個問題相似的文章股缸。于是沒有辦法衡楞,只能自己一點點慢慢追蹤bug了。
2.2 查看服務器集群信息
根據(jù)提示信息敦姻,我第一時間想到的是7001結點宕機了瘾境,于是登錄7001所在服務器,查看了一下集群狀態(tài)镰惦,發(fā)現(xiàn)集群健康迷守,然后到redis-cli
進入redis
中查看集群信息
[root@centos-43 bin]# ./redis-cli -c -p 7001 -h 172.16.1.14
172.16.1.14:7001> cluster nodes
730376eb543eea5d0688493446f7048b05305fb3 172.16.1.15:7002 slave 3250e26afd654e3480dc9592b5bccb0c67b772b5 0 1630052995292 22 connected
3250e26afd654e3480dc9592b5bccb0c67b772b5 172.16.1.18:7005 master - 0 1630052993290 22 connected 5461-10922
98a20c554b733a254b79e7e795b8f81b6e73d0bf 172.16.1.19:7006 slave 5742015521dc500addc090d46c9fa85624f023d9 0 1630052993790 14 connected
e4dce6887c19274e7a5445f7a031dcba05b28e91 172.16.1.14:7001 master - 0 1630052994792 0 connected
ae4dea0536889fa0aa2b18b5900fbf3ef47aeafd 172.16.1.17:7004 master - 0 1630052995393 11 connected 0-5460
5742015521dc500addc090d46c9fa85624f023d9 172.16.1.16:7003 myself,master - 0 0 14 connected 10923-16383
172.16.1.14:7001> cluster info
cluster_state:ok
cluster_slots_assigned:16384
cluster_slots_ok:16384
cluster_slots_pfail:0
cluster_slots_fail:0
cluster_known_nodes:6
cluster_size:4
cluster_current_epoch:23
cluster_my_epoch:23
cluster_stats_messages_sent:433846
cluster_stats_messages_received:525659
集群狀態(tài)良好。然后再使用Redis Desktop Manager
看是否能連接上redis
旺入,發(fā)現(xiàn)可以正常連接上兑凿,又在本地ping了一下172.16.1.14
、telnet 172.16.1.14 7001
眨业,都能夠正常連接急膀。這就感覺很奇怪了,代碼也沒有改動龄捡,redis
也是正常啟動的卓嫂,怎么會報錯呢?
2.3 查看源碼
無奈,只能從源碼開始看起聘殖,由于問題已經(jīng)解決晨雳,所以我沒有異常棧的信息了,因此只能展示報錯位置
在JedisClusterConnection
的getResourceForSpecificNode
方法中奸腺,報了IllegalArgumentException
餐禁,說是Node 172.16.1.14:7001 is unknown to cluster
,意思是 172.16.1.14:7001
這個結點不能被集群感知到突照。這個方法里面調(diào)用了getResourcePoolForSpecificNode
方法
帮非,中間幾個追蹤的類這里就不多展示,直接到最后的位置,
上面那行代碼取出的RedisClusterNode
就是從這個nodes
參數(shù)轉換而來的末盔,這個nodes
是一個由ip:port
為key筑舅,JedisPool
為value的map。
接下來回過頭看getResourcePoolForSpecificNode
方法陨舱,發(fā)現(xiàn)其實就是從nodes
這個map
里面娶不到傳入的那個node
翠拣,那么為什么會取不到呢?我們?nèi)フ艺疫@個node
是怎么來的游盲。
從異常椢竽梗看JedisClusterConnection
的getResourceForSpecificNode
方法的調(diào)用方,可以發(fā)現(xiàn)有以下調(diào)用鏈益缎。
追到這個位置后谜慌,我打了個斷點,啟動了一下項目莺奔,看了一下代碼畦娄,重點是在initializeSlotsCach
方法里面調(diào)用了cache.discoverClusterNodesAndSlots
,而這個方法的代碼大概的意思是加載了配置里配置的集群信息弊仪,之后調(diào)用集群中一個結點來獲取這個集群中所有的分配了槽的結點并加入上面提到的nodes
中熙卡。
2.4 得出結論
于是我們可以發(fā)現(xiàn),是在將第二個nodes
里的node
遍歷傳入励饵,并判斷是否在第一個nodes
中驳癌,然后報錯的,那為什么在第一個nodes
中不存在172.16.1.14:7001
結點呢役听?這兩個nodes
的區(qū)別在哪里呢颓鲜?仔細比對兩段添加nodes
的代碼可以發(fā)現(xiàn),第一個地方傳入的時候是直接將集群中所有結點放入進去典予,而第二個甜滨,則對槽進行了判斷,這意味著可能有的master
結點并沒有分配槽瘤袖,因此這個結點便沒有加入到第二個nodes
中衣摩。
意識到這一點之后,我便去服務器上再看了一眼集群信息捂敌,發(fā)現(xiàn)172.16.1.14:7001
這個結點確實沒有分配槽
三. 重新分配槽
redis-cluster
的操作是有一個redis-trib.rb腳本艾扮,這個腳本里面封裝了一些操作,其中就包括了往集群中增加機器后重新分配槽的命令
命令格式: redis-trib.rb reshard 節(jié)點h:p (此處可以參考https://blog.csdn.net/weixin_42363154/article/details/112367865這篇文章占婉,講的很詳細)
于是進入到redis-trib.rb所在的服務器泡嘴,再進入redis-trib.rb的src目錄下執(zhí)行命令
./redis-trib.rb reshard reshard 172.16.1.14:7001
執(zhí)行完命令后,還有幾個選項逆济,包括給這個結點分配的槽數(shù)酌予、從其他結點分別轉移多少個槽到這個結點等等磺箕,一一填寫后,執(zhí)行命令
執(zhí)行完成后的集群情況如下
可以看到抛虫,槽已經(jīng)重新分配成功滞磺,7001結點從其他結點分配過來了0-1364 5461-6826 10923-12287這三個段的槽
redis-cluster弄好之后,重啟項目莱褒,重啟成功!問題解決
四. 總結
測試環(huán)境的redis
已經(jīng)使用好幾年了涎劈,一直都沒有問題广凸,不知道是不是因為有人操作過導致這一次問題,因為是測試環(huán)境蛛枚,因此賬號密碼是內(nèi)部公開的谅海。