面試官:你們系統(tǒng)是怎么實(shí)現(xiàn)分布式鎖的砾层?
我:我們使用了redis的分布式鎖漩绵。具體做法是后端接收到請(qǐng)求后加入一個(gè)分布式鎖,如果加鎖成功肛炮,就執(zhí)行業(yè)務(wù)止吐,如果加鎖失敗就等待鎖或者拒絕請(qǐng)求。業(yè)務(wù)執(zhí)行完成后釋放鎖侨糟。
面試官:能說(shuō)一下具體使用的命令嗎碍扔?
我:我們使用的是SETNX命令,具體如下:
SETNXKEY_NAME VALUE
設(shè)置成功返回1粟害,設(shè)置失敗返回0蕴忆。如下圖颤芬,客戶(hù)端1加鎖成功悲幅,客戶(hù)端2獲取鎖失敗:
面試官:這樣設(shè)置會(huì)不會(huì)有問(wèn)題呢站蝠?如果加鎖成功的客戶(hù)端掛了怎么辦汰具?
我:比如上圖中的客戶(hù)端1掛了,這個(gè)鎖就不能釋放了菱魔×衾螅可以設(shè)置一個(gè)過(guò)期時(shí)間,命令如下:
SETkeyvalue[EXseconds] [PX milliseconds] NX
面試官:設(shè)置了過(guò)期時(shí)間,如果業(yè)務(wù)還沒(méi)有執(zhí)行完成聚蝶,但是redis鎖過(guò)期了杰妓,怎么辦?
我:需要對(duì)鎖進(jìn)行續(xù)約碘勉。
面試官:能說(shuō)一下具體怎么操作嗎巷挥?
我:設(shè)置鎖成功后,啟動(dòng)一個(gè)watchdog验靡,每隔一段時(shí)間(比如10s)為當(dāng)前分布式鎖續(xù)約倍宾,也就是每隔10s重新設(shè)置當(dāng)前key的超時(shí)時(shí)間。命令如下:
EXPIRE
整個(gè)流程如下:
面試官:watchdog怎么實(shí)現(xiàn)呢胜嗓?
我:當(dāng)客戶(hù)端加鎖成功后高职,可以啟動(dòng)一個(gè)定時(shí)任務(wù),每隔10s(最好支持配置)來(lái)檢測(cè)業(yè)務(wù)是否處理完成辞州,檢測(cè)的依據(jù)就是判斷分布式鎖的key是否還存在怔锌,如果存在,就進(jìn)行續(xù)約变过。
面試官:如果當(dāng)前線(xiàn)程已經(jīng)處理完产禾,這個(gè)key是被其他客戶(hù)端寫(xiě)入的呢?
我:可以為每個(gè)客戶(hù)端指定一個(gè)clientID牵啦,在VALUE中增加一個(gè)clientID的前綴亚情,這樣在續(xù)鎖的時(shí)候,可以判斷當(dāng)前分布式鎖的value前綴來(lái)確定是不是當(dāng)前客戶(hù)端的哈雏,如果是再續(xù)鎖楞件,否則不做處理。
面試官:你們的續(xù)鎖功能是自己實(shí)現(xiàn)的嗎裳瘪?
我:我們用的redisson的分布式鎖方案土浸,使用redisson獲取分布式鎖非常簡(jiǎn)單,代碼如下:
RLocklock= redisson.getLock("client-lock");lock.lock();try{//處理業(yè)務(wù)}catch(Exception e) {//處理異常}finally{lock.unlock();}
具體原理是:如果客戶(hù)端1加鎖成功彭羹,這個(gè)分布式鎖超時(shí)時(shí)間默認(rèn)是30秒(可以通過(guò)Config.lockWatchdogTimeout來(lái)修改)黄伊。加鎖成功后,就會(huì)啟動(dòng)一個(gè)watchdog派殷,watchdog是一個(gè)后臺(tái)線(xiàn)程还最,會(huì)每隔10秒檢查一下客戶(hù)端1是否還持有鎖key,如果是毡惜,就延長(zhǎng)鎖key的生存時(shí)間拓轻,延長(zhǎng)操作就是再次把鎖key的超時(shí)時(shí)間設(shè)置成30s。
面試官:redisson里的定時(shí)器怎么實(shí)現(xiàn)的经伙?
我:redisson定時(shí)器使用的是netty-common包中的HashedWheelTime來(lái)實(shí)現(xiàn)的扶叉。
面試官:如果client1宕機(jī)了,這時(shí)分布式鎖還可以續(xù)期嗎?
我:因?yàn)榉植际芥i的續(xù)期是在客戶(hù)端執(zhí)行的枣氧,所以如果client1宕機(jī)了溢十,續(xù)期線(xiàn)程就不能工作了,也就不能續(xù)期了达吞。這時(shí)應(yīng)該把分布式鎖刪除茶宵,讓其他客戶(hù)端來(lái)獲取。
面試官:那如果client1宕機(jī)了宗挥,其他客戶(hù)端需要等待30s才能有機(jī)會(huì)獲取到鎖乌庶,有辦法立刻刪除鎖嗎?
我:因?yàn)閏lient1宕機(jī)了契耿,只能等到超時(shí)時(shí)間后鎖被自動(dòng)刪除瞒大。如果要立刻刪除,需要增加額外的工作搪桂,比如增加哨兵機(jī)制透敌,讓哨兵來(lái)維護(hù)所有redis客戶(hù)端的列表。哨兵定時(shí)監(jiān)控客戶(hù)端是否宕機(jī)踢械,如果檢測(cè)到宕機(jī)酗电,立刻刪除這個(gè)客戶(hù)端的鎖。如下圖:
這里的哨兵并不是redis的哨兵内列,而且為了檢測(cè)客戶(hù)端故障業(yè)務(wù)系統(tǒng)自己做的哨兵撵术。
面試官:如果不用redisson,怎么實(shí)現(xiàn)分布式鎖續(xù)鎖呢话瞧?比如springboot2.0默認(rèn)使用redis客戶(hù)端是Lettuce嫩与。
我:Lettuce并沒(méi)有提供像redisson這樣的watchdog機(jī)制,所以續(xù)鎖需要業(yè)務(wù)系統(tǒng)自己實(shí)現(xiàn)交排』蹋可以分為以下幾步來(lái)實(shí)現(xiàn):
加鎖的命令,我們參照spring包里的分布式鎖代碼埃篓,如果鎖存在并且是當(dāng)前客戶(hù)端加的鎖处坪,那就續(xù)鎖,如果鎖不存在架专,則加鎖同窘。代碼如下:
private static final String OBTAIN_LOCK_SCRIPT =? ? ? ? "local lockClientId = redis.call('GET',KEYS[1])\n" +
? ? ? ? ? ? ? ? "iflockClientId == ARGV[1]then\n" +
? ? ? ? ? ? ? ? "redis.call('PEXPIRE',KEYS[1], ARGV[2])\n" +
? ? ? ? ? ? ? ? "returntrue\n" +
? ? ? ? ? ? ? ? "elseifnotlockClientIdthen\n" +
? ? ? ? ? ? ? ? "redis.call('SET',KEYS[1], ARGV[1],'PX', ARGV[2])\n" +
? ? ? ? ? ? ? ? "returntrue\n" +
? ? ? ? ? ? ? ? "end\n" +
? ? ? ? ? ? ? ? "returnfalse";
把鎖保存在一個(gè)數(shù)據(jù)結(jié)構(gòu)里,比如HashMap胶征,定時(shí)任務(wù)定時(shí)掃描這個(gè)map塞椎,對(duì)每個(gè)鎖進(jìn)行續(xù)鎖操作。代碼如下:
privatefinalMap locks =newConcurrentHashMap<>();
續(xù)鎖命令
private static final String RENEW_LOCK_SCRIPT =? ? ? ? ? ? "local lockClientId = redis.call('GET',KEYS[1])\n" +
? ? ? ? ? ? ? ? ? ? "iflockClientId == ARGV[1]then\n" +
? ? ? ? ? ? ? ? ? ? "redis.call('PEXPIRE',KEYS[1], ARGV[2])\n" +
? ? ? ? ? ? ? ? ? ? "returntrue\n" +
? ? ? ? ? ? ? ? ? ? "end\n" +
? ? ? ? ? ? ? ? ? ? "returnfalse";
如果鎖是當(dāng)前客戶(hù)端加的睛低,那就續(xù)鎖,否則失敗。
寫(xiě)一個(gè)定時(shí)任務(wù)钱雷,定時(shí)執(zhí)行續(xù)鎖代碼:
redisTemplate.execute(renewLockScript,Collections.singletonList(lockKey),clientId,String.valueOf(expireAfter));
面試官:這個(gè)問(wèn)題就聊到這里骂铁,咱們下一個(gè)問(wèn)題...