文章原創(chuàng)作者:北京嘩啦啦 基礎(chǔ)架構(gòu)部架構(gòu)師 王曉鵬
文章推薦人:程超
一、背景
一款技術(shù)產(chǎn)品必定有其使用場(chǎng)景牍帚,不然代碼寫的再好也沒(méi)有用武之地儡遮,那么首先我們要先來(lái)了解一下,在什么情況下會(huì)用到延遲隊(duì)列呢暗赶?
- 當(dāng)訂單一直處于未支付狀態(tài)時(shí)鄙币,如何及時(shí)的關(guān)閉訂單,并退還庫(kù)存蹂随?
- 如何定期檢查處于退款狀態(tài)的訂單是否已經(jīng)退款成功十嘿?
- 新創(chuàng)建店鋪,N天內(nèi)沒(méi)有上傳商品岳锁,系統(tǒng)如何知道該信息绩衷,并發(fā)送激活短信?等等
以上業(yè)務(wù)場(chǎng)景均可以使用延遲隊(duì)列來(lái)解決浸锨。
二唇聘、名字解釋
延遲隊(duì)列
顧名思義,就是延遲消費(fèi)的隊(duì)列柱搜。隊(duì)列中存儲(chǔ)的對(duì)象肯定是對(duì)應(yīng)的延時(shí)消息迟郎,所謂“延時(shí)消息”是指當(dāng)消息被發(fā)送以后,并不想讓消費(fèi)者立即拿到消息聪蘸,而是等待指定時(shí)間后宪肖,消費(fèi)者才拿到這個(gè)消息進(jìn)行消費(fèi)表制。
三、目前現(xiàn)有實(shí)現(xiàn)方案:
1控乾、數(shù)據(jù)庫(kù)輪詢
思路是創(chuàng)建一張任務(wù)表么介,表中保存將要執(zhí)行的任務(wù),執(zhí)行時(shí)間蜕衡,以及狀態(tài)壤短。
執(zhí)行任務(wù)的機(jī)器來(lái)輪詢這個(gè)表,尋找新建狀態(tài)且run_time_millis小于當(dāng)前時(shí)間戳的任務(wù)慨仿,然后將其修改為開始狀態(tài)久脯,若成功改為開始狀態(tài)則執(zhí)行任務(wù),任務(wù)執(zhí)行成功后修改為成功镰吆,若失敗且沒(méi)有超出任務(wù)執(zhí)行最大次數(shù)則增加sequence字段并將任務(wù)改為新建狀態(tài)帘撰,同時(shí)將run_time_millis修改為任務(wù)下次要執(zhí)行的時(shí)間,若失敗且超出最大執(zhí)行次數(shù)則將任務(wù)狀態(tài)改為失敗狀態(tài)万皿。
優(yōu)點(diǎn)是簡(jiǎn)單可靠摧找,缺點(diǎn)時(shí)需要輪詢,浪費(fèi)cpu牢硅。
2蹬耘、redis zset
利用redis的zset數(shù)據(jù)結(jié)構(gòu)。
score使用任務(wù)時(shí)間戳唤衫,輪詢是按照小于當(dāng)前時(shí)間的范圍去選擇婆赠。
3、java DelayQueue
java中的DelayQueue同樣可以作為單JVM的延遲隊(duì)列佳励。
優(yōu)點(diǎn): 不引入其他服務(wù)依賴休里,wait-notify機(jī)制,不做polling赃承,不會(huì)浪費(fèi)cpu妙黍。
缺點(diǎn): 數(shù)據(jù)保存在JVM內(nèi)存中,當(dāng)應(yīng)用重啟會(huì)造成數(shù)據(jù)丟失瞧剖,或者數(shù)據(jù)量大時(shí)造成DelayQueue過(guò)大拭嫁。
4、RabbitMQ 死信隊(duì)列
rabbitmq本身是不支持延遲隊(duì)列的抓于,但是利用ttl 以及DLE (Dead Letter Exchanges)可以模擬出延遲隊(duì)列做粤。
我們公司之前一直使用這種方式,但是使用時(shí)有一些坑兒捉撮,比如:每個(gè)延遲時(shí)間需要單獨(dú)一個(gè)隊(duì)列(5分鐘延時(shí)是一個(gè)怕品,10分鐘延遲是另外一個(gè))。除此以外巾遭,使用較復(fù)雜肉康,對(duì)開發(fā)者有一定的要求闯估。
總結(jié)
我們考察了現(xiàn)有的延遲隊(duì)列實(shí)現(xiàn),基于有贊隊(duì)列的實(shí)現(xiàn)方案—使用redis zset作為隊(duì)列存儲(chǔ)結(jié)構(gòu)吼和,同時(shí)結(jié)合了java DelayQueue的wait-notify方式涨薪,重新實(shí)現(xiàn)了一套延遲隊(duì)列。
四炫乓、自研新方案
客戶端將一個(gè)需要延遲執(zhí)行的任務(wù)刚夺,發(fā)布到該隊(duì)列,時(shí)間到了以后末捣,即可執(zhí)行該任務(wù)光督。
1、設(shè)計(jì)要點(diǎn)
基本概念
- Job:需要異步處理的任務(wù)塔粒,是延遲隊(duì)列里的基本單元。與具體的Topic關(guān)聯(lián)在一起筐摘。
- Topic:一組相同類型Job的集合(隊(duì)列)卒茬。供消費(fèi)者來(lái)訂閱。
- delayJob:延遲執(zhí)行的任務(wù)咖熟。
- FailedDelayJob:delayJob執(zhí)行失敗后圃酵,會(huì)轉(zhuǎn)化為FailedDelayJob進(jìn)行重試,重試的job叫做FailedDelayJob馍管。
消息結(jié)構(gòu)
消息結(jié)構(gòu)字段含義:
- Topic:參考上文定義郭赐。
- Id:Job的唯一標(biāo)識(shí)。用來(lái)檢索和刪除指定的Job信息确沸。
- Delay:Job需要延遲的時(shí)間捌锭。單位:秒。(服務(wù)端會(huì)將其轉(zhuǎn)換為絕對(duì)時(shí)間)
- Body:Job的內(nèi)容罗捎,供消費(fèi)者做具體的業(yè)務(wù)處理观谦,以json格式存儲(chǔ)。
- callBack:回調(diào)接口地址桨菜。使用http協(xié)議豁状,該地址是一個(gè)url。
存儲(chǔ)結(jié)構(gòu)
狀態(tài)轉(zhuǎn)換說(shuō)明:
1倒得、客戶端publish一個(gè)job泻红,首先會(huì)被保存到delayQ中,此時(shí)狀態(tài)為published(DelayJob)霞掺;
2.谊路、超時(shí)后,會(huì)從delayQ中取出根悼,放入ReadyQ和數(shù)據(jù)字典中(數(shù)據(jù)被分開凶异,readyQ只存id)蜀撑,狀態(tài)為Ready(DelayJob);
3剩彬、回調(diào)成功酷麦,則刪除readyQ&數(shù)據(jù)字典信息,狀態(tài)是deleted(DelayJob)喉恋;
4沃饶、回調(diào)失敗,DelayedJob 變?yōu)镕ailedDelayJob(transfer)但不刪除readyQ&數(shù)據(jù)字典信息轻黑,狀態(tài)為published(FailedDelayJob)糊肤;
5、FailedDelayJob超時(shí)氓鄙,會(huì)從FailedDelayQ刪除馆揉,放入ReadyQ和數(shù)據(jù)字典,狀態(tài)為Ready(FailedDelayJob)抖拦;
6.回調(diào)成功升酣,則刪除readyQ&數(shù)據(jù)字典信息噩茄,狀態(tài)是deleted(FailedDelayJob)绩聘;
7.回調(diào)失敗耗啦,小于重試次數(shù),則再次transfer但不刪除readyQ&數(shù)據(jù)字典信息蓄髓,狀態(tài)為published(FailedDelayJob)舒帮;
8.回調(diào)失敗,超過(guò)重試次數(shù)肢执,則歸檔预茄,發(fā)提示短信,同時(shí)刪除readyQ&數(shù)據(jù)字典信息拙徽,deleted(FailedDelayJob)诗宣。
DelayJob和FailedDelayJob轉(zhuǎn)換:
技術(shù)亮點(diǎn)
1岛心、使用jdk的delayQueue實(shí)現(xiàn)原理篮灼,放棄polling方式,采用wait-notify方式獲取redis zset中保存的元素髓堪,更高效旦袋。
2、由于鎖的存在商乎,同一個(gè)topic的所有請(qǐng)求會(huì)競(jìng)爭(zhēng)同一把鎖,鎖成為系統(tǒng)性能瓶頸鲜戒。采用了鎖分段的方式遏餐,一個(gè)topic 拆解程多個(gè)存儲(chǔ)結(jié)構(gòu)赢底,同時(shí)一把鎖拆分成多把鎖。壓測(cè)結(jié)果表明粹庞,鎖分段后qps能夠提升6倍庞溜。
3流码、failover:服務(wù)部署,一主一備六敬,主服務(wù)掛掉,觸發(fā)failover操作觉阅,備服務(wù)啟動(dòng)典勇。
4叮趴、recover:如果主備都掛掉眯亦,服務(wù)重啟妻率,可以恢復(fù)之前未完成的操作,不會(huì)丟失消息宫静。
五、壓測(cè)情況
壓測(cè)機(jī)器:4核32g虛機(jī)伏伯。
壓測(cè)發(fā)現(xiàn)jvm對(duì)吞吐量幾乎無(wú)影響说搅。所以固定jvm大小-xms -xmx : 6g 6g 弄唧,主要考量分片影響套才。
注:
分片含義:是將redis中的delayQ(zset) 以及代碼中的sheculer&delayq做了分片,主要是為了鎖分段背伴。
目前測(cè)試情況發(fā)現(xiàn)息尺,分片后在壓測(cè)情況下疾掰,readyQ和數(shù)據(jù)詞典中都有未消費(fèi)的數(shù)據(jù)(bug)。
1炭懊、分片數(shù)4
2、分片數(shù)8
3稻励、分片數(shù)16
其它測(cè)試數(shù)據(jù)加矛,平均耗時(shí)在50ms左右斟览,中位數(shù)20-30ms趣惠,沒(méi)有太大變化身害。
總結(jié):
- jvm對(duì)性能影響微小塌鸯,只要分配足夠內(nèi)存即可丙猬。
- 分片對(duì)性能影響較大茧球,當(dāng)分片等于8時(shí)能夠取得最大的吞吐量 6208,分片再增加則會(huì)降低吞吐率抢埋。
- 壓測(cè)線程數(shù)同樣是拋物線穷吮,300時(shí)取得最大值捡鱼。