在當(dāng)前主流的微服務(wù)架構(gòu)體系中,由于存在大量的遠(yuǎn)程服務(wù)調(diào)用碗旅,會存在各種各樣的穩(wěn)定性問題,包括但不僅限于網(wǎng)絡(luò)擁堵祟辟,服務(wù)宿主機(jī)系統(tǒng)抖動侣肄,服務(wù)配置下發(fā)導(dǎo)致的額外開銷等等。為了盡可能的提升服務(wù)質(zhì)量,我們常常需要在各種存在風(fēng)險(xiǎn)的遠(yuǎn)程調(diào)用中僚纷,采用適當(dāng)?shù)闹卦嚥呗裕裉炀秃唵斡懻撓轮卦囅嚓P(guān)的問題怖竭。
重試策略
所謂重試策略陡蝇,首先關(guān)注的是兩個參數(shù):1.重試次數(shù);2.調(diào)用間隔登夫。
兩個參數(shù)都很重要,首先來說重試次數(shù)恼策,如果對重試次數(shù)不加限制,在出現(xiàn)下游系統(tǒng)故障蹋凝,或者恰好命中下游系統(tǒng)bug的情況下,可能出現(xiàn)在相當(dāng)一段時間內(nèi)的重試都會以失敗告終鳍寂,這時候的重試不僅沒有起到提升對外服務(wù)質(zhì)量的效果情龄,反而會對當(dāng)前服務(wù)和下游服務(wù)都造成非常大的不必要負(fù)荷。
其次是重試調(diào)用間隔的問題骤视,常見的調(diào)用間隔策略包括:
- 固定時間 每兩次重試調(diào)用之間的間隔固定
- 指數(shù)增長 每兩次重試調(diào)用之間的時間間隔指數(shù)增長
在此基礎(chǔ)上,為了盡可能降低請求尖刺睹逃,會適當(dāng)引入一定的隨機(jī)策略。
代碼實(shí)踐
知道了重試需要關(guān)注的兩個方面之后沉填,我們來簡單看下在golang
語言中佑笋,關(guān)于重試策略的一些實(shí)際代碼實(shí)現(xiàn)。
首先看下繼承自Hystrix的hystrix-go蒋纬,它來源于Spring Cloud中重試組件的設(shè)計(jì)實(shí)現(xiàn)坚弱。在使用上关摇,提供了較為完善的位置選項(xiàng),能夠滿足不同的重試策略的配置输虱,同時借助go
的channel
特性,同時對外提供了同步和異步的API。為了保證下游服務(wù)的負(fù)載艰猬,同時引入的熔斷策略作為保護(hù)。
另外還有一個非常優(yōu)秀的重試策略的庫實(shí)現(xiàn)backoff冠桃,值得一提的是,這個庫關(guān)于重試指數(shù)策略的部分食听,借鑒了Google
對于JAVA
的http client
的相關(guān)實(shí)現(xiàn)算法,旨在自適應(yīng)的調(diào)整合適的適配下游負(fù)載的重試間隔葬项。
具體到現(xiàn)實(shí)的RPC調(diào)用中,grpc
官方提供了retry的middleware
民珍,來支持最基礎(chǔ)的重試功能盗飒。
上面幾個庫都支持了對于重試條件的支持,即根據(jù)請求返回的報(bào)錯逆趣,來決定要不要繼續(xù)進(jìn)行重試。
更進(jìn)一步
由于重試存在潛在的請求放大的風(fēng)險(xiǎn)宣渗,針對于此,Google
的SRE
實(shí)踐給出了一些實(shí)踐建議:
- 針對每個失敗請求部蛇,設(shè)置重試次數(shù)的上限,比如最多重試3次涯鲁。
- 針對整個客戶端的調(diào)用,設(shè)置最大的重試與請求的比例抹腿。即重試請求最大不會超過某個時間窗口內(nèi)的請求數(shù)的10%,即寫放大指數(shù)最大就是110%警绩。
- 客戶端記錄一段時間內(nèi)的重試次數(shù),判斷在最近的時間窗口內(nèi)肩祥,如果出現(xiàn)了大量的服務(wù)都需要重試的情況,可以判斷當(dāng)前服務(wù)端處于過載狀態(tài)混狠,服務(wù)端也可以通過狀態(tài)碼直接返回“拒絕重試”的狀態(tài),而這個狀態(tài)會被帶到請求鏈路中拋到上層贡避,避免更高層服務(wù)調(diào)用的重試。
另外刮吧,關(guān)于重試的時機(jī)選擇,目前大多數(shù)的實(shí)現(xiàn)都是等前一個調(diào)用返回失敗請求或者超時之后才進(jìn)行下一步重試杀捻。對于重試請求的時機(jī)蚓庭,Google有一篇文章談到了一些優(yōu)化措施,比如客戶端可以根據(jù)過去一個時間窗口內(nèi)的請求時長的pct999彪置,判斷大多數(shù)正常請求的耗時分布,當(dāng)請求耗時已經(jīng)達(dá)到這個閾值(在各個場景下拳魁,這個值都小于超時閾值),不必等請求返回而直接重試姚糊,這種策略叫做backup requests。在超時出現(xiàn)比較多的場景下授舟,這種提早重試策略能夠提升服務(wù)的響應(yīng)速度,所帶來的代價就是可能出現(xiàn)的一些額外請求肠槽。
最后擎淤,在微服務(wù)中對于重試的實(shí)踐中嘴拢,具體在哪層操作重試?有的是在最外層請求包裝重試席吴,優(yōu)點(diǎn)在于直接對最外層服務(wù)負(fù)責(zé),請求方法指數(shù)最方便控制孝冒,缺點(diǎn)在于單次重試開銷較大;有的是在各個服務(wù)請求處就近重試庄涡,有點(diǎn)在于請求重試開銷較小,有利于提升各個服務(wù)的服務(wù)質(zhì)量指標(biāo)捣域,缺點(diǎn)在于可能出現(xiàn)多層嵌套重試的情況宴合,如果重試次數(shù)限制有問題的話,容易出現(xiàn)請求放大的問題卦洽。