1昌讲、什么是 Hystrix?
在分布式環(huán)境中拐辽,許多服務依賴項不可避免地將會失敗焚碌。Hystrix是一個通過添加延遲容忍和容錯邏輯來幫助您控制這些分布式服務之間的交互的庫媒鼓。Hystrix通過隔離服務之間的訪問點來實現(xiàn)這一點垃僚,停止跨級的級聯(lián)故障集绰,并提供備用選項,所有這些都可以提高系統(tǒng)的整體彈性谆棺。
Hystrix 的歷史
Hystrix是由Netflix的API團隊在2011年開始的彈性工程工作演變而來的栽燕。2012年罕袋,Hystrix繼續(xù)發(fā)展和成熟,Netflix的許多團隊都采用了它碍岔。如今浴讯,在Netflix上,每天都有數(shù)百億的線程被隔離蔼啦,以及數(shù)以千億計的信號隔離電話榆纽。這導致了正常運行時間和彈性的顯著改善。
下面的鏈接提供了關(guān)于Hystrix的更多上下文以及它試圖解決的挑戰(zhàn):
- “Making Netflix API More Resilient”
- “Fault Tolerance in a High Volume, Distributed System”
- “Performance and Fault Tolerance for the Netflix API”
- “Application Resilience in a Service-oriented Architecture”
- “Application Resilience Engineering & Operations at Netflix”
2捏肢、Hystrix 設計目的
Hystrix的設計目的是:
- 通過第三方客戶端庫奈籽,對訪問(通常是通過網(wǎng)絡)的依賴項進行保護,并控制延遲和失敗鸵赫。
- 在一個復雜的分布式系統(tǒng)中停止級聯(lián)故障衣屏。
- 快速失敗,迅速恢復辩棒。
- 在可能的情況下勾拉,后退并優(yōu)雅地降級。
- 啟用近實時監(jiān)控盗温、警報和操作控制藕赞。
3、Hystrix 解決的問題
在復雜的分布式體系結(jié)構(gòu)中卖局,應用程序有幾十個依賴項斧蜕,每一個都將不可避免地在某一時刻失敗。如果主機應用程序沒有從這些外部故障中分離出來砚偶,那么它就有可能被它們占用批销。
例如,對于一個依賴于30個服務的應用程序染坯,每個服務都有99均芽。99%的正常運行時間,這是您可以期望的:
99.99^30 = 99.7% uptime
10億個請求中的 0.3% = 3,000,000 次失敗
即使所有的依賴關(guān)系都有很好的正常運行時間单鹿,每個月也有 2+ 小時的downtime
現(xiàn)實通常是更糟掀宋。
即使所有的依賴關(guān)系都很好地執(zhí)行,即使是在每幾十個服務中仲锄,即使是 0.01% 的停機時間劲妙,也會導致一個月的停機時間,如果你不設計整個系統(tǒng)來恢復彈性的話儒喊。
當一切都很健康時镣奋,請求流可以是這樣的:
當后面的一個依賴有問題時,就會阻塞用戶請求怀愧。
在高容量的流量中侨颈,一個后端依賴的潛在依賴會導致所有資源在所有服務器上的秒內(nèi)變得飽和余赢。
在應用程序中,通過網(wǎng)絡或可能導致網(wǎng)絡請求的客戶機庫中的每一點都是潛在故障的根源哈垢。比失敗更糟糕的是妻柒,這些應用程序還可能導致服務之間的延遲,從而支持隊列温赔、線程和其他系統(tǒng)資源蛤奢,從而導致系統(tǒng)中出現(xiàn)更多的級聯(lián)故障鬼癣。
當通過第三方客戶端進行網(wǎng)絡訪問時陶贼,這些問題會變得更加嚴重——一個“黑盒”,其中的實現(xiàn)細節(jié)是隱藏的待秃,并且可以隨時更改拜秧,并且每個客戶機庫的網(wǎng)絡或資源配置都是不同的,并且常常難以監(jiān)控和更改章郁。
更糟糕的是傳遞依賴關(guān)系枉氮,它們執(zhí)行潛在的昂貴或容易出錯的網(wǎng)絡調(diào)用,而不需要被應用程序顯式地調(diào)用暖庄。
網(wǎng)絡連接失敗或降級聊替。服務和服務器失敗或變得緩慢。新的庫或服務部署會改變行為或性能特征培廓∪乔模客戶端庫有 bug 。
所有這些都代表了需要隔離和管理的失敗和延遲肩钠,這樣一來泣港,一個失敗的依賴就不能拖垮整個應用程序或系統(tǒng)。
Hystrix的設計原則是什么价匠?
- 防止任何單個依賴項耗盡所有容器(如Tomcat)用戶線程当纱。
- 甩掉負載和快速失敗而不是排隊。
- 在可行的情況下提供支持踩窖,以保護用戶不受故障的影響坡氯。
- 使用隔離技術(shù)(如艙壁、泳道和斷路器模式)來限制任何一個依賴項的影響洋腮。
- 通過接近實時的指標廉沮、監(jiān)控和警報來優(yōu)化發(fā)現(xiàn)時間
- 通過對配置更改的低延遲傳播和對Hystrix的大多數(shù)方面的動態(tài)屬性更改的支持來- - 優(yōu)化時間恢復,這允許您使用低延遲反饋循環(huán)進行實時操作修改徐矩。
- 保護整個依賴客戶端執(zhí)行的失敗滞时,而不僅僅是在網(wǎng)絡流量中界逛。
4诉濒、Hystrix是如何實現(xiàn)它的目標的蒸健?
Hystrix 通過:
- 將所有調(diào)用封裝到一個HystrixCommand或hystrix觀察者的對象中,通常在一個單獨的線程中執(zhí)行(這是命令模式的一個例子)元媚。
- 時間的調(diào)用比你定義的閾值要長。有一個默認值熟丸,但是對于大多數(shù)依賴項刺洒,您可以通過“屬性”來定制這些超時,這樣它們就會比每個依賴項的99.5%的性能稍微高一些篙梢。
- 維護每個依賴項的一個小線程池(或信號量);如果它變得滿了顷帖,那么就會立即拒絕請求這個依賴項的請求,而不是排隊渤滞。
- 測量成功贬墩、失敗(客戶端拋出的異常)妄呕、超時和線程拒絕陶舞。
- 在一段時間內(nèi),如果服務的錯誤百分比超過了一個閾值绪励,就會觸發(fā)一個斷路器來停止對特定服務的所有請求肿孵,無論是手動的還是自動的。
- 當一個請求失敗時執(zhí)行回退邏輯疏魏,被拒絕停做,超時,或短路大莫。
- 監(jiān)控指標和配置在接近實時的情況下發(fā)生變化蛉腌。
當您使用 Hystrix 來包裝每個潛在的依賴項時,上面的圖表所示的體系結(jié)構(gòu)將類似于下面的圖表葵硕。每一個依賴關(guān)系都是相互隔離的眉抬,在延遲發(fā)生時,它可以被限制在資源中懈凹,并且包含在回退邏輯中蜀变,該邏輯決定了在依賴項中出現(xiàn)任何類型的故障時要做出什么響應: