緩存時有三個目標:
第一苍日,加快用戶訪問速度,提高用戶體驗
第二相恃,降低后端負載辜纲,減少潛在的風險,保證系統(tǒng)平穩(wěn)
第三,保證數(shù)據(jù)“盡可能”及時更新
緩存一致性問題
當數(shù)據(jù)時效性要求很高時屋摇,需要保證緩存中的數(shù)據(jù)與數(shù)據(jù)庫中的保持一致幽邓,而且需要保證緩存節(jié)點和副本中的數(shù)據(jù)也保持一致,不能出現(xiàn)差異現(xiàn)象牵舵。這就比較依賴緩存的過期和更新策略。一般會在數(shù)據(jù)發(fā)生更改的時担巩,主動更新緩存中的數(shù)據(jù)或者移除對應的緩存。
緩存并發(fā)問題
緩存過期后將嘗試從后端數(shù)據(jù)庫獲取數(shù)據(jù)涛癌,這是一個看似合理的流程送火。但是,在高并發(fā)場景下弃衍,有可能多個請求并發(fā)的去從數(shù)據(jù)庫獲取數(shù)據(jù)坚俗,對后端數(shù)據(jù)庫造成極大的沖擊,甚至導致“雪崩”現(xiàn)象猖败。此外,當某個緩存key在被更新時艺糜,同時也可能被大量請求在獲取判呕,這也會導致一致性的問題送滞。那如何避免類似問題呢侠草?我們會想到類似“鎖”的機制,在緩存更新或者過期的情況下犁嗅,先嘗試獲取到鎖边涕,當更新或者從數(shù)據(jù)庫獲取完成后再釋放鎖,其他的請求只需要犧牲一定的等待時間园爷,即可直接從緩存中繼續(xù)獲取數(shù)據(jù)式撼。
緩存穿透問題
緩存穿透是指查詢一個根本不存在的數(shù)據(jù),緩存層和存儲層都不會命中扰楼,但是出于容錯的考慮美浦,如果從存儲層查不到數(shù)據(jù)則不寫入緩存層
緩存層不命中
存儲層不命中,所以不將空結(jié)果寫回緩存
返回空結(jié)果
緩存穿透將導致不存在的數(shù)據(jù)每次請求都要到存儲層去查詢蹬竖,失去了緩存保護后端存儲的意義流酬。
緩存穿透問題可能會使后端存儲負載加大,由于很多后端存儲不具備高并發(fā)性康吵,甚至可能造成后端存儲宕掉晦嵌。通常可以在程序中分別統(tǒng)計總調(diào)用數(shù)惭载、緩存層命中數(shù)、存儲層命中數(shù)棒妨,如果發(fā)現(xiàn)大量存儲層空命中含长,可能就是出現(xiàn)了緩存穿透問題。
造成緩存穿透的基本有兩個:
(1)業(yè)務自身代碼或者數(shù)據(jù)出現(xiàn)問題
(2)一些惡意攻擊纷纫、爬蟲等造成大量空命中
緩存穿透在有些地方也稱為“擊穿”陪腌。很多朋友對緩存穿透的理解是:由于緩存故障或者緩存過期導致大量請求穿透到后端數(shù)據(jù)庫服務器烟瞧,從而對數(shù)據(jù)庫造成巨大沖擊染簇。
這其實是一種誤解。真正的緩存穿透應該是這樣的:
在高并發(fā)場景下砾赔,如果某一個key被高并發(fā)訪問弥咪,沒有被命中,出于對容錯性考慮聚至,會嘗試去從后端數(shù)據(jù)庫中獲取,從而導致了大量請求達到數(shù)據(jù)庫脆诉,而當該key對應的數(shù)據(jù)本身就是空的情況下贷币,這就導致數(shù)據(jù)庫中并發(fā)的去執(zhí)行了很多不必要的查詢操作,從而導致巨大沖擊和壓力偶摔。
可以通過下面的幾種常用方式來避免緩存?zhèn)鹘y(tǒng)問題:
(1)緩存空對象
對查詢結(jié)果為空的對象也進行緩存促脉,如果是集合,可以緩存一個空的集合(非null)宫仗,如果是緩存單個對象旁仿,可以通過字段標識來區(qū)分。這樣避免請求穿透到后端數(shù)據(jù)庫枯冈。同時,也需要保證緩存數(shù)據(jù)的時效性滩褥。這種方式實現(xiàn)起來成本較低罪既,比較適合命中不高,但可能被頻繁更新的數(shù)據(jù)丢间。
(2)單獨過濾處理
對所有可能對應數(shù)據(jù)為空的key進行統(tǒng)一的存放驹针,并在請求前做攔截,這樣避免請求穿透到后端數(shù)據(jù)庫饮六。這種方式實現(xiàn)起來相對復雜苛蒲,比較適合命中不高,但是更新不頻繁的數(shù)據(jù)臂外。
緩存顛簸問題
緩存的顛簸問題漏健,有些地方可能被成為“緩存抖動”,可以看做是一種比“雪崩”更輕微的故障殖属,但是也會在一段時間內(nèi)對系統(tǒng)造成沖擊和性能影響瓦盛。一般是由于緩存節(jié)點故障導致。業(yè)內(nèi)推薦的做法是通過一致性Hash算法來解決谭溉。這里不做過多闡述,可以參照其他章節(jié)
緩存的雪崩現(xiàn)象
緩存雪崩可能是因為數(shù)據(jù)未加載到緩存中损搬,或者緩存同一時間大面積的失效柜与,從而導致所有請求都去查數(shù)據(jù)庫,導致數(shù)據(jù)庫CPU和內(nèi)存負載過高颅悉,甚至宕機迁匠。
解決思路:
1驹溃,采用加鎖計數(shù)豌鹤,或者使用合理的隊列數(shù)量來避免緩存失效時對數(shù)據(jù)庫造成太大的壓力枝缔。這種辦法雖然能緩解數(shù)據(jù)庫的壓力,但是同時又降低了系統(tǒng)的吞吐量愿卸。
2,分析用戶行為儒溉,盡量讓失效時間點均勻分布发钝。避免緩存雪崩的出現(xiàn)。
3园骆,如果是因為某臺緩存服務器宕機寓调,可以考慮做主備,比如:redis主備晌涕,但是雙緩存涉及到更新事務的問題痛悯,update可能讀到臟數(shù)據(jù),需要好好解決载萌。
?
預防和解決緩存雪崩問題,可以從以下三個方面進行著手垮衷。
(1)保證緩存層服務高可用性乖坠。
和飛機都有多個引擎一樣,如果緩存層設計成高可用的仰迁,即使個別節(jié)點、個別機器筒扒、甚至是機房宕掉绊寻,依然可以提供服務
(2)依賴隔離組件為后端限流并降級悬秉。
無論是緩存層還是存儲層都會有出錯的概率,可以將它們視同為資源和泌。作為并發(fā)量較大的系統(tǒng)武氓,假如有一個資源不可用,可能會造成線程全部hang在這個資源上县恕,造成整個系統(tǒng)不可用。降級在高并發(fā)系統(tǒng)中是非常正常的:比如推薦服務中属提,如果個性化推薦服務不可用美尸,可以降級補充熱點數(shù)據(jù),不至于造成前端頁面是開天窗恕酸。
在實際項目中胯陋,我們需要對重要的資源(例如 Redis、 MySQL寿弱、 Hbase按灶、外部接口 ) 都進行隔離,讓每種資源都單獨運行在自己的線程池中噪矛,即使個別資源出現(xiàn)了問題,對其他服務沒有影響艇挨。但是線程池如何管理,比如如何關閉資源池势就,開啟資源池脉漏,資源池閥值管理,這些做起來還是相當復雜的舅锄,這里推薦一個 Java 依賴隔離工具 Hystrix(https://github.com/Netflix/Hystrix)
(3)提前演練司忱。在項目上線前,演練緩存層宕掉后鳍烁,應用以及后端的負載情況以及可能出現(xiàn)的問題繁扎,在此基礎上做一些預案設定。
緩存雪崩就是指由于緩存的原因铺峭,導致大量請求到達后端數(shù)據(jù)庫汽纠,從而導致數(shù)據(jù)庫崩潰,整個系統(tǒng)崩潰莉炉,發(fā)生災難碴犬。導致這種現(xiàn)象的原因有很多種,上面提到的“緩存并發(fā)”绍昂,“緩存穿透”,“緩存顛簸”等問題窘游,其實都可能會導致緩存雪崩現(xiàn)象發(fā)生忍饰。這些問題也可能會被惡意攻擊者所利用。還有一種情況艾蓝,例如某個時間點內(nèi)赢织,系統(tǒng)預加載的緩存周期性集中失效了,也可能會導致雪崩敌厘。為了避免這種周期性失效俱两,可以通過設置不同的過期時間曹步,來錯開緩存過期,從而避免緩存集中失效讲婚。
從應用架構(gòu)角度筹麸,我們可以通過限流、降級物赶、熔斷等手段來降低影響酵紫,也可以通過多級緩存來避免這種災難。
此外奖地,從整個研發(fā)體系流程的角度,應該加強壓力測試仰楚,盡量模擬真實場景,盡早的暴露問題從而防范蜜氨。
緩存無底洞現(xiàn)象
該問題由facebook 的工作人員提出的捎泻, facebook 在 2010 年左右笆豁,memcached 節(jié)點就已經(jīng)達3000 個,緩存數(shù)千 G 內(nèi)容煞赢。
他們發(fā)現(xiàn)了一個問題---memcached 連接頻率哄孤,效率下降了,于是加 memcached 節(jié)點瘦陈,添加了后晨逝,發(fā)現(xiàn)因為連接頻率導致的問題,仍然存在捉貌,并沒有好轉(zhuǎn)趁窃,稱之為”無底洞現(xiàn)象”。
目前主流的數(shù)據(jù)庫浸踩、緩存统求、Nosql、搜索中間件等技術棧中折剃,都支持“分片”技術像屋,來滿足“高性能、高并發(fā)奏甫、高可用、可擴展”等要求思杯。有些是在client端通過Hash取模(或一致性Hash)將值映射到不同的實例上挠进,有些是在client端通過范圍取值的方式映射的。當然暖璧,也有些是在服務端進行的君旦。但是,每一次操作都可能需要和不同節(jié)點進行網(wǎng)絡通信來完成局蚀,實例節(jié)點越多捞魁,則開銷會越大离咐,對性能影響就越大。
緩存熱點key 重建優(yōu)化
開發(fā)人員使用緩存+過期時間的策略既可以加速數(shù)據(jù)讀寫昆著,又保證數(shù)據(jù)的定期更新术陶,這種模式基本能夠滿足絕大部分需求梧宫。但是有兩個問題如果同時出現(xiàn),可能就會對應用造成致命的危害:
當前key是一個熱點 key( 例如一個熱門的娛樂新聞)塘匣,并發(fā)量非常大忌卤。
重建緩存不能在短時間完成,可能是一個復雜計算,例如復雜的SQL堕阔、多次 IO颗味、多個依賴等脱衙。
在緩存失效的瞬間,有大量線程來重建緩存退唠,造成后端負載加大荤胁,甚至可能會讓應用崩潰。
解決思路:
1)互斥鎖 (mutex key)
只允許一個線程重建緩存垢油,其他線程等待重建緩存的線程執(zhí)行完圆丹,重新從緩存獲取數(shù)據(jù)即可
2)永遠不過期,“永遠不過期”包含兩層意思:
從緩存層面來看硝枉,確實沒有設置過期時間倦微,所以不會出現(xiàn)熱點key過期后產(chǎn)生的問題,也就是“物理”不過期责球。
從功能層面來看拓劝,為每個value設置一個邏輯過期時間,當發(fā)現(xiàn)超過邏輯過期時間后栖博,會使用單獨的線程去構(gòu)建緩存牧抵。
方案比較:
互斥鎖(mutex key):這種方案思路比較簡單,但是存在一定的隱患妹孙,如果構(gòu)建緩存過程出現(xiàn)問題或者時間較長蠢正,可能會存在死鎖和線程池阻塞的風險,但是這種方法能夠較好的降低后端存儲負載并在一致性上做的比較好笨触。
"永遠不過期 ":這種方案由于沒有設置真正的過期時間雹舀,實際上已經(jīng)不存在熱點 key 產(chǎn)生的一系列危害,但是會存在數(shù)據(jù)不一致的情況虚吟,同時代碼復雜度會增大签财。
主要可以從如下幾個方面避免和優(yōu)化:
(1)數(shù)據(jù)分布方式
有些業(yè)務數(shù)據(jù)可能適合Hash分布,而有些業(yè)務適合采用范圍分布邦鲫,這樣能夠從一定程度避免網(wǎng)絡IO的開銷神汹。
(2)IO優(yōu)化
可以充分利用連接池,NIO等技術來盡可能降低連接開銷疼燥,增強并發(fā)連接能力蚁堤。
(3)數(shù)據(jù)訪問方式
一次性獲取大的數(shù)據(jù)集披诗,會比分多次去獲取小數(shù)據(jù)集的網(wǎng)絡IO開銷更小立磁。
當然,緩存無底洞現(xiàn)象并不常見宪摧。在絕大多數(shù)的公司里可能根本不會遇到。