面試題
如何解決消息隊列的延時以及過期失效問題?消息隊列滿了以后該怎么處理查描?有幾百萬消息持續(xù)積壓幾小時突委,說說怎么解決柏卤?
面試官心理分析
你看這問法,其實本質(zhì)針對的場景匀油,都是說缘缚,可能你的消費端出了問題,不消費了敌蚜;或者消費的速度極其慢桥滨。接著就坑爹了,可能你的消息隊列集群的磁盤都快寫滿了弛车,都沒人消費齐媒,這個時候怎么辦?或者是這整個就積壓了幾個小時纷跛,你這個時候怎么辦喻括?或者是你積壓的時間太長了,導致比如 RabbitMQ 設置了消息過期時間后就沒了怎么辦贫奠?
所以就這事兒唬血,其實線上挺常見的,一般不出唤崭,一出就是大 case拷恨。一般常見于,舉個例子浩姥,消費端每次消費之后要寫 mysql挑随,結(jié)果 mysql 掛了,消費端 hang 那兒了勒叠,不動了兜挨;或者是消費端出了個什么岔子,導致消費速度極其慢眯分。
面試題剖析
關(guān)于這個事兒拌汇,我們一個一個來梳理吧,先假設一個場景弊决,我們現(xiàn)在消費端出故障了噪舀,然后大量消息在 mq 里積壓,現(xiàn)在出事故了飘诗,慌了与倡。
大量消息在 mq 里積壓了幾個小時了還沒解決
幾千萬條數(shù)據(jù)在 MQ 里積壓了七八個小時,從下午 4 點多昆稿,積壓到了晚上 11 點多纺座。這個是我們真實遇到過的一個場景,確實是線上故障了溉潭,這個時候要不然就是修復 consumer 的問題净响,讓它恢復消費速度少欺,然后傻傻的等待幾個小時消費完畢。這個肯定不能在面試的時候說吧馋贤。
一個消費者一秒是 1000 條赞别,一秒 3 個消費者是 3000 條,一分鐘就是 18 萬條配乓。所以如果你積壓了幾百萬到上千萬的數(shù)據(jù)仿滔,即使消費者恢復了,也需要大概 1 小時的時間才能恢復過來扰付。
一般這個時候堤撵,只能臨時緊急擴容了,具體操作步驟和思路如下:
- 先修復 consumer 的問題羽莺,確保其恢復消費速度实昨,然后將現(xiàn)有 cnosumer 都停掉。
- 新建一個 topic盐固,partition 是原來的 10 倍荒给,臨時建立好原先 10 倍的 queue 數(shù)量。
- 然后寫一個臨時的分發(fā)數(shù)據(jù)的 consumer 程序刁卜,這個程序部署上去消費積壓的數(shù)據(jù)志电,消費之后不做耗時的處理,直接均勻輪詢寫入臨時建立好的 10 倍數(shù)量的 queue蛔趴。
- 接著臨時征用 10 倍的機器來部署 consumer挑辆,每一批 consumer 消費一個臨時 queue 的數(shù)據(jù)。這種做法相當于是臨時將 queue 資源和 consumer 資源擴大 10 倍孝情,以正常的 10 倍速度來消費數(shù)據(jù)鱼蝉。
- 等快速消費完積壓數(shù)據(jù)之后,得恢復原先部署的架構(gòu)箫荡,重新用原先的 consumer 機器來消費消息魁亦。
mq 中的消息過期失效了
假設你用的是 RabbitMQ,RabbtiMQ 是可以設置過期時間的羔挡,也就是 TTL洁奈。如果消息在 queue 中積壓超過一定的時間就會被 RabbitMQ 給清理掉,這個數(shù)據(jù)就沒了绞灼。那這就是第二個坑了利术。這就不是說數(shù)據(jù)會大量積壓在 mq 里,而是大量的數(shù)據(jù)會直接搞丟低矮。
這個情況下印叁,就不是說要增加 consumer 消費積壓的消息,因為實際上沒啥積壓,而是丟了大量的消息喉钢。我們可以采取一個方案,就是批量重導良姆,這個我們之前線上也有類似的場景干過肠虽。就是大量積壓的時候,我們當時就直接丟棄數(shù)據(jù)了玛追,然后等過了高峰期以后税课,比如大家一起喝咖啡熬夜到晚上12點以后,用戶都睡覺了痊剖。這個時候我們就開始寫程序韩玩,將丟失的那批數(shù)據(jù),寫個臨時程序陆馁,一點一點的查出來找颓,然后重新灌入 mq 里面去,把白天丟的數(shù)據(jù)給他補回來叮贩。也只能是這樣了击狮。
假設 1 萬個訂單積壓在 mq 里面,沒有處理益老,其中 1000 個訂單都丟了彪蓬,你只能手動寫程序把那 1000 個訂單給查出來,手動發(fā)到 mq 里去再補一次捺萌。
mq 都快寫滿了
如果消息積壓在 mq 里档冬,你很長時間都沒有處理掉,此時導致 mq 都快寫滿了桃纯,咋辦酷誓?這個還有別的辦法嗎?沒有慈参,誰讓你第一個方案執(zhí)行的太慢了呛牲,你臨時寫程序,接入數(shù)據(jù)來消費驮配,消費一個丟棄一個娘扩,都不要了,快速消費掉所有的消息壮锻。然后走第二個方案琐旁,到了晚上再補數(shù)據(jù)吧。