如何解決消息隊列的延時以及過期失效問題?消息隊列滿了以後該怎麼處理?

大量消息在mq裏積壓了幾個小時了怎麼辦?

幾千萬條數據在MQ裏積壓了七八個小時,從下午4點多,積壓到了晚上很晚,10點多,11點多

這個是我們真實遇到過類似的場景,確實是線上故障了,這個時候要不然就是修復consumer的問題,讓他恢復消費速度,然後傻傻的等待幾個小時消費完畢。但是這樣的解決方案就完全沒有什麼參考價值了!

假設一個消費者一秒是1000條,一秒3個消費者是3000條,一分鐘是18萬條,一個小時就是1000多萬條

所以如果你積壓了幾百萬到上千萬的數據,即使消費者恢復了,也需要大概1小時的時間才能恢復過來

一般這個時候,只能操作臨時緊急擴容了,具體操作步驟和思路如下:

1)先修復consumer的問題,確保其恢復消費速度,然後將現有cnosumer都停掉
2)新建一個topic,partition是原來的10倍,臨時建立好原先10倍或者20倍的queue數量
3)然後寫一個臨時的分發數據的consumer程序,這個程序部署上去消費積壓的數據,消費之後不做耗時的處理,直接均勻輪詢寫入臨時建立好的10倍數量的queue
4)接着臨時徵用10倍的機器來部署consumer,每一批consumer消費一個臨時queue的數據
5)這種做法相當於是臨時將queue資源和consumer資源擴大10倍,以正常的10倍速度來消費數據
6)等快速消費完積壓數據之後,得恢復原先部署架構,重新用原先的consumer機器來消費消息

大量消息在mq裏積壓了一段時間,導致觸發TTL,消息丟失怎麼辦?

假設你用的是rabbitmq,rabbitmq是可以設置過期時間的,就是TTL,如果消息在queue中積壓超過一定的時間就會被rabbitmq給清理掉,這個數據就沒了。那這就是第二個坑了。這就不是說數據會大量積壓在mq裏,而是大量的數據會直接搞丟。

這個情況下,就不是說要增加consumer消費積壓的消息,因爲實際上沒啥積壓,而是丟了大量的消息。我們可以採取一個方案,就是批量重導,這個我們之前線上也有類似的場景幹過。就是大量積壓的時候,我們當時就直接丟棄數據了,然後等過了高峯期以後,比如大家一起喝咖啡熬夜到晚上12點以後,用戶都睡覺了。

這個時候我們就開始寫程序,將丟失的那批數據,寫個臨時程序,一點一點的查出來,然後重新灌入mq裏面去,把白天丟的數據給他補回來。也只能是這樣了。

假設1萬個訂單積壓在mq裏面,沒有處理,其中1000個訂單都丟了,你只能手動寫程序把那1000個訂單給查出來,手動發到mq裏去再補一次

消息積壓在mq裏,那麼如果你很長時間都沒處理掉,此時導致mq都快寫滿了,咋辦?

如果出現這種問題,那一定是你在規劃MQ的時候,沒有考慮動態擴容和後端壓力測試導致的,這個還有別的辦法嗎?沒有,誰讓你第一個方案執行的太慢了,你臨時寫程序,接入數據來消費,消費一個丟棄一個,都不要了,快速消費掉所有的消息。然後走第二個方案,到了晚上再補數據吧。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章