消息隊列MQ面試專題(rabbitmq)

市場上流行的MQ有:Kafka、ActiveMQ、RabbitMQ、RocketMQ 本文只針對RocketMQ,其他也有很多大同小異的地方

1、什麼是 rabbitmq

採用 AMQP 高級消息隊列協議的一種消息隊列技術,最大的特點就是消費並不需要確保提供方存在,實現了服務之間的高度解耦

2、爲什麼要使用 rabbitmq

  1. 在分佈式系統下具備異步,削峯,負載均衡等一系列高級功能;
  2. 擁有持久化的機制,進程消息,隊列中的信息也可以保存下來。
  3. 實現消費者和生產者之間的解耦。
  4. 對於高併發場景下,利用消息隊列可以使得同步訪問變爲串行訪問達到一定量的限流,利於數據庫的操作。
  5. 可以使用消息隊列達到異步下單的效果,排隊中,後臺進行邏輯下單。

3、使用 rabbitmq 的場景

  1. 服務間異步通信
  2. 順序消費
  3. 定時任務
  4. 請求削峯

4、如何確保消息正確地發送至 RabbitMQ? 如何確保消息接收方消費了消息?

發送方確認模式
將信道設置成 confirm 模式(發送方確認模式),則所有在信道上發佈的消息都會被指派一個唯一的 ID。
一旦消息被投遞到目的隊列後,或者消息被寫入磁盤後(可持久化的消息),信道會發送一個確認給生產者(包含消息唯一 ID)。
如果 RabbitMQ 發生內部錯誤從而導致消息丟失,會發送一條 nack(notacknowledged,未確認)消息。發送方確認模式是異步的,生產者應用程序在等待確認的同時,可以繼續發送消息。當確認消息到達生產者應用程序,生產者應用程序的回調方法就會被觸發來處理確認消息。
接收方確認機制
接收方消息確認機制
消費者接收每一條消息後都必須進行確認(消息接收和消息確認是兩個不同操作)。只有消費者確認了消息,RabbitMQ 才能安全地把消息從隊列中刪除。這裏並沒有用到超時機制,RabbitMQ 僅通過 Consumer 的連接中斷來確認是否需要重新發送消息。也就是說,只要連接不中斷,RabbitMQ 給了 Consumer 足夠長的時間來處理消息。保證數據的最終一致性;

下面羅列幾種特殊情況
如果消費者接收到消息,在確認之前斷開了連接或取消訂閱,RabbitMQ 會認爲消息沒有被分發,然後重新分發給下一個訂閱的消費者。
(可能存在消息重複消費的隱患,需要去重)如果消費者接收到消息卻沒有確認消息,連接也未斷開,則 RabbitMQ 認爲該消費者繁忙,將不會給該消費者分發更多的消息。

5、如何避免消息重複投遞或重複消費?

在消息生產時,MQ 內部針對每條生產者發送的消息生成一個 inner-msg-id,作爲去重的依據(消息投遞失敗並重傳),避免重複的消息進入隊列;
在消息消費時,要求消息體中必須要有一個 bizId(對於同一業務全局唯一,如支付 ID、訂單 ID、帖子 ID 等)作爲去重的依據,避免同一條消息被重複消費。

6、消息基於什麼傳輸?

由於 TCP 連接的創建和銷燬開銷較大,且併發數受系統資源限制,會造成性能瓶頸。RabbitMQ 使用信道的方式來傳輸數據。信道是建立在真實的 TCP 連接內的虛擬連接,且每條 TCP 連接上的信道數量沒有限制

7、消息如何分發?

若該隊列至少有一個消費者訂閱,消息將以循環(round-robin)的方式發送給消費者。每條消息只會分發給一個訂閱的消費者(前提是消費者能夠正常處理消息並進行確認)。
通過路由可實現多消費的功能

8、消息怎麼路由?

消息提供方->路由->一至多個隊列
消息發佈到交換器時,消息將擁有一個路由鍵(routing key),在消息創建時設定。
通過隊列路由鍵,可以把隊列綁定到交換器上。
消息到達交換器後,RabbitMQ 會將消息的路由鍵與隊列的路由鍵進行匹配(針對不同的交換器有不同的路由規則);
常用的交換器主要分爲一下三種
fanout:如果交換器收到消息,將會廣播到所有綁定的隊列上
direct:如果路由鍵完全匹配,消息就被投遞到相應的隊列
topic:可以使來自不同源頭的消息能夠到達同一個隊列。 使用 topic 交換器時,可以使用通配符

9、如何確保消息不丟失?

消息持久化,當然前提是隊列必須持久化
RabbitMQ 確保持久性消息能從服務器重啓中恢復的方式是,將它們寫入磁盤上的一個持久化日誌文件,當發佈一條持久性消息到持久交換器上時,Rabbit 會在消息提交到日誌文件後才發送響應。
一旦消費者從持久隊列中消費了一條持久化消息,RabbitMQ 會在持久化日誌中把這條消息標記爲等待垃圾收集。如果持久化消息在被消費之前 RabbitMQ 重啓,那麼 Rabbit 會自動重建交換器和隊列(以及綁定),並重新發布持久化日誌文件中的消息到合適的隊列。

10、使用 RabbitMQ 有什麼好處?

  1. 服務間高度解耦
  2. 異步通信性能高
  3. 流量削峯

11、RabbitMQ 的集羣

鏡像集羣模式
你創建的 queue,無論元數據還是 queue 裏的消息都會存在於多個實例上,然後每次你寫消息到 queue 的時候,都會自動把消息到多個實例的 queue 裏進行消息同步。
好處在於,你任何一個機器宕機了,沒事兒,別的機器都可以用。壞處在於,第一,這個性能開銷也太大了吧,消息同步所有機器,導致網絡帶寬壓力和消耗很重!第二,這麼玩兒,就沒有擴展性可言了,如果某個 queue 負載很重,你加機器,新增的機器也包含了這個 queue 的所有數據,並沒有辦法線性擴展你的 queue

12、mq 的缺點

系統可用性降低
系統引入的外部依賴越多,越容易掛掉,本來你就是 A 系統調用 BCD 三個系統的接口就好了,人 ABCD 四個系統好好的,沒啥問題,你偏加個 MQ 進來,萬一MQ 掛了咋整?MQ 掛了,整套系統崩潰了,你不就完了麼。
系統複雜性提高
硬生生加個 MQ 進來,你怎麼保證消息沒有重複消費?怎麼處理消息丟失的情況?怎麼保證消息傳遞的順序性?頭大頭大,問題一大堆,痛苦不已
一致性問題 A 系統處理完了直接返回成功了,人都以爲你這個請求就成功了;但是問題是,要是 BCD 三個系統那裏,BD 兩個系統寫庫成功了,結果 C 系統寫庫失敗了,咋整?你這數據就不一致了。
所以消息隊列實際是一種非常複雜的架構,你引入它有很多好處,但是也得針對它帶來的壞處做各種額外的技術方案和架構來規避掉,最好之後,你會發現,媽呀,系統複雜度提升了一個數量級,也許是複雜了 10 倍。但是關鍵時刻,用,還是得用的

13、Kafka、ActiveMQ、RabbitMQ、RocketMQ 都有什麼區別?

對於吞吐量來說kafka和RocketMQ支撐高吞吐,ActiveMQ和RabbitMQ比他們低一個數量級。對於延遲量來說RabbitMQ是最低的。

  1. 從社區活躍度
    按照目前網絡上的資料,RabbitMQ 、activeM 、ZeroMQ 三者中,綜合來看,RabbitMQ 是首選。
  2. 持久化消息比較
    ActiveMq 和RabbitMq 都支持。持久化消息主要是指我們機器在不可抗力因素等情況下掛掉了,消息不會丟失的機制。
  3. 綜合技術實現
    可靠性、靈活的路由、集羣、事務、高可用的隊列、消息排序、問題追蹤、可視化管理工具、插件系統等等。
    RabbitMq / Kafka 最好,ActiveMq 次之,ZeroMq 最差。當然ZeroMq 也可以做到,不過自己必須手動寫代碼實現,代碼量不小。尤其是可靠性中的:持久性、投遞確認、發佈者證實和高可用性。
  4. 高併發
    毋庸置疑,RabbitMQ 最高,原因是它的實現語言是天生具備高併發高可用的erlang 語言。
  5. 比較關注的比較, RabbitMQ 和 Kafka
    RabbitMq 比Kafka 成熟,在可用性上,穩定性上,可靠性上, RabbitMq 勝於 Kafka (理論上)。另外,Kafka 的定位主要在日誌等方 面, 因爲Kafka 設計的初衷就是處理日誌的,可以看做是一個日誌(消息)系統一個重要組件,針對性很強,所以 如果業務方面還是建議選擇 RabbitMq 。還有就是,Kafka 的性能(吞吐量、TPS )比RabbitMq 要高出來很多

14、如何保證高可用的?

RabbitMQ 是比較有代表性的,因爲是基於主從(非分佈式)做高可用性的,我們就以 RabbitMQ 爲例子講解第一種 MQ 的高可用性怎麼實現。RabbitMQ 有三種模式:單機模式、普通集羣模式、鏡像集羣模式。
單機模式,就是 Demo 級別的,一般就是你本地啓動了玩玩兒的?,沒人生產用單機模式普通集羣模式,意思就是在多臺機器上啓動多個
RabbitMQ 實例,每個機器啓動一個。你創建的queue,只會放在一個 RabbitMQ 實例上,但是每個實例都同步 queue 的元數據(元數據可以認爲是queue 的一些配置信息,通過元數據,可以找到 queue 所在實例)。你消費的時候,實際上如果連接到了另外一個實例,那麼那個實例會從 queue 所在實例上拉取數據過來。這方案主要是提高吞吐量的,就是說讓集羣中多個節點來服務某個 queue 的讀寫操作。

鏡像集羣模式:這種模式,纔是所謂的 RabbitMQ 的高可用模式。跟普通集羣模式不一樣的是,在鏡像集羣模式下,你創建的 queue,無論元數據還是 queue 裏的消息都會存在於多個實例上,就是說,每個 RabbitMQ 節點都有這個 queue 的一個完整鏡像,包含 queue 的全部數據的意思。然後每次你寫消息到 queue 的時候,都會自動把消息同步到多個實例的 queue 上。RabbitMQ 有很好的管理控制檯,就是在後臺新增一個策略,這個策略是鏡像集羣模式的策略,指定的時候是可以要求數據同步到所有節點的,也可以要求同步到指定數量的節點,再次創建 queue 的時候,應用這個策略,就會自動將數據同步到其他的節點上去了。這樣的話,好處在於,你任何一個機器宕機了,沒事兒,其它機器(節點)還包含了這個 queue 的完整數據,別的 consumer 都可以到其它節點上去消費數據。壞處在於,第一,這個性能開銷也太大了吧,消息需要同步到所有機器上,導致網絡帶寬壓力和消耗很重!RabbitMQ 一個 queue 的數據都是放在一個節點裏的,鏡像集羣下,也是每個節點都放這個 queue 的完整數據

Kafka 一個最基本的架構認識:由多個 broker 組成,每個 broker 是一個節點;你創建一個 topic,這個 topic 可以劃分爲多個 partition, 每個 partition 可以存在於不同的 broker 上,每個 partition 就放一部分數據。這就是天然的分佈式消息隊列,就是說一個 topic 的數據, 是分散放在多個機器上的,每個機器就放一部分數據。Kafka 0.8 以後,提供了 HA 機制,就是 replica(複製品) 副本機制。每個partition 的數據都會同步到其它機器上,形成自己的多個 replica 副本。所有 replica 會選舉一個leader 出來,那麼生產和消費都跟這個 leader 打交道,然後其他 replica 就是 follower。寫的時候,leader 會負責把數據同步到所有 follower 上去,讀的時候就直接讀 leader 上的數據即
可。只能讀寫leader?很簡單,要是你可以隨意讀寫每個 follower,那麼就要 care 數據一致性的問題,系統複雜度太高,很容易出問題。
Kafka 會均勻地將一個 partition 的所有 replica 分佈在不同的機器上,這樣纔可以提高容錯性。因爲如果某個 broker 宕機了,沒事兒,那個 broker上面的 partition 在其他機器上都
有副本的,如果這上面有某個 partition 的 leader,那麼此時會從 follower 中重新選舉一個新的 leader出來,大家繼續讀寫那個新的leader 即可。這就有所謂的高可用性了。寫數據的時候,生產者就寫leader,然後 leader 將數據落地寫本地磁盤,接着其他 follower 自己主動從 leader 來 pull 數據。一旦所有 follower 同步好數據了,就會發送 ack 給 leader,leader 收到所有 follower 的 ack 之後,就會返回寫成功的消息給生產者。(當然,這只是其中一種模式,還可以適當調整這個行爲)消費的時候,只會從 leader 去讀,但是隻有當一個消息已經被所有 follower 都同步成功返回 ack 的時候,這個消息纔會被消費者讀到

15、如何保證消息的可靠傳輸?如果消息丟了怎麼辦

數據的丟失問題,可能出現在生產者、MQ、消費者中
生產者丟失:生產者將數據發送到 RabbitMQ 的時候,可能數據就在半路給搞丟了,因爲網絡問題啥的,都有可能。此時可以選擇用RabbitMQ 提供的事務功能,就是生產者發送數據之前開啓 RabbitMQ事務channel.txSelect,然後發送消息,如果消息沒有成功被RabbitMQ 接收到,那麼生產者會收到異常報錯,此時就可以回滾事務channel.txRollback,然後重試發送消息;如果收到了消息,那麼可以提交事務channel.txCommit。吞吐量會下來,因爲太耗性能。所以一般來說,如果你要確保說寫RabbitMQ 的消息別丟,可以開啓confirm模式,在生產者那裏設置開啓confirm模式之後,你每次寫的消息都會分配一個唯一的 id,然後如果寫入了 RabbitMQ 中,
RabbitMQ 會給你回傳一個ack消息,告訴你說這個消息 ok 了。如果 RabbitMQ 沒能處理這個消息,會回調你一個nack接口,告訴你這個消息接收失敗,你可以重試。而且你可以結合這個機制自己在內存裏維護每個消息 id 的狀態,如果超過一定時間還沒接收到這個消息的回調,那麼你可以重發。事務機制和cnofirm機制最大的不同在於,事務機制是同步的,你提交一個事務之後會阻塞在那兒,但是confirm機 制是異步的,你發送個消息之後就可以發送下一個消息,然後那個消息RabbitMQ 接收了之後會異步回調你一個接口通知你這個消息接收到了。所以一般在生產者這塊避免數據丟失,都是用confirm機制的

MQ中丟失:就是 RabbitMQ 自己弄丟了數據,這個你必須開啓 RabbitMQ 的持久化,就是消息寫入之後會持久化到磁盤,哪怕是
RabbitMQ 自己掛了,恢復之後會自動讀取之前存儲的數據,一般數據不會丟。設置持久化有兩個步驟:創建 queue 的時候將其設置爲持久化,這樣就可以保證 RabbitMQ 持久化 queue 的元數據,但是不會持久化 queue 裏的數據。第二個是發送消息的時候將消息的deliveryMode 設置爲 2,就是將消息設置爲持久化的,此時 RabbitMQ 就會將消息持久化到磁盤上去。必須要同時設置這兩個持久化才
行,RabbitMQ 哪怕是掛了,再次重啓,也會從磁盤上重啓恢復queue,恢復這個 queue 裏的數據。持久化可以跟生產者那邊的confirm機制配合起來,只有消息被持久化到磁盤之後,纔會通知生產者ack了,所以哪怕是在持久化到磁盤之前,RabbitMQ 掛了,數據丟了,生產者收不到ack,你也是可以自己重發的。注意,哪怕是你給 RabbitMQ 開啓了持久化機制,也有一種可能,就是這個消息寫到了 RabbitMQ 中,但是還沒來得及持久化到磁盤上,結果不巧,此時RabbitMQ 掛了,就會導致內存裏的一點點數據丟失
消費端丟失:你消費的時候,剛消費到,還沒處理,結果進程掛了,比如重啓了,那麼就尷尬了,RabbitMQ 認爲你都消費了,這數據就丟了。這個時候得用 RabbitMQ 提供的ack機制,簡單來說,就是你關閉 RabbitMQ 的自動ack,可以通過一個 api 來調用就行,然後每次你自己代碼裏確保處理完的時候,再在程序裏ack一把。這樣的話,如果你還沒處理完,不就沒有ack?那 RabbitMQ 就認爲你還沒處理完, 這個時候 RabbitMQ 會把這個消費分配給別的 consumer 去處理,消息是不會丟的
在這裏插入圖片描述

16、如何保證消息的順序性

先看看順序會錯亂的場景:RabbitMQ:一個 queue,多個 consumer,這不明顯亂了;
在這裏插入圖片描述
解決:在這裏插入圖片描述

17、如何解決消息隊列的延時以及過期失效問題?消息隊列滿了以後該怎麼處理?有幾百萬 消息持續積壓幾小時,說說怎麼解決

消息積壓處理辦法:臨時緊急擴容:
先修復 consumer 的問題,確保其恢復消費速度,然後將現有 cnosumer 都停掉。新建一個 topic,partition 是原來的 10 倍,臨時建立好原先 10 倍的 queue 數量。然後寫一個臨時的分發數據的 consumer 程序,這個程序部署上去消費積壓的數據,消費之後不做耗時的處理,直接均勻輪詢寫入臨時建立好的 10 倍數量的 queue。

接着臨時徵用 10 倍的機器來部署 consumer,每一批 consumer 消費一個臨時 queue 的數據。這種做法相當於是臨時將 queue 資源和consumer 資源擴大 10 倍,以正常的 10 倍速度來消費數據。等快速消費完積壓數據之後,得恢復原先部署的架構,重新用原先的consumer 機器來消費消息。MQ中消息失效:假設你用的是 RabbitMQ,RabbtiMQ 是可以設置過期時間的,也就是 TTL。如果消息在queue 中積壓超過一定的時間就會被 RabbitMQ 給清理掉,這個數據就沒了。那這就是第二個坑了。這就不是說數據會大量積壓在 mq裏,而是大量的數據會直接搞丟。我們可以採取一個方案,就是批量重導,這個我們之前線上也有類似的場景幹過。就是大量積壓的時候, 我們當時就直接丟棄數據了,然後等過了高峯期以後,比如大家一起喝咖啡熬夜到晚上12點以後,用戶都睡覺了。這個時候我們就開始寫程序,將丟失的那批數據,寫個臨時程序,一點一點的查出來,然後重新灌入 mq 裏面去,把白天丟的數據給他補回來。也只能是這樣了。假設 1 萬個訂單積壓在 mq 裏面,沒有處理,其中 1000個訂單都丟了,你只能手動寫程序把那 1000 個訂單給查出來,手動發到 mq 裏去再補一次

mq消息隊列塊滿了:如果消息積壓在 mq 裏,你很長時間都沒有處理掉,此時導致 mq 都快寫滿了,咋辦?這個還有別的辦法嗎?沒有, 誰讓你第一個方案執行的太慢了,你臨時寫程序,接入數據來消費,消費一個丟棄一個,都不要了,快速消費掉所有的消息。然後走第二個方案,到了晚上再補數據吧

18、設計MQ的思路

比如說這個消息隊列系統,我們從以下幾個角度來考慮一下:
首先這個 mq 得支持可伸縮性吧,就是需要的時候快速擴容,就可以增加吞吐量和容量,那怎麼搞?設計個分佈式的系統唄,參照一下kafka 的設計理念,broker -> topic -> partition,每個 partition 放一個機器,就存一部分數據。如果現在資源不夠了,簡單啊,給 topic增加 partition,然後做數據遷移,增加機器,不就可以存放更多數據,提供更高的吞吐量了?

其次你得考慮一下這個 mq 的數據要不要落地磁盤吧?那肯定要了,落磁盤才能保證別進程掛了數據就丟了。那落磁盤的時候怎麼落啊?順序寫,這樣就沒有磁盤隨機讀寫的尋址開銷,磁盤順序讀寫的性能是很高的,這就是 kafka 的思路。
其次你考慮一下你的 mq 的可用性啊?這個事兒,具體參考之前可用性那個環節講解的 kafka 的高可用保障機制。多副本 -> leader & follower -> broker 掛了重新選舉 leader 即可對外服務。能不能支持數據 0 丟失啊?可以的,參考我們之前說的那個 kafka 數據零丟失方案

19、什麼是Message?

消息,消息是不具名的,它由消息頭和消息體組成。消息體是不透明的,而消息頭則由一系列的可選屬性組成,這些屬性包括 routing- key(路由鍵)、 priority(相對於其他消息的優先權)、 delivery-mode(指出該消息可能需要持久性存儲)等。

20、什麼是Publisher ?

消息的生產者,也是一個向交換器發佈消息的客戶端應用程序。

21、什麼是Exchange(將消息路由給隊列 )

交換器,用來接收生產者發送的消息並將這些消息路由給服務器中的隊列

22、什麼是Binding(消息隊列和交換器之間的關聯)

綁定,用於消息隊列和交換器之間的關聯。一個綁定就是基於路由鍵將交換器和消息隊列連接起來的路由規則,所以可以將交換器理解成一個由綁定構成的路由表

23、什麼是Queue?

消息隊列,用來保存消息直到發送給消費者。它是消息的容器,也是消息的終點。 一個消息可投入一個或多個隊列。消息一直在隊列裏面,等待消費者連接到這個隊列將其取走

24、什麼是Connection ?

網絡連接,比如一個 TCP 連接。

25、什麼是Channel?

信道, 多路複用連接中的一條獨立的雙向數據流通道。信道是建立在真實的 TCP 連接內地虛擬連接, AMQP 命令都是通過信道發出去的, 不管是發佈消息、訂閱隊列還是接收消息,這些動作都是通過信道完成。因爲對於操作系統來說建立和銷燬 TCP 都是非常昂貴的開銷,所以引入了信道的概念,以複用一條 TCP 連接

26、什麼是Consumer ?

消息的消費者,表示一個從消息隊列中取得消息的客戶端應用程序

27、什麼是Virtual Host ?

虛擬主機,表示一批交換器、消息隊列和相關對象。虛擬主機是共享相同的身份認證和加密環境的獨立服務器域。

28、什麼是Broker?

表示消息隊列服務器實體

29、Exchange 類型 ?

Exchange 分發消息時根據類型的不同分發策略有區別, 目前共四種類型: direct、 fanout、topic、 headers 。 headers 匹配 AMQP 消息的 header 而不是路由鍵,此外 headers 交換器和direct 交換器完全一致,但性能差很多,目前幾乎用不到了。

30、Direct 鍵(routing key)分佈 ?

Direct: 消息中的路由鍵(routing key)如果和 Binding 中的 binding key 一致,交換器就將消息發到對應的隊列中。它是完全匹配、單播的模式。
在這裏插入圖片描述

31、Fanout(廣播分發)?

Fanout: 每個發到 fanout 類型交換器的消息都會分到所有綁定的隊列上去。很像子網廣播,每臺子網內的主機都獲得了一份複製的消息。
fanout 類型轉發消息是最快的。
在這裏插入圖片描述

32、topic 交換器(模式匹配) ?

topic 交換器: topic 交換器通過模式匹配分配消息的路由鍵屬性,將路由鍵和某個模式進行匹配,此時隊列需要綁定到一個模式上。它將路由鍵和綁定鍵的字符串切分成單詞,這些單詞之間用點隔開。它同樣也會識別兩個通配符:符號“#” 和符號“” 。 #匹配 0 個或多個單詞, 匹配不多不少一個單詞。
在這裏插入圖片描述

擴展連接:加粗樣式更多請點擊這裏

博主公衆號程序員小羊 只發面試相關推文
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章