RabbitMQ實戰:界面管理和監控

本系列是「RabbitMQ實戰:高效部署分佈式消息隊列」書籍的總結筆記。

上一篇總結了可能出現的異常場景,並對RabbitMQ提供的可用性保證進行了分析,在出現服務器宕機後,仍然可以正常服務。另外,需要儘快恢復異常的服務器,重新加入集羣,推送未消費的消息,通過監控可第一時間接收到錯誤並進行處理。

另外,我們想主動了解消息堆積和消費的情況,以及服務器節點的壓力,RabbitMQ提供了幾種方式便捷、直觀的瞭解,包括Web管理插件、REST API、rabbitmqadmin腳本。

通過介紹,你會瞭解到:

  • web管理插件
  • REST API
  • rabbitmqadmin腳本
  • Nagios和監控RabbitMQ

web管理插件

RabbitMQ的插件是由Erlang語言寫的,並且和服務器一同運行在同一個Erlang VM中,通過下面的命令啓用web管理插件:

sudo ./rabbitmq-plugins enable rabbitmq_management

啓動之後,訪問15672端口,可看到Web管理頁面主頁面:

RabbitMQ主頁面

添加用戶

默認會提供一個默認用戶guest,密碼也是guest,線上環境需要創建一個新用戶,並把guest用戶刪除。

首先切換到Admin標籤頁,可以查看或添加用戶,添加用戶時,可指定Tags,相當於角色,會擁有對應的權限:

查看和添加用戶

點擊用戶列表的用戶名,可分配權限、編輯或刪除用戶,分配權限時,可細化到某個virtual下的某個topic,並按讀、寫、配置類別進行分開:

添加權限

管理隊列、交換器、綁定

切換到“Exchanges”標籤,可查看和管理交換器,單擊交換器名稱,可查看到更多詳細信息,比如交換器綁定,還可以添加新的綁定:

交換器

交換器綁定

切換到“Queues”標籤,可以查看隊列信息,點擊隊列名稱,可查看隊列所有狀態的消息數量和大小等統計信息:

隊列列表

隊列統計信息

還可以查看消費者和綁定,發佈、獲取消息:

查看消費者和綁定

REST API

有時需要初始化一些列隊列和交換器,每次部署一套新環境後,都需要一步一步創建會有點麻煩,通過REST API可方便的實現自動化腳本。

當啓用web管理插件後,不僅獲得了WEB UI,也擁一個REST化的WEB管理API,任何語言或腳本只要有HTTP庫,都能調用。

接口會返回json串,比如獲取所有隊列:

curl -i -u admin:admin http://localhost:15672/api/queues

會返回一個json數組,每個元素是一個隊列,包含隊列的各種屬性:

REST API請求結果

rabbitmqadmin腳本

另外,還提供了rabbitmqadmin腳本的方式查看元數據信息和一些統計數據,它會包裝REST API,使用乾淨的接口與其交互,而且輸出內容也是格式化過的,方便我們查看。

比如查看所有隊列,可以這樣寫:

./rabbitmqadmin list queues

會返回如下結果:

rabbitmqadmin返回結果

監控

監控RabbitMQ並不只是確保端口5672是開啓的並能接收TCP連接而已,還要能夠模擬AMQP客戶端來確保連接之後獲取信道,如果能使用REST API找出是否所有構成RabbitMQ部件都正常運行,並且之間能正常通信,就更好了。

書中介紹使用Nagios監控框架進行監控,我之前沒有使用,這裏蒐集了一些資料,會做下簡單介紹。

Nagios

Nagios是一款開源的監控工具,能有效監控Windows、Linux和Unix的主機狀態,交換機路由器等網絡設置,打印機等。在系統或服務狀態異常時發出郵件或短信報警第一時間通知網站運維人員,在狀態恢復後發出正常的郵件或短信通知。

它本身不包括這部分功能,所有的監控、檢測功能都是通過各種插件完成的,啓動Nagios後,它會週期性的自動調用插件去檢測服務器狀態,同時Nagios會維持一個隊列,所有插件返回來的狀態信息都進入隊列,Nagios每次都從隊首開始讀取信息,並進行處理後,把狀態結果通過web顯示出來。

Nagios可以識別4種狀態返回信息:

  • 0(OK)表示狀態正常/綠色;
  • 1(WARNING)表示出現警告/×××;
  • 2(CRITICAL)表示出現非常嚴重的錯誤/紅色;
  • 3(UNKNOWN)表示未知錯誤/深×××;

Nagios根據插件返回來的值,來判斷監控對象的狀態,並通過web顯示出來,以供管理員及時發現故障。

它是如何管理遠端服務器對象的,使用NRPE插件,主要過程如下:

  • Nagios 執行安裝在它裏面的check_nrpe插件,並告訴check_nrpe去檢測哪些服務;
  • 通過SSL,check_nrpe連接遠端機子上的NRPE daemon;
  • NRPE 運行本地的各種插件去檢測本地的服務和狀態;
  • NRPE把檢測的結果傳給主機端的check_nrpe,check_nrpe再把結果送到Nagios狀態隊列中;
  • Nagios 依次讀取隊列中的信息,再把結果顯示出來;
監控RabbitMQ

書中提到監控RabbitMQ的各個方面,比如:監控Rabbit內部狀態、確認RabbitMQ可用並且能夠響應、觀察隊列狀態檢測消費者異常、檢測消息通信結構中不合需求的配置更改等。

基本思路都是通過編寫Nagios需要的檢測腳本,使用AMQP客戶端或REST API的方式,獲取關心的監控信息,根據情況返回不同的狀態碼。

具體的腳本腳本就不一一介紹了,這裏舉個例子,監控隊列的持久化配置是否正確,通過api/queues/<vhost>/<queueName>獲取隊列信息,判斷它的durable屬性是否爲true,腳本如下:

import sys, json, httplib, urllib, base64, socket

# 1.定義狀態碼
EXIT_OK = 0
EXIT_WARNING = 1
EXIT_CRITICAL = 2
EXIT_UNKNOWN = 3

# 2.解析參數
server, port = sys.argv[1].split(":")
vhost = sys.argv[2]
username = sys.argv[3]
password = sys.argv[4]
queue_name = sys.argv[5]
auto_delete = json.loads(sys.argv[6].lower())
durable = json.loads(sys.argv[7].lower())

# 3.連接服務器
conn = httplib.HTTPConnection(server, port)

# 4.構建api路徑
path = "/api/queues/%s/%s" % (urllib.quote(vhost, safe=""),
                              urllib.quote(queue_name))
method = "GET"

# 5.執行http請求
credentials = base64.b64encode("%s:%s" % (username, password))
try:
    conn.request(method, path, "",
                 {"Content-Type" : "application/json",
                  "Authorization" : "Basic " + credentials})

# 6.連接異常,退出
except socket.error:
    print "UNKNOWN: Could not connect to %s:%s" % (server, port)
    exit(EXIT_UNKNOWN)

response = conn.getresponse()

# 7.狀態碼爲404,說明隊列不存在,退出
if response.status == 404:
    print "CRITICAL: Queue %s does not exist." % queue_name
    exit(EXIT_CRITICAL)

# 8.durable屬性是否正確
if response["durable"] != durable:
    print "WARN: Queue '%s' - durable flag is NOT %s." % \
          (queue_name, durable)
    exit(EXIT_WARNING)

# 9.返回正常
print "OK: Queue %s configured correctly." % queue_name
exit(EXIT_OK)

下一篇將介紹RabbitMQ安全和性能方面的考慮。

歡迎掃描下方二維碼,關注我的個人微信公衆號 ~

情情說

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章