ceph 集羣 健康狀態 監管

1、簡介

1.1 介紹

    我們 需要 監測 的集羣 正在 運行的各種服務進程;集羣 所有 pgs 正常 狀態 爲 active + clean,其餘 均爲 異常 狀態
    

1.2 集羣 基礎 監測

    集羣 基礎 監測 主要包括 檢查 集羣 健康狀態,容量 使用 情況,monitor、osd 守護 進程的運行狀態(up、down)
    

2、集羣 健康 檢測

    哈哈,平時 比較懶,每次都要 輸入 那麼多 ceph,有點煩,原來 ceph 有個 交互模式(沒有 命令 記憶功能,哈哈哈,失算)
    

2.1 交互 模式下 檢測 集羣 健康

# ceph

## 查看 集羣當前 狀態,HEALTH_OK、HEALTH_WARN、HEALTH_ERR
ceph> health

## 效果 與 ceph -s 一樣
ceph> status

## 集羣 mon 相關 信息
ceph> quorum_status
ceph> mon_status

    

2.2 命令行 輸入

    哈哈,還是 使用 命令行 操作吧,能通過 上下 按鍵 查找,同樣的命令 連續執行時, 不需要 不停的輸入

## 這兩個 命令 執行 的效果一樣
# ceph status
# ceph -s

## health : HEALTH_OK、HEALTH_WARN、HEALTH_ERR
# ceph health [detail]

    

備註:
    集羣 健康 狀態 "HEALTH_OK" 表示 集羣 健康正常,若出現 "HEALTH_WARN XXX num placement group stale"時,等待 幾分鐘,一般 都可 自動 恢復 正常
    

2.3 集羣 動態 監測

    某些 情況下,需要 動態 持續 的 關注 集羣 事件信息

# ceph -w

    

3、集羣 容量 檢測

3.1 集羣 容量 查看

    集羣 處於 健康 狀態 運行,凡事 都有個 度,存儲 集羣 也是一樣的,不可能 一直 寫入,到了 後期 需要 關注 容量 狀態,畢竟 數據量越大,會 導致 整個集羣 的性能 有所 降低(畢竟 不好好 檢測 容量 狀態,數據 阻塞 導致 的問題 可不是那麼 好解決的啦);該刪的的數據 就刪掉,實在 沒容量啦,就擴容吧,理論上 是 無限 擴展;還有 就是 數據 均衡的問題(這個 後期 再編寫文章 詳細 描述啦)

## ceph 中,所有 的數據 都寫入 數據池中(抽象 出來的概念)
# ceph df

    

3.2 集羣 容量 參數

    一般 情況下,osd 使用 超過 85%,就不會 往 該 osd 寫入數據;集羣 整體 容量 超過 95% 集羣 就不能 寫入了;可以 調整 配置,控制 集羣 的 容量,一般 不建議 調太大;osd 超過 默認告警值 就想想 數據 能不能 均衡;集羣 超過 告警值, 擴容吧(哈哈哈,蹲機房 擴容)

##  配置文件中 添加 容量 配置參數,記得 重啓 相關 服務 讓 配置生效
## 哈哈,其實 也可以 在線 修改 配置參數,後面 單獨 編寫 文件介紹嘍
# vim /etc/ceph/ceph.conf
...
## 集羣 整體 容量 使用 上限
mon_osd_full_ratio = "0.950000" 

## 單個 osd 容量 使用 上限
mon_osd_nearfull_ratio = "0.850000" 
...

    

4、mon 檢測

    一般 情況下,線上 環境 都會 部署 多個 mon; 所以 對 集羣 進行 數據 讀寫時,需要 檢查 mon 狀態
    

## dump 比 stat 更 詳細,quorum_status 比 dump 更詳細
# ceph mon stat
# ceph mon dump
# ceph quorum_status -f json-pretty

5、osd 檢測

5.1 osd 狀態

    in:osd 加入 集羣
    out:osd 沒有 加入集羣
    down:osd 加入集羣,但是 服務 停止
    up:osd 加入 集羣,並且 服務正在 運行
    

5.2 osd 狀態 檢測

## 檢查 所有 osd 狀態
# ceph osd stat
# ceph osd dump
# ceph osd tree

    

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章