1、簡介

1.1 介紹

我們需要監測的集羣正在運行的各種服務進程；集羣所有 pgs 正常狀態爲 active + clean，其餘均爲異常狀態

1.2 集羣基礎監測

集羣基礎監測主要包括檢查集羣健康狀態，容量使用情況，monitor、osd 守護進程的運行狀態（up、down）

2、集羣健康檢測

哈哈，平時比較懶，每次都要輸入那麼多 ceph，有點煩，原來 ceph 有個交互模式（沒有命令記憶功能，哈哈哈，失算）

2.1 交互模式下檢測集羣健康

# ceph

## 查看 集羣當前 狀態，HEALTH_OK、HEALTH_WARN、HEALTH_ERR
ceph> health

## 效果 與 ceph -s 一樣
ceph> status

## 集羣 mon 相關 信息
ceph> quorum_status
ceph> mon_status

2.2 命令行輸入

哈哈，還是使用命令行操作吧，能通過上下按鍵查找，同樣的命令連續執行時，不需要不停的輸入

## 這兩個 命令 執行 的效果一樣
# ceph status
# ceph -s

## health ： HEALTH_OK、HEALTH_WARN、HEALTH_ERR
# ceph health [detail]

備註：
集羣健康狀態 "HEALTH_OK" 表示集羣健康正常，若出現 "HEALTH_WARN XXX num placement group stale"時，等待幾分鐘，一般都可自動恢復正常

2.3 集羣動態監測

某些情況下，需要動態持續的關注集羣事件信息

# ceph -w

3、集羣容量檢測

3.1 集羣容量查看

集羣處於健康狀態運行，凡事都有個度，存儲集羣也是一樣的，不可能一直寫入，到了後期需要關注容量狀態，畢竟數據量越大，會導致整個集羣的性能有所降低（畢竟不好好檢測容量狀態，數據阻塞導致的問題可不是那麼好解決的啦）；該刪的的數據就刪掉，實在沒容量啦，就擴容吧，理論上是無限擴展；還有就是數據均衡的問題（這個後期再編寫文章詳細描述啦）

## ceph 中，所有 的數據 都寫入 數據池中（抽象 出來的概念）
# ceph df

3.2 集羣容量參數

一般情況下，osd 使用超過 85%，就不會往該 osd 寫入數據；集羣整體容量超過 95% 集羣就不能寫入了；可以調整配置，控制集羣的容量，一般不建議調太大；osd 超過默認告警值就想想數據能不能均衡；集羣超過告警值，擴容吧（哈哈哈，蹲機房擴容）

##  配置文件中 添加 容量 配置參數，記得 重啓 相關 服務 讓 配置生效
## 哈哈，其實 也可以 在線 修改 配置參數，後面 單獨 編寫 文件介紹嘍
# vim /etc/ceph/ceph.conf
...
## 集羣 整體 容量 使用 上限
mon_osd_full_ratio = "0.950000" 

## 單個 osd 容量 使用 上限
mon_osd_nearfull_ratio = "0.850000" 
...

4、mon 檢測

一般情況下，線上環境都會部署多個 mon；所以對集羣進行數據讀寫時，需要檢查 mon 狀態

## dump 比 stat 更 詳細，quorum_status 比 dump 更詳細
# ceph mon stat
# ceph mon dump
# ceph quorum_status -f json-pretty

5、osd 檢測

5.1 osd 狀態

    in：osd 加入集羣
    out：osd 沒有加入集羣
    down：osd 加入集羣，但是服務停止
    up：osd 加入集羣，並且服務正在運行

5.2 osd 狀態檢測

## 檢查 所有 osd 狀態
# ceph osd stat
# ceph osd dump
# ceph osd tree

ceph 集羣健康狀態監管

1、簡介

1.1 介紹

1.2 集羣基礎監測

2、集羣健康檢測

2.1 交互模式下檢測集羣健康

2.2 命令行輸入

2.3 集羣動態監測

3、集羣容量檢測

3.1 集羣容量查看

3.2 集羣容量參數

4、mon 檢測

5、osd 檢測

5.1 osd 狀態

5.2 osd 狀態檢測

ceph crush cluster map 基礎操作

Linux 各種類型文件壓縮、解壓

Linux tmpfs 文件系統（基礎概念）

ceph 集羣多網絡配置（public、cluster、network、addr ）

螺絲釘 IT人員感悟 -- 別讓 IT成爲金錢的奴隸（希望引起大家的共鳴）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

ceph 集羣 健康狀態 監管

1、簡介

1.1 介紹

1.2 集羣 基礎 監測

2、集羣 健康 檢測

2.1 交互 模式下 檢測 集羣 健康

2.2 命令行 輸入

2.3 集羣 動態 監測

3、集羣 容量 檢測

3.1 集羣 容量 查看

3.2 集羣 容量 參數

4、mon 檢測

5、osd 檢測

5.1 osd 狀態

5.2 osd 狀態 檢測

ceph 集羣健康狀態監管

1.2 集羣基礎監測

2、集羣健康檢測

2.1 交互模式下檢測集羣健康

2.2 命令行輸入

2.3 集羣動態監測

3、集羣容量檢測

3.1 集羣容量查看

3.2 集羣容量參數

5.2 osd 狀態檢測