原创 Container 掛載目錄報錯: /rootfs/dev/termination-log: read-only file system

解析問題思路: 1.  首先,我們要先了解一個事實:docker 在使用 -v 來掛載 data volume 時,不論是在 host 端還是container 內部, 若是其文檔或是目錄不存在,則會自動建立它 2. 可以復現問題的命令下

原创 k8s container日誌報錯: 10250 dial tcp lookup on server misbehaving

1.  修改/etc/resolv.conf [root@master ~]# cat /etc/resolv.conf # Generated by NetworkManager nameserver 10.8.1.6 其中ip是k

原创 ceph df中的max avail取值

1. 獲取OSD容量 [root@node-3 ~]# ceph osd df ID CLASS WEIGHT REWEIGHT SIZE USE AVAIL %USE VAR PGS 1 hdd 0.12

原创 分析網橋bond及調整網卡速度

分析網橋相關bond信息 1. 查看所有網橋 [root@node-1 ~]# ip r | grep br- default via 172.18.0.1 dev br-pub 10.30.1.0/24 dev br-roller

原创 Etcd Unable to attach or mount volumes

1.etcd報錯日誌如下: Events: Type Reason Age From Message ---- ------

原创 raid1降級恢復獲取實時狀態

1. 拔除節點的一塊緩存盤後,將緩存盤從盤架拆卸,放置於移動硬盤盒中 2. 將移動硬盤盒連接到具備windows的操作系統的機器上 3. 進入windows磁盤管理器,將新插入的緩存盤中的所有分區依次刪除 4. 新建分區,然後再刪除分區(

原创 Rabbitmq的一些場景構建

1.節點消息隊列服務發生異常 rabbitmqadmin -u rabbitmq -p 77jJ4gwo -H rabbitmq list exchanges| grep reply| awk '{print $2}'| while r

原创 通過 by-path 對應 盤符和 OSD_ID

當前平臺:在K8s上部署了Ceph,由Ceph生成的磁盤用途有兩種:緩存盤和數據盤 背景說明:每個數據盤都會對應一個OSD_ID,而緩存盤是一種特殊的數據盤 需求:監控頁面需要展示各種用途的磁盤的總容量和已使用量,而數據盤(緩存盤)的OS

原创 Prometheus源碼系列: 啓動過程分析

Prometheus 啓動過程中,主要包含服務組件初始化,服務組件配置應用及啓動各個服務組件三個部分,下面基於版本 v2.7.1,詳細分析這三部分內容 1.服務組件初始化 (1) Storage組件初始化   Prometheus的Sto

原创 從容器裏umount 一個/dev/rbd設備

背景:   (1) 我們的平臺docker默認的掛載方式是MountFlags=slave, 該掛載方式的一個特性是:一旦某個container的以這種方式掛載後啓動後,則host節點的信息變動,不會再同步到container裏    

原创 服務器非正常關機(意外掉電、強制拔電)後 etcd 數據損壞,如何恢復etcd集羣

問題描述:服務器非正常關機(意外掉電、強制拔電)後 etcd 數據損壞。通過下述現象3或者4能確定是出現了數據損壞問題;現象1和2是表象。 現象:1、因爲當前kube-apiserver 是跟本地的 etcd 通信,etcd 數據損壞會導

原创 Prometheus源碼系列:指標採集(scrapeManager)

指標採集(scrapeManager)簡介   從上篇文章:Prometheus源碼系列:服務發現 (serviceDiscover),我們已經知道,爲了從服務發現(serviceDiscover)實時獲取監控服務(targets),

原创 Alertmanager 告警的mute和unmute

1.通過Alertmanager的api mute全部告警 #!/usr/bin/env python # -*- coding: utf-8 -*- # Usage: python mute_alerts.py import js

原创 Prometheus源碼系列:通知管理(notifierManager)

             Prometheus會在配置文件定義一些告警規則表達式,  當採集的metrics經過聚合, 滿足告警表達式條件, 將觸發告警, 發送給告警服務Alertmanager. 所以,本文主要分析與Alertmanag

原创 Prometheus源碼系列:服務發現 (serviceDiscover)

 服務發現 (serviceDiscover) 簡介   Prometheus採用pull方式拉取監控數據,需要實時感知被監控服務(Target)的變化.服務發現(serviceDiscover)支持多種服務發現系統,這些系統可以動態