健康探測失敗排查思路

  1. 這個節點的在對應時間底層有沒異常cpu,mem 以及磁盤io ,網絡
  2. 拋出探針失敗的時間如果業務測的日誌也沒有異常的信息拋出,可以調整下超時時間
  3. 容器抓包分析
1 可以先執行kubectl get pods $PodName -n $NameSpace -o wide看看pod運行的節點 
2 登錄到對應的node上,如果是docker運行時,執行 docker ps| grep $pod名稱 找到容器ID,然後在執行 docker inspect -f {{.State.Pid}} 容器id 找到容器的進程pid 
如果是containerd, yum -y install jq ; crictl inspect $(crictl ps | grep crictl pods | grep $POD_NAME名稱 | awk '{print$1}' | awk '{print$1}') | jq .info.pid ,找到容器的進程pid 
3 執行yum -y install util-linux.x86_64 安裝下 nsenter工具,然後執行 nsenter --target 容器pid -n 進入到容器的網絡名稱空間,通過tcpdump -i eth0 -s 0 -w /tmp/1.pcap抓包
  1. 業務代碼更新導致,回滾驗證 fixbug。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章