k8s CronJobs導致的一次崩潰

原創

2019-03-23 04:32

最近在玩kubeflow/katib和kubeflow/pipeline 找了個例子, 具體流程是：

超參調優（Katib）-- train — serving

但是跑着跑着忽然脫了，cluster中多了數百個Error狀態的pod，而且數量還在不斷增加，這是要crash的節奏啊！

趕緊抓了一個pod describe看了看，發現這個：

  - apiVersion: batch/v1
    blockOwnerDeletion: true
    controller: true
    kind: Job

感情是個Job，這麼有規律的增加不是有人在while true就是cronJob了，查了查資源，果然有幾個cronJob再賣力的生產pod。

找到罪魁禍首就好辦，看了看cronJob的定義：

      schedule: "*/1 * * * *"
      successfulJobsHistoryLimit: 0
      failedJobsHistoryLimit: 1

一分鐘一個，但是已經設置了

successfulJobsHistoryLimit: 0

failedJobsHistoryLimit: 1

這兩個屬性的意思是說成功的Job pod全部會被刪除，失敗的pod只會保留一個，估計是爲了讓你查看錯誤原因。

但爲啥我Error狀態的pod都飆到上百了？

查了查google，這個鍋果然得k8s背：

https://github.com/kubernetes/kubernetes/issues/53331

簡單來說就是上面提到的兩個配置支隊pod state是Succeeded和Failed的pod起效，對其他狀態如：Error並不加理會的，這就是pod大量堆積的原因。

不過是Error狀態並不可怕，可怕的是Pending狀態，也不理會啊。

這個問題在k8s v1.12仍然存在，當然據說可以通過在job上設置：activeDeadlineSeconds來解決，這個設置會讓k8s在若干時間段之後把該pod刪除掉，但是這個時間怎麼設置，看起來也不是個完美的解決方案。

至於爲啥我的pod都Error了，這是另外一個話題了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Qt/C++音視頻開發77-獲取本地有哪些攝像頭名稱/ffmpeg命令日誌方式

一、前言上一篇文章講使用ffmpeg函數接口去獲取本地攝像頭信息，這種方式只能從ffmpeg5版本開始才具備，那ffmpeg3/4只能乾瞪眼？那肯定不行的，必須要想辦法打通這個功能，查閱信息發現可以執行命令 ffmpeg -f dshow

2024-06-16 14:31:38

Java 學習網站

## spring security https://github.com/jitwxs/blog-sample/tree/master

2024-06-16 14:31:18

全面解析 OAuth 2.0：概念、流程與實戰示例

OAuth（開放授權）是一種開放標準，用於允許用戶在不暴露其憑據（如用戶名和密碼）的情況下，讓第三方應用程序訪問其資源（如用戶的照片、視頻、聯繫人列表等）。OAuth 主要用於授權，而不是身份驗證。背景 OAuth，全稱爲Open Aut

2024-06-16 14:24:47

Lakehouse 還是 Warehouse？(2/2).md

這篇博文包括 Onehouse 首席執行官 Vinoth Chandar 於 2022 年 3 月在奧斯汀數據委員會發表的重要演講的後半部分。本文是第 2 部分，比較了架構的功能和性價比特徵。最後，它描述了一個面向未來的、湖倉一體的架構。

2024-06-16 14:22:37

C#/.NET/.NET Core拾遺補漏合集（24年6月更新）

前言在這個快速發展的技術世界中，時常會有一些重要的知識點、信息或細節被忽略或遺漏。《C#/.NET/.NET Core拾遺補漏》專欄我們將探討一些可能被忽略或遺漏的重要知識點、信息或細節，以幫助大家更全面地瞭解這些技術棧的特性和發展

2024-06-16 14:21:47

Python 潮流週刊#56：NumPy 2.0 裏更快速的字符串函數（摘要）

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-06-16 14:19:07

python: time object

# encoding: utf-8 # 版權所有 2024 塗聚文有限公司 # 許可信息查看： # 描述： # Author : geovindu,Geovin Du 塗聚文. # IDE : PyCharm 202

®Geovin Du Dream Park™

2024-06-16 14:00:36

定期優化和分析表

定期運行 OPTIMIZE TABLE 和 ANALYZE TABLE 命令，以確保表的統計信息是最新的，索引也得到了優化。 OPTIMIZE TABLE wp_posts; ANALYZE TABLE wp_posts; OPTIMIZ

2024-06-16 13:56:25

Paimon筆記

支持高吞吐數據攝入、變更追蹤、高效分析的流批數據湖基於LSM提升寫入速度並降低寫入消耗；基於有序的SortRun裁剪大部分數據以提升查詢性能；支持多種merge引擎實現高性能流表打寬基於Flink&Paimon實現，提供數據一致性管理能

2024-06-16 13:46:55

存檔-環境信息conda

3060 (Pytorch 2) 4090 (Pytorch 2) 3060 (Pytorch 1) name: basechannels: - nvidia/label/cuda-11.8.0 - defaultsdep

太一吾魚水

2024-06-16 13:44:44

存檔-環境信息apt

1 !apt list --installed 2 Listing... Done 3 accountsservice/now 0.6.55-0ubuntu12~20.04.5 amd64 [installed,upgr

太一吾魚水

2024-06-16 13:44:44

Wireshark 安裝+使用（一）

https://blog.csdn.net/zhuizhufanxin123/article/details/103982940

規格嚴格-功夫到家

2024-06-16 13:43:14

metasploit學習

Metasploit(MSF)使用詳解—以kali系統環境下永恆之藍（ms17_010）爲例 https://blog.csdn.net/weoptions/article/details/133039825 https://blog.cs

規格嚴格-功夫到家

2024-06-16 13:43:14

VirtIO drivers for Linux, Windows and etc.

Why do you need VirtIO driver? It's useful when you use Linux/Windows VMs in PVE. Usually when you attach a network to t

2024-06-16 13:42:04

Linux 命令大放送！（第一輯）

涓涓細流，終匯大海。在 "Shell 小技能" 一文中，講到了 Shell 組合 linux 命令的實用小技能。每一條 linux 命令，都是一個小工具。 Shell 可以將很多小工具組合成更強大的實用工具。本文主要梳理程序員常用

2024-06-16 13:39:44

24小時熱門文章

Wireshark 安裝+使用（一）

最新文章

最新評論文章