原创 使用containerlab搭建cilium BGP環境解析

使用 Containerlab + Kind 快速部署 Cilium BGP 環境一文中使用Containerlab和Cilium實現了模擬環境下的Cilium BGP網絡。它使用Containerlab模擬外部BGP路由器,使用Cili

原创 Grafana Mimir:支持亂序的指標採集

Grafana Mimir:支持亂序的指標採集 譯自:New in Grafana Mimir: Introducing out-of-order sample ingestion 很早之前在使用thanos和多實例的Prometheus

原创 事件的事後調查

事件的事後調查 目錄事件的事後調查簡介什麼是事件不是所有事情都是事件監控告警可操作告警的重要性事件管理生命週期事件響應的準備練習(準備)災難演習和事件響應練習定期測試微妙的測試和自動化準備響應者編寫事件響應測試擴展時間管理(響應)組件響應者

原创 通過重新構建Kubernetes來實現更具彈性的容器編排系統

通過重新構建Kubernetes來實現更具彈性的容器編排系統 譯自:rearchitecting-kubernetes-for-the-edge 摘要 近年來,kubernetes已經發展爲容器編排的首要選擇。kubernetes主要面向雲

原创 kubernetes中不可見的OOM

最近看了一篇文章:Tracking Down “Invisible” OOM Kills in Kubernetes,其講述的是由於內存不足導致Pod中的進程被killed,但Pod並沒有重啓,也沒有任何日誌或kubernetes事件,只有

原创 谷歌的SRE和開發是如何合作的

本文是一篇比較有價值的、介紹SRE的文章。國內的所謂SRE職責其實並不明確,大部分其實還是幹普通運維的事。但文中介紹的谷歌的運作方式起點還是相對比較高的,無論對SRE、對開發,甚至對公司都有很高的要求。正如本文所述,谷歌的方式並不一定適合

原创 通過memberlist庫實現gossip管理集羣以及集羣數據交互

通過memberlist庫實現gossip管理集羣以及集羣數據交互 概述 memberlist庫的簡單用法如下,注意下面使用for循環來執行list.Join,原因是一開始各節點都沒有runing,直接執行Join會出現連接拒絕的錯誤。 p

原创 簡單聊聊運維監控的其他用途

簡單聊聊運維監控的其他用途 說到監控,一般都會聊到這三個基本維度:metrics、log和tracing,以及這幾種常用的工具:Prometheus+grafana+alertmanager、ELK、jaeger。 監控通常來展示應用或集羣

原创 Opentelemetry SDK的簡單用法

Opentelemetry SDK的簡單用法 概述 Opentelemetry trace的簡單架構圖如下,客戶端和服務端都需要啓動一個traceProvider,主要用於將trace數據傳輸到registry(如jaeger、opence

原创 alertmanager集羣莫名發送resolve消息的問題探究

alertmanager集羣莫名發送resolve消息的問題探究 術語 告警消息:指一條告警 告警恢復消息:指一條告警恢復 告警信息:指告警相關的內容,包括告警消息和告警恢復消息 問題描述 最近遇到了一個alertmanager HA集

原创 在生產中部署ML前需要了解的事

在生產中部署ML前需要了解的事 譯自:What You Should Know before Deploying ML in Production MLOps的必要性 MLOps之所以重要,有幾個原因。首先,機器學習模型依賴大量數據,科學家

原创 爲媒體資產構建一個雲原生的文件系統

Netflix Drive: 爲媒體資產構建一個雲原生的文件系統 Netflix Drive是一個多接口、多OS的雲文件系統,旨在爲設計師的工作站提供典型的POSIX文件系統和操作方式。 它還可以作爲一個具有REST後端的微服務,內含很多工

原创 使用kubeseal加密和管理k8s集羣的secret

使用kubeseal加密和管理k8s集羣的secret 在k8s的管理過程中,像secret這種資源並不好維護,kubeseal提供了一種相對簡單的方式來對原始secret資源進行加密,並通過控制器進行解密,以此來規避secret泄露風險。

原创 Machine Learning With Go 第4章:迴歸

4 迴歸 之前有轉載過一篇文章:容量推薦引擎:基於吞吐量和利用率的預測縮放,裏面用到了基本的線性迴歸來預測容器的資源利用情況。後面打算學一下相關的知識,譯自:Machine Learning With Go 我們將探究的第一組機器學習技

原创 容量推薦引擎:基於吞吐量和利用率的預測縮放

容量推薦引擎:基於吞吐量和利用率的預測縮放 本文介紹了一種容量推薦模型,實現方式相對相對比較簡單,且已在Uber內部使用,可以依照文中的方式開發一版容量推薦系統。 譯自:Capacity Recommendation Engine: Th