原创 kubernetes中不可見的OOM

最近看了一篇文章:Tracking Down “Invisible” OOM Kills in Kubernetes,其講述的是由於內存不足導致Pod中的進程被killed,但Pod並沒有重啓,也沒有任何日誌或kubernetes事件,只有

原创 谷歌的SRE和開發是如何合作的

本文是一篇比較有價值的、介紹SRE的文章。國內的所謂SRE職責其實並不明確,大部分其實還是幹普通運維的事。但文中介紹的谷歌的運作方式起點還是相對比較高的,無論對SRE、對開發,甚至對公司都有很高的要求。正如本文所述,谷歌的方式並不一定適合

原创 通過memberlist庫實現gossip管理集羣以及集羣數據交互

通過memberlist庫實現gossip管理集羣以及集羣數據交互 概述 memberlist庫的簡單用法如下,注意下面使用for循環來執行list.Join,原因是一開始各節點都沒有runing,直接執行Join會出現連接拒絕的錯誤。 p

原创 簡單聊聊運維監控的其他用途

簡單聊聊運維監控的其他用途 說到監控,一般都會聊到這三個基本維度:metrics、log和tracing,以及這幾種常用的工具:Prometheus+grafana+alertmanager、ELK、jaeger。 監控通常來展示應用或集羣

原创 Opentelemetry SDK的簡單用法

Opentelemetry SDK的簡單用法 概述 Opentelemetry trace的簡單架構圖如下,客戶端和服務端都需要啓動一個traceProvider,主要用於將trace數據傳輸到registry(如jaeger、opence

原创 alertmanager集羣莫名發送resolve消息的問題探究

alertmanager集羣莫名發送resolve消息的問題探究 術語 告警消息:指一條告警 告警恢復消息:指一條告警恢復 告警信息:指告警相關的內容,包括告警消息和告警恢復消息 問題描述 最近遇到了一個alertmanager HA集

原创 在生產中部署ML前需要了解的事

在生產中部署ML前需要了解的事 譯自:What You Should Know before Deploying ML in Production MLOps的必要性 MLOps之所以重要,有幾個原因。首先,機器學習模型依賴大量數據,科學家

原创 爲媒體資產構建一個雲原生的文件系統

Netflix Drive: 爲媒體資產構建一個雲原生的文件系統 Netflix Drive是一個多接口、多OS的雲文件系統,旨在爲設計師的工作站提供典型的POSIX文件系統和操作方式。 它還可以作爲一個具有REST後端的微服務,內含很多工

原创 使用kubeseal加密和管理k8s集羣的secret

使用kubeseal加密和管理k8s集羣的secret 在k8s的管理過程中,像secret這種資源並不好維護,kubeseal提供了一種相對簡單的方式來對原始secret資源進行加密,並通過控制器進行解密,以此來規避secret泄露風險。

原创 Machine Learning With Go 第4章:迴歸

4 迴歸 之前有轉載過一篇文章:容量推薦引擎:基於吞吐量和利用率的預測縮放,裏面用到了基本的線性迴歸來預測容器的資源利用情況。後面打算學一下相關的知識,譯自:Machine Learning With Go 我們將探究的第一組機器學習技

原创 容量推薦引擎:基於吞吐量和利用率的預測縮放

容量推薦引擎:基於吞吐量和利用率的預測縮放 本文介紹了一種容量推薦模型,實現方式相對相對比較簡單,且已在Uber內部使用,可以依照文中的方式開發一版容量推薦系統。 譯自:Capacity Recommendation Engine: Th

原创 使用Go實現健壯的內存型緩存

使用Go實現健壯的內存型緩存 本文介紹了緩存的常見使用場景、選型以及注意點,比較有價值。 譯自:Implementing robust in-memory cache with Go 內存型緩存是一種以消費內存爲代價換取應用性能和彈性的方式

原创 victoriaMetrics無法獲取抓取target的問題

victoriaMetrics無法獲取抓取target的問題 問題描述 最近在新環境中部署了一個服務,其暴露的指標路徑爲:10299/metrics,配置文件如下(名稱字段有修改): apiVersion: v1 items: - apiV

原创 victoriaMetrics中的一些Sao操作

victoriaMetrics中的一些Sao操作 目錄victoriaMetrics中的一些Sao操作快速獲取當前時間計算結構體的哈希值將字符串添加到已有的[]byte中將int64的數組轉換爲byte數組併發訪問的sync.WaitGro

原创 分析fastcache和freecache(一)

分析fastcache和freecache(一) fastcache和freecache是兩個比較簡單的緩存實現,下面分析一下各自的實現,並學習一下其實現中比較好的方式。 fastcache 概述 fastcache是一個簡單庫,核心文件也