orchestrator raft leader頻繁變化問題

原創

2020-07-06 17:12

最近在使用orchestrator的過程中，遭遇了嚴重的問題。
最初上線的幾個月裏，raft leader非常穩定。
但隨着時間的推移，raft leader 頻繁變化的問題就爆發了。

leader的變化，直接原因，就是leader沒有按時發送heartbeat，從而觸發了選舉機制。

第一個懷疑的原因，就是網絡抖動，出現丟包。但是，通過查看監控數據，發現沒有丟包跡象。接着，通過tcpdump抓包，也證實沒有數據丟失。

第二個懷疑的是，raft的代碼實現有問題。查看github倉庫，已經很長時間沒有release了。翻看issue，找到2個相似的，但這些issue沒有追查詢下去，最後沒有什麼具體結論就關閉了。

第三個懷疑的是，系統負載和內存使用。
從監控數據看，16核機器，負載在1左右徘徊。16G內存，空閒率在30%-50%，偶爾某臺機器低於10%。
從這些數據看，無法確切判定，就是機器資源耗盡導致的。

接着使用pprof查看goroutine、內存情況，並抓trace，發現snapshot操作出現大量堆積，多的時候有9000+goroutine。
在內存使用上，snapshot也是消耗最多的。
由於頻繁申請大量內存，GC次數和耗時出現嚴重增加。
這樣，就影響了goroutine的調度，尤其是對時間敏感的goroutine，例如hearbeat，導致其發送時間延後。

關於snapshot的爲什麼消耗內存，下次再具體介紹。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

最新美團面試集合（一面+二面+三面+重點技術面試題）附面試解析

一面 1. 簡短自我介紹 2. 事務的ACID，其中把事務的隔離性詳細解釋一遍 3. 髒讀、幻影讀、不可重複讀 4. 紅黑樹、二叉樹的算法 5. 平常用到哪些集合類？ArrayList和LinkedList區別？HashMap內部數據結構

2023-10-10 01:43:49

ORDER BY id 爲何效率不高

ORDER BY id 爲何效率不高背景系統代碼中有以下查詢SQL，DBA要求優化； SELECT id, user_id, patient_id, his_id, bill_no, log_model FROM platfom_fee

2023-09-30 22:32:45

Linux環境下的主流技術部署（基於Docker容器）

搞了臺阿里雲服務器，準備學習下基於Docker容器的各種主流技術部署，那麼讓我們愉快的開始吧！ Docker環境安裝安裝yum-utils：yum install -y yum-utils device-mapper-pe

2023-02-25 00:27:07

MySQL探祕(四):InnoDB的磁盤文件及落盤機制

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

程序员历小冰

2021-12-08 12:33:52

Oracle 大佬離職，怒噴 MySQL “糟糕的數據庫”

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-07 19:58:57

如何使用 MySQL 慢查詢日誌進行性能優化 - Profiling、mysqldumpslow 實例詳解

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-24 16:08:53

騰訊雲竇賢明：單一數據庫不能解決所有問題

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-15 15:28:51

全網播放超 5億的秒級實時臺網互動是如何實現的？

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

PingCAP技术团队

2021-11-15 15:03:49

API網關Kong實戰

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"1.Kong介紹",

2021-10-18 13:23:55

獨一無二的「MySQL調優金字塔」相信也許你擁有了它，你就很可能擁有了全世界。

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"開發俏皮話","at

2021-10-14 11:03:55

Linux 系統安裝mysql過程記錄

Linux 系統安裝mysql過程記錄資源清單 1 mysql mysql-5.6.37-linux-glibc2.12-x86_64.tar.gz 2 linux CentOS release 6.9 (Fin

2021-09-11 21:14:10

Workspace ONE 統一端點管理系統對 Windows 多用戶的支持

自從二十多年前微軟推出Active Directory（AD）以來，用戶就可以使用他們在AD中的任何賬戶登錄到 Windows 域連接的 PC 上，而該 PC 將根據他們的需求量身定製。組策略對象（Group policy objects,

2023-08-22 22:47:43

精選博客系列｜VMware發佈下一代Workspace ONE SaaS平臺，性能提升了10倍！

我們很高興地宣佈下一代Workspace ONE SaaS平臺面世了！日前公佈的Workspace ONE架構的根本變化已經包含了我們最近的一些進展，例如自由式編排器，而且將成爲未來VMware終端用戶計算（EUC）創新的基石。現代化的架

2023-05-12 22:43:12

【里程碑】DataSphereStudio1.0.0正式發佈

DataSphereStudio 1.0.0 是踐行數據應用開發管理框架的里程碑，帶來了一系列強大的全新特性和高可擴展、低耦合的數據應用開發集成架構設計和實現。 DSS1.0.0主要特性如下：全新的UI界面。對D

2021-12-25 21:49:16

如何學好知識

前言爲啥要寫這個呢，因爲寫程序也7-8年了，有一些感悟，想寫下來，雖然這個命題有點大，但是呢，我覺得並不誇張，下面進入正題。打好基礎其實就是學東西不管學什麼基礎纔是重要的，比如寫程序有的人會說能用就行，可是我覺

2024-03-23 11:54:39

24小時熱門文章

最新文章

最新評論文章