最近搭建GP20臺節點環境時,發生初始化總是出現幾個節點實例無法啓動的問題。折騰兩天,才找到問題。
初始化時,設置了最大連接數爲100,每臺機器運行12個實例,主備就是24個實例,初始化後有一部分實例正常啓動,一部分失敗。
根據日誌找到失敗節點目錄下的日誌,發現失敗原因是由於硬件資源問題導致,提示是初始化最大連接數過大。機器的配置都是很高的,會出現這樣的問題,很奇怪。
根據連接數的問題,在進一步分析,發現也許和系統參數的共享內存設置有問題,也就是shmmax /shmmni /shmall 這幾個參數的設置,機器配置內存是32G,我按照16G來配置:
kernel.shmmax = 17179869184
kernel.shmmni = 4096
kernel.shmall = 4194304
再將初始化最大連接數減小到50個,再做初始化,就正常了。
之後沒有再做增加連接數的驗證。估計這個問題是和這兩個地方有關係。特別是加大每臺機器的實例數後,就會出現這個問題。