zabbix mysql 遷移總結

之前的zabbix,item已經達到了27w,nvps達到了3.5K,高峯可以達到5K+,但是手裏還有200臺機器沒有添加,還有若干個模板沒有添加。面對如此情況,不得不對zabbix,做點啥了,zabbix的瓶頸在於mysql,首先的要點是mysql,我們的計劃是mysql從sas遷移到ssd,順便把主從同步,partition都做了。


2015年4月27日下午決定做這件事,整體流程和大約的花費時間如下所示:
實施過程:
0.思想鬥爭決定遷移zabbix的mysql,瓶頸和對穩定的追求之間遲疑了下。最後決定進行,同時參照github當年遷移Mysql的方式,寫了類似的checklist,耗時不計

1.主從服務器的搭建,主要的困境在於mysql的版本上,之前的版本是Nysql5.6 ,然後決定降級到Mysql 5.5,rpm安裝,找repo找了好久。2015年04月27日 進行,耗時2小時

2.主從服務器搭建結果的測試,耗時較短。2015年04月27日進行,耗時約爲5分鐘。


3.partition procedure相關操作,採用了zabbix org提供的方案,之前就有調研瞭解過,實際操作耗時較短,2015年04月27日進行,耗時5分鐘


4.partition procedure的結果測試,耗時較短。2015年04月27日進行,耗時5分鐘

5.原始表數據的導出,導入腳本書寫,測試,耗時較短。業務簡單,自己shell寫的很熟練,沒遇到bug。2015年04月27日進行。耗時大約30分鐘

6.數據導出時間測試,數據導出大約用了2min06s,這裏直接放棄了history*和trend*等表的數據。2015年04月27日進行。大約耗時10分鐘

7.數據導入時間測試,原始的數據庫導出的數據導入到新版的數據庫耗時大約用了2mins。測試通過。2015年04月27日進行。大約耗時10分鐘

8.zabbix-server配置文件的修改,主要是修改dbhost等信息,修改後記得vimdiff查看異同。2015年04月28日進行,大約耗時5分鐘

9.zabbix-server到mysql master登錄帳號的創建和測試。2015年04月28日進行,大約耗時5分鐘

===================================================================================
0-7中間會有其他工作事宜的處理耗時爲具體執行時間,22點。下班走人,回家,路上,睡覺前想了可能遇到的問題,以及解決方案.
8-9是遺漏的注意事項
===================================================================================
遷移過程的方案,以上的準備只爲遷移過程中停機的時間可預測,停機時間足夠短。
0.2015年04月28日 10:29:30開始通知可能影響的人,停止http 服務,2015年04月28日進行,耗時2分鐘內

1.停止zabbix server,2015年04月28日進行,耗時5分鐘

2.登錄mysql,show processlist;查看sql執行過程,2015年04月28日進行,大約耗時2分鐘

3.zabbix mysql數據導出導入,執行之前的腳本,2015年04月28日進行,耗時大約5分鐘

4.在zabbix mysql數據導入導出的過程中,替換了 http php中的數據庫連接地址,事先準備好的 zabbix conf文件,並一一做了檢查,2015年04月28日進行,耗時大約5分鐘

5.啓動zabbix server,2015年04月28日進行,時長2分鐘

6.watch -n 1 "ps axf|grep 'history syncer'" ,執行此語句,同時 tailf /var/log/zabbix/zabbix_server.log,查看syncer是否工作,各種的item是否become supported,耗時略久,2015年04月28日進行,具體忘了。一直關注zabbix server情況了

7.發現無大礙後,替換了http實現準備好的php配置文件, 啓動http 服務,前端頁面查看。2015年04月28日進行,2分鐘

8.zbx本身的server health screen查看,nvps正常。

9.2015年04月28日 11點整的trends製作 check,沒問題,這個過程大約從10:55到11:05

10.初步判斷上面的操作成功。2015年04月28日13點10,吃飯回來,check zabbix,沒問題。


11.通知相關人員,初步遷移完成


以上遷移完成。
=================================================================================
切記一點,一定保證所有的操作都有備份,大黑同事曾建議我在原有數據庫的基礎上做三級從庫,被我拒絕了,我必須保證原有的主庫的最小改動,這樣出了問題,可以快速的回切補救。
=================================================================================
以上的所有操作記錄在了紙上,現在整理成電子版發到博客,時間爲執行過程的粗略計算,從04月27日下午決定開始,經歷了折磨,最終在04月28日初步完成。

感謝我的大黑同事,和我一起review所有的過程,以及可能出現問題的地方;跟我一起想出問題的補救辦法。

感謝大黑同事忍着尿意(所以我清楚的記得9.2015年04月28日 11點整的trends製作 check,沒問題,這個過程大約從10:55到11:05),一起跟我check trends是否正常。一起check log。感謝!!!!!


發佈了144 篇原創文章 · 獲贊 40 · 訪問量 102萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章