這些年運維小結

        運維,之前覺得這個坑比開發好點,現在回頭看看卻又感覺跟開發的坑一樣深,一樣有着難以處理的事情,一樣有着急需自己不斷學習才能跟上運維技術的要求,還有不斷學習如何與客戶溝通,學習如何適應客戶變更所帶來的一切變化。運維兩字之前就是簡單的認爲:系統出了問題及時能給修復,或者收集問題及時反饋給開發人員或是項目經理。現在來看得從以下幾方面來:服務器、數據庫、軟件系統、客戶這幾塊來綜合處理,這樣的話才能把事情做好。

        關於運維,維基百科給出的定義:運維 (英文:Ops),又稱運維工程師,是對技術類運營維護人員的統稱。運維人員的職責是根據業務需要規劃信息、網絡、服務,通過網絡監控、事件預警、業務調度、排障升級等手段,使服務處於長期穩定可用狀態。自我感覺與實施的最大區別就是運維更側重保障,側重如何保障系統、數據庫、服務器都能正常運行且能及時發現問題並提出相應的解決方法,系統文件、數據庫的及時備份也顯得極爲重要,根據實際運維的情況及時把一些有用的信息反饋給開發,協助開發調整系統開發技術及數據庫設計。運維與實施比起來,運維更側重技術。所以運維又分:網絡運維、機房運維、服務器運維、數據庫運維(DBA)、IT運維(負載均衡、流量監控等)。

        網絡運維與機房運維接觸的更多是與硬件,而我則更喜歡軟件,所以我想側重服務器運維、數據庫運維、IT運維。

        服務器運維:說實話自己之前一直不怎麼關注,但是隨着業務系統的實際應用,才發現這塊不及時關注會出大亂子。如:數據庫增量過快,磁盤空間得及時跟進觀察,不然會導致一系列問題,業務停止,甚至連簡單的Select查詢都不能執行。以下就是自己實際遇到的情況:

        1、因磁盤滿盤,進而導致一個服務程序寫數據時報錯,進而導致此服務直接崩潰,連配置文件(這個配置文件配置信息量比較大)內容全部丟失;

        2、因磁盤滿盤,進而導致接口服務發起的數據查詢都不能正常執行,業務系統登錄功能直接不能用;

        3、因磁盤滿盤,進而導致數據庫備份計劃全部拋異常,報沒有多餘空間;

        4、因磁盤滿盤,幾個業務系統響應速度下降的很厲害。

        5、因業務數據增量高於之前評估量,所以FTP服務器也差點癱瘓。

        6、六臺服務器在自己不知情的情況下被關閉,導致給客戶領導演示系統功能時,主要功能全部癱瘓不能用,更爲要命的是,現場不僅有客戶領導,還有其他單位領導。

        故此,我在服務器上及時部署了Zabbix,隨時關注服務器的情況,希望藉此能避免以上所遇到各種問題。

        數據庫運維:數據庫運維對於我來說沒的選,如果數據庫出現異常,客戶和公司領導第一個找的人是我,沒有辦法得主動幹起來。當前業務系統涉及的數據庫分別有:Mariadb、SQLServer及Oracle,因Oracle是中間庫,存儲的數據並不是核心業務數據,且其數據也會被及時同步到Mariadb數據庫中,所以暫且不用管。其它兩個數據庫則是自己的維護重點,Mariadb數據庫10個業務數據庫,分別放在兩個服務器上,且其中幾個數據庫數據增量每月10G以上;SQLServer當前則是20餘G,增量尚可。數據庫運維目前主要精力則是放在內存使用上及數據庫備份上。

        IT運維(系統運維):當前業務系統大大小小近20個,使用頻率高的則有10個,所以重點是及時關注訪問量及所在服務器磁盤情況等核心問題。如果有需要則及時搭建負載均衡環境,及解決能影響正常運行的一些問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章