站在“巨人”的肩膀上運維

現實問題

之前在論壇看到一個運維工程師的帖子,內容如下:

現在的一個IT工作者最頭疼的就是加班,禿頂的是IT工作者最多、單身的是IT工作者最多、沒有約會,沒有休閒,沒有旅遊還是IT工作者最多。這可怎麼辦呢?我是一名IT運維工程師,每天的工作量很大,更不敢離開機器半步,長期跟設備、服務器打交道,因爲怕萬一機器出毛病,自己負擔不起業務上的麻煩,又怕經理的炒魷魚,況且公司還不肯出錢僱很多IT運維人員,讓我一個人看着這麼多的設備,真是連眼都不敢眨一下,僱來幾個人也是呆不長就走人,公司一直沒有一個專門潛心在這乾的,也招不到專門的運維人員,出了大事,還顯不出我的本領,經理直接去找專門的網絡公司協助解決,在以上這種狀況下,讓運維工程師情何以堪?所以我請大家幫忙推薦有沒有好用、免費的運維軟件,主要就是能監控服務器和網絡設備就行,還有沒有可以實現自動化巡檢的軟件?求大家推薦....................
求助!!!” 

產生原因

上述的情況還是處於傳統運維管理方式,這種傳統的運維管理方式讓運維工程師疲憊不堪,主要表現在兩個方面:

1,  運維工程師被動,效率低。在運維過程,只有當事件已經發生並且對業務照成影響時才能被發現和處理,這種被動“救火”使運維工程師終日忙碌,運維質量很難提高,導致業務部門對運維部門的服務滿意度不高,這種來自其它部門的不滿也增加了運維工程師的壓力。

2,  缺乏運維技術工具。隨着技術的發展和多元化,企業的IT系統越來越複雜,各式各樣的網絡設備、服務器以及在服務器上運行的各種服務讓運維工程師難以應付,即使加班加點維護,也可能因爲設備或者網絡的原因導致服務不可訪問,給公司帶來不可挽回的損失。出現這種情況的原因就是沒有使用高效的運維技術工具進行監控,通告,讓運維工程師能夠快速主動處理。

解決方案

使用監控工具

監控寶

監控寶成立於2009年,是一家面向企業或個人站長提供網站監控和預警服務的網站,目前監控寶可以監控的內容包括:網站的可訪問性以及速度;服務器硬件性能(CPU、內存、寬帶流量、磁盤空間、負載等);服務器軟件性能(Apache、MySQL 等)。

主要功能

  • 站點監控
  • 服務和應用監控
  • 服務器性能監控
  • 內容監控
  • 用戶訪問速度監控
  • 警告通知

主要是通告web的方式設置,上手相對容易。

Nagios

Nagios是一款開源的免費網絡監視工具,Nagios能監視所指定的本地或遠程主機以及服務,同時提供異常通知功能等。

主要功能

  •  網絡服務監控(SMTP、POP3、HTTP、NNTP、ICMP、SNMP、FTP、SSH)
  •  主機資源監控(CPU load、disk usage、system logs),也包括Windows主機(使用NSClient++ plugin)
  •  可以指定自己編寫的Plugin通過網絡收集數據來監控任何情況(溫度、警告……)
  •  可以通過配置Nagios遠程執行插件遠程執行腳本
  •  遠程監控支持SSH或SSL加通道方式進行監控
  • 簡單的plugin設計允許用戶很容易的開發自己需要的檢查服務,支持很多開發語言(shell scripts、C++、Perl、ruby、Python、PHP、C#等)
  • 包含很多圖形化數據Plugins(Nagiosgraph、Nagiosgrapher、PNP4Nagios等)
  • 可並行服務檢查
  • 能夠定義網絡主機的層次,允許逐級檢查,就是從父主機開始向下檢查
  • 當服務或主機出現問題時發出通告,可通過email, pager, sms 或任意用戶自定義的plugin進行通知
  • 能夠自定義事件處理機制重新激活出問題的服務或主機
  • 自動日誌循環
  • 支持冗餘監控
  • 包括Web界面可以查看當前網絡狀態,通知,問題歷史,日誌文件等

主要通過配置文件進行配置,但是開源免費,擁有大量的插件可以完成日常的監控需求,對入門門檻相對比較高。

使用通告工具

百度通告平臺

在監控工具檢測到異常後,在通知運維工程師的過程出現遺漏的情況也會造成不可估計的後果。所以需要使用專業的通告工具——百度通告平臺來保證通告無遺漏。

主要功能

  • 多渠道通告方式:一種通告、多個渠道,多重渠道保障通告及時告知目標。隨心所欲的選用通告渠道:電話、SNS、短信、郵件等。
  • 報警管理:提供web版和手機APP版,可時刻響應通告,高效辦公處理,讓您工作生活兩不誤。
  • 自動逐級報警:報警從不被錯過,遺漏的報警會自動升級到合適的等級,發送給合適的人,保證通告無遺漏告知。
  • 接入快捷:大量系統組件支持各監控系統(監控寶、加速樂等)高效接入,豐富API使系統接入更加自由定製化。
  • 通告羣發:通知、報警,通告想發就發,隨心隨意。多人(組)選擇,輕輕點擊,一觸即發。



圖 1 傳統通告方式


圖 2 百度通告平臺的通告方式

對比圖1和圖2,就能體現百度通告平臺的價值:多渠道通告方式和自動逐級報警保障故障無遺漏通告。

願景

全天候自動檢測與可靠報警方式實現IT運維的全天候無人值守,大大降低運維工程師的工作負擔,使運維工程師能夠從日常的基礎運維工作中解放出來,能做運維相關的技術研究。。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章