現實問題
之前在論壇看到一個運維工程師的帖子,內容如下:
“現在的一個IT工作者最頭疼的就是加班,禿頂的是IT工作者最多、單身的是IT工作者最多、沒有約會,沒有休閒,沒有旅遊還是IT工作者最多。這可怎麼辦呢?我是一名IT運維工程師,每天的工作量很大,更不敢離開機器半步,長期跟設備、服務器打交道,因爲怕萬一機器出毛病,自己負擔不起業務上的麻煩,又怕經理的“炒魷魚”,況且公司還不肯出錢僱很多IT運維人員,讓我一個人看着這麼多的設備,真是連眼都不敢眨一下,僱來幾個人也是呆不長就走人,公司一直沒有一個專門潛心在這乾的,也招不到專門的運維人員,出了大事,還顯不出我的本領,經理直接去找專門的網絡公司協助解決,在以上這種狀況下,讓運維工程師情何以堪?所以我請大家幫忙推薦有沒有好用、免費的運維軟件,主要就是能監控服務器和網絡設備就行,還有沒有可以實現自動化巡檢的軟件?求大家推薦....................
求助!!!”
產生原因
上述的情況還是處於傳統運維管理方式,這種傳統的運維管理方式讓運維工程師疲憊不堪,主要表現在兩個方面:
1, 運維工程師被動,效率低。在運維過程,只有當事件已經發生並且對業務照成影響時才能被發現和處理,這種被動“救火”使運維工程師終日忙碌,運維質量很難提高,導致業務部門對運維部門的服務滿意度不高,這種來自其它部門的不滿也增加了運維工程師的壓力。
2, 缺乏運維技術工具。隨着技術的發展和多元化,企業的IT系統越來越複雜,各式各樣的網絡設備、服務器以及在服務器上運行的各種服務讓運維工程師難以應付,即使加班加點維護,也可能因爲設備或者網絡的原因導致服務不可訪問,給公司帶來不可挽回的損失。出現這種情況的原因就是沒有使用高效的運維技術工具進行監控,通告,讓運維工程師能夠快速主動處理。
解決方案
使用監控工具
監控寶
監控寶成立於2009年,是一家面向企業或個人站長提供網站監控和預警服務的網站,目前監控寶可以監控的內容包括:網站的可訪問性以及速度;服務器硬件性能(CPU、內存、寬帶流量、磁盤空間、負載等);服務器軟件性能(Apache、MySQL 等)。
主要功能
- 站點監控
- 服務和應用監控
- 服務器性能監控
- 內容監控
- 用戶訪問速度監控
- 警告通知
主要是通告web的方式設置,上手相對容易。
Nagios
Nagios是一款開源的免費網絡監視工具,Nagios能監視所指定的本地或遠程主機以及服務,同時提供異常通知功能等。
主要功能
- 網絡服務監控(SMTP、POP3、HTTP、NNTP、ICMP、SNMP、FTP、SSH)
- 主機資源監控(CPU load、disk usage、system logs),也包括Windows主機(使用NSClient++ plugin)
- 可以指定自己編寫的Plugin通過網絡收集數據來監控任何情況(溫度、警告……)
- 可以通過配置Nagios遠程執行插件遠程執行腳本
- 遠程監控支持SSH或SSL加通道方式進行監控
- 簡單的plugin設計允許用戶很容易的開發自己需要的檢查服務,支持很多開發語言(shell scripts、C++、Perl、ruby、Python、PHP、C#等)
- 包含很多圖形化數據Plugins(Nagiosgraph、Nagiosgrapher、PNP4Nagios等)
- 可並行服務檢查
- 能夠定義網絡主機的層次,允許逐級檢查,就是從父主機開始向下檢查
- 當服務或主機出現問題時發出通告,可通過email, pager, sms 或任意用戶自定義的plugin進行通知
- 能夠自定義事件處理機制重新激活出問題的服務或主機
- 自動日誌循環
- 支持冗餘監控
- 包括Web界面可以查看當前網絡狀態,通知,問題歷史,日誌文件等
主要通過配置文件進行配置,但是開源免費,擁有大量的插件可以完成日常的監控需求,對入門門檻相對比較高。
使用通告工具
百度通告平臺
在監控工具檢測到異常後,在通知運維工程師的過程出現遺漏的情況也會造成不可估計的後果。所以需要使用專業的通告工具——百度通告平臺來保證通告無遺漏。
主要功能
- 多渠道通告方式:一種通告、多個渠道,多重渠道保障通告及時告知目標。隨心所欲的選用通告渠道:電話、SNS、短信、郵件等。
- 報警管理:提供web版和手機APP版,可時刻響應通告,高效辦公處理,讓您工作生活兩不誤。
- 自動逐級報警:報警從不被錯過,遺漏的報警會自動升級到合適的等級,發送給合適的人,保證通告無遺漏告知。
- 接入快捷:大量系統組件支持各監控系統(監控寶、加速樂等)高效接入,豐富API使系統接入更加自由定製化。
- 通告羣發:通知、報警,通告想發就發,隨心隨意。多人(組)選擇,輕輕點擊,一觸即發。
圖 1 傳統通告方式
圖 2 百度通告平臺的通告方式
對比圖1和圖2,就能體現百度通告平臺的價值:多渠道通告方式和自動逐級報警保障故障無遺漏通告。
願景
全天候自動檢測與可靠報警方式實現IT運維的“全天候無人值守”,大大降低運維工程師的工作負擔,使運維工程師能夠從日常的基礎運維工作中解放出來,能做運維相關的技術研究。。