監控之路1-監控在自動化運維中扮演的角色和功能

小生博客:http://xsboke.blog.51cto.com
如果有疑問,請點擊此處,然後發表評論交流,作者會及時回覆。

        -------謝謝您的參考,如有疑問,歡迎交流

目錄:

  1. 監控在自動化運維中扮演的角色
  2. 什麼是監控系統及功能
  3. 監控內容及實現監控的形式
  4. 多種監控軟件的對比

一、監控在自動化運維中扮演的角色。

  1. 實現基本的半自動化
> OS的自動安裝(kickstart-PXE)
> 配置操作系統的管理工具(puppet,saltstack..)
> 聯動工具(ansible,func)
> 監控:報警,監控,監控系統本身
  1. 自動化運維-運維框架
> 運維標準:流程化、規範化..
> 機器管理:對硬件本身的管理,對操作系統的管理
> 集羣框架自動部署(傳統集羣,分佈式集羣)
> 任務管理,關聯關係,容量管理
> 安全控制,災難管理(地理原因等)
> 監控系統

二、什麼是監控系統及功能。

  1. 什麼是監控系統,監控系統是怎麼工作的?
> Snmp(nms/agent)協議
   Windows:snmp
   Linux:net-snmp(命令snmp get,get-next,get-bulk)
   Snmp有三個版本:v1、v2、v3,通用版本爲v2,v1和v2的數據傳輸是明文,沒有v3安全,但v2依然是同行版本。
   監控一般分爲監控端(nms,網絡管理或網絡監控系統)和被監控端(agent)
   監控端定期到被監控端採集數據並且將數據反饋給snmp,被監控端收集自身數據
>專用agent(zabbix、cacti、nogios
>腳本,基於ssh來做監控
  1. 不同的監控指標,最後實現的功能也可能不一致
> 比如監控流量與服務,流量有趨勢,但是服務沒有,服務只有開啓和關閉或者還有未知狀態
> Snmp固然實現了網絡管理功能,但是snmp只採集數據,不會保存數據
> 更高級的工具,通過snmp協議,將採集的數據保存

三、監控內容及實現監控的形式

  1. 要監控什麼
> 設備/軟件:服務、路由器、IO子系統、操作系統、網絡流量
> 意外問題:服務器宕機、服務停止、服務器無法使用
> 關鍵性事件:磁盤慢了、CPU使用率達到100%了
  1. 如何進行監控
> 基本方案:命令工具(top、iostat、innotop等等)
> 圖形化解決方案:nagios、cacti、zabbix

四、多種監控軟件的對比

  1. cacti
> 使用snmp或者腳本,週期性的到每一個節點上採集數據,並且將數據保存下來
> 數據展示
> 數據分析及報警;一旦數據超過定義的閾值,就需要報警
> cacti在報警方面的功能是很一般的,比如逐級報警
> cacti依賴於snmp/腳本採集數據,不需要在任何一個被監控端上安裝agent
> 只是一個數據採集、保存、展示、報警的機制
> Cacti使用rrd數據庫保存數據,可以理解爲一個圓,而數據是一個時間序列數據,所以一開始大小就決定了
> Rrdtool就可以完成數據的採集、保存、繪圖,所以cacti只是一個展示工具,負責協調rrd工作
  1. nagios(只是一個強大的報警工具)
> 報警功能比cacti好,支持狀態切換(正常、警戒、觸發報警、故障恢復)
> Nagios支持更多的報警功能:email、EMS等等
> 自動分析依賴關係,如果nagios發現一個關鍵設備出現故障,則與關鍵設備相連的設備不再報警
> Nagios只關心狀態的正常與否,在狀態轉換時報警,所以nagios默認是不保存數據的
> 當然通過nagios的插件,也能實現數據的保存
> 一般超過200個節點,nagios報警就會出現延遲
> Nagios可以實現主動監控,就是因爲agent的存在
  1. zabbix(本系列文章以zabbix監控爲主,後期將詳細介紹)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章