nagios配置——添加linux主機監控

          nagios配置——添加linux主機監控
 
本文轉載自lxl900512,在此真誠感謝樓主分享

下面是我添加linux監控機的過程,如有錯誤或者不當的地方請指出:

測試環境:

監控主機:nagios+nagios插件+nrpe+網站平臺 192.168.1.210

被監控機:nagios插件+nrpe   192.168.1.211

1、首先在監控主機上安裝nrpe,nagios只能監控一些外部的信息,例如:ftp端口有沒有開放,ssh端口有沒有開放,ping值如何之類的,如果想監控linux主機一些本地的信息如:硬盤使用情況,機器負載等,必須是監控主機通過nagios調用被監控機的nrpe,被監控機的nrpe蒐集信息,然後再返來給監控主機的nagios,這樣的一個過程

監控主機安裝nrpe:

 

tar zxvf nrpe-2.12.tar.gz 
cd nrpe-2.12
./configure
make all
make install-plugin
make install-daemon
make install-daemon-config

 

在被監控機上安裝nagios插件和nrpe

 

tar zxvf nagios-plugins-1.4.15.tar.gz 
cd nagios-plugins-1.4.15
./configure --with-nagios-user=nagios --with-nagios-group=nagios
make
make install

 

安裝nrpe的方法與監控主機的nrpe安裝方法一樣

檢查目錄及文件:

 

 ll /usr/local/nagios/libexec

 

看看裏面是不是有一大堆check的什麼東西,如果有就對了

2、配置nagios監控主機的配置文件

nagios的全部配置文件在:/usr/local/nagios/etc目錄下面

首先cgi.cfg

 

refresh_rate=30         #nagios主頁的刷新時間,我設置成30秒自動刷新

use_authentication=0  #關閉認證功能,當nagios配置好後,建議開回來

 

這個文件暫時只修改了這兩項

然後輪到nagios.cfg

 

cfg_file=/usr/local/nagios/etc/objects/commands.cfg  #nagios可調用的監控命令
cfg_file=/usr/local/nagios/etc/objects/contacts.cfg     #聯繫人配置
cfg_file=/usr/local/nagios/etc/objects/timeperiods.cfg  #監控時間配置
cfg_file=/usr/local/nagios/etc/objects/templates.cfg   #模板配置
cfg_dir=/usr/local/nagios/etc/services                       #新添加,把需要添加的主機文件放進去,就不必在這裏一行行添加
cfg_file=/usr/local/nagios/etc/objects/hostgroups.cfg  #新添加,主機組配置
cfg_file=/usr/local/nagios/etc/objects/localhost.cfg    #本地信息監迭

 

3、現在可以開始添加被監控機

我們上面定義了所有的主機文件都放在services目錄下,那麼我們在此目錄下新建主機:

 

 vi 192.168.1.211.cfg

 

內容如下:

 

 define host{
        use     linux-server
        host_name       192.168.1.211
        alias           192.168.1.211
        address         192.168.1.211
}
define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_ping
        check_command           check_ping!100.0,20%!200.0,50%
        max_check_attempts 5
        normal_check_interval 1
}
define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_ftp
        check_command           check_ftp!21
        max_check_attempts 5
        normal_check_interval 1
}
define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_ssh
        check_command           check_ssh
        max_check_attempts 5
        normal_check_interval 1
}
define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_http
        check_command           check_http
        max_check_attempts 5
        normal_check_interval 1
}

 

 

上面監控了ping值,ftp服務,ssh服務還有http服務,我拿一個例子來說明

 

 define host{
        use     linux-server
        host_name       192.168.1.211
        alias           192.168.1.211
        address         192.168.1.211
}
define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_ping
        check_command           check_ping!100.0,20%!200.0,50%
        max_check_attempts 5
        normal_check_interval 1
}

 

例如這一段,首先define host定義了這臺被監控主機,它所用的模板是linux-server這個,那這個模板又是在哪裏定義的呢,就是在剛纔nagios裏不是有一行模板配置信息嗎,就是那個文件,我打開templates.cfg  文件並找到linux-server模板,這模板的信息是這樣的:

 

define host{
        name                            linux-server    ; The name of this host template
        use                             generic-host    ; This template inherits other values from the generic-host template
        check_period                    24x7            ; By default, Linux hosts are checked round the clock
        check_interval                  5               ; Actively check the host every 5 minutes
        retry_interval                  1               ; Schedule host check retries at 1 minute intervals
        max_check_attempts              10              ; Check each Linux host 10 times (max)
        check_command                   check-host-alive ; Default command to check Linux hosts
        notification_period             workhours       ; Linux admins hate to be woken up, so we only notify during the day
                                                        ; Note that the notification_period variable is being overridden from
                                                        ; the value that is inherited from the generic-host template!
        notification_interval           120             ; Resend notifications every 2 hours
        notification_options            d,u,r           ; Only send notifications for specific host states
        contact_groups                  admins          ; Notifications get sent to the admins by default
        register                        0               ; DONT REGISTER THIS DEFINITION - ITS NOT A REAL HOST, JUST A TEMPLATE!
        }
 

 

這裏的信息後面都有說明,把他們拿上谷歌翻譯一下便是,

其中check_period 這個是定義監控的時間

check_interval這個是每多少時間執行一次命令

max_check_attempts這個是多少次異常就會報警

這幾個便是常用的配置

回到剛纔的例子,然後define service就是定義要監控的東西

host_name    就是被監控機的IP
service_description     命令的描述,會在nagios主面上顯示
check_command          要執行的命令
max_check_attempts 5  異常多少次會報警
normal_check_interval 1  每1分鐘執行一次命令

 

check_command 這個是根據什麼來填寫的呢,其實就是根據command.cfg這份配置來填寫,打開這份文件找一個ping的命令來看看

 

 define command{
        command_name    check_ping
        command_line    $USER1$/check_ping -H $HOSTADDRESS$ -w $ARG1$ -c $ARG2$ -p 5
        }

 

 

這份是定義ping命令的配置,很簡單,一個名稱,然後就是要執行的東西

-w就是警告的值

-c就是嚴重的值

要看看命令怎麼使用很簡單

 

 /usr/local/nagios/libexec/check_ping -H 192.168.1.211 -w 100,20% -c 200,40%

 

這樣執行下去,可看見返來的信息:

 

 PING OK - Packet loss = 0%, RTA = 0.54 ms|rta=0.543000ms;100.000000;200.000000;0.000000 pl=0%;20;40;0

 

那麼很明顯

執行命令是這樣的

/usr/local/nagios/libexec/check_ping -H 192.168.1.211 -w 100,20% -c 200,40%

而寫在配置文件上是這樣的:

check_ping!100.0,20%!200.0,50%

check_ping後面是要跟參數的,在寫配置文件的時候參數是要用“!”這個符號來隔開,要注意順序

明白這個之後,面後都差不多了

現在我們重啓nagios來看看效果,養成習慣重啓前先檢查配置文件有沒有錯誤

 

 /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

 

如果出現如下信息就是正常:

 

Total Warnings: 0
Total Errors:   0

 

現在可以安心重啓服務了

 

 service nagios restart

 

然後在nagios主頁上會看見我們配置的東西出來了:

我的被監控機上沒有安裝http服務,所以報警了

(未完……太累了睡覺去,明天再寫)

回來繼續配置!

4、利用nrpe監控linux主機的本地信息

首先是解決nagios怎麼去調用nrpe命令,之前我們配置時有說過nagios調用的命令是從command.cfg文件中定義過的,那麼要使用nrpe也須要在該文件中定義

 

 vi command.cfg

 

在文件中添加以下配置:

 

define command{
        command_name check_nrpe
        command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
        }

 

在添加監控信息之前我們先測試一下監控主機與被監控機的Nrpe的連通性

首先在被監控機上配置允許的監控主機:

 

 vi nrpe.cfg

 

 

 allowed_hosts=127.0.0.1,192.168.1.210     #添加上我的監控主機的IP

 

然後在被監控機上啓動nrpe服務:

 

 /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d

 

查看端口是否正常運行:

 

 [root@localhost ~]# netstat -tunlp | grep nrpe
tcp        0      0 0.0.0.0:5666                0.0.0.0:*                   LISTEN      4304/nrpe 

 

 

我們在監控主機上運行一下測試命令看看結果:

 

 /usr/local/nagios/libexec/check_nrpe -H 192.168.1.211

 

運行這條命令會返回被監控機的nrpe版本信息

 

 NRPE v2.8.1

 

這樣就說明兩邊的通信沒問題!

監控主機的nagios是通過調用被監控機的nrpe來獲取信息,那麼我們先在被監控機的nrpe配置上添加要搜索的信息,也就是一些命令,然後nagios就通過nrpe調用這些命令來獲取信息

這些命令是在nrpe.cfg文件中定義:

 

 command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10
command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20
command[check_sda3]=/usr/local/nagios/libexec/check_disk -w 20 -c 10 -p /dev/sda3
command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z
command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200
command[check_swap]=/usr/local/nagios/libexec/check_swap -w 20% -c 10%

 

在文件最後我看見有這樣一些命令,check_XXX 這個名字是可以自己定義,只要不重複就可以,後面就是你定義的這條命令是調用哪個東西來獲取信息,後面跟的這些命令路徑不難發現全是在libexec文件裏,我們之前說nagios是調用command.cfg定義的命令,而command.cfg命令也是在libexec裏,那麼整個流程我們可以看成是這樣:

監控外部信息是這樣一個過程:

nagios——command.cfg——libexec

監控一些要登陸了機器才能查看的本地信息側是這樣一個過程:

nagios——command.cfg(check_nrpe)——nrpe.cfg——libexec

在nrpe.cfg文件中定義的幾條默認的配置可以直接使用,我們在使用前先測試一下,看看需不需對命令的參數進行一些調整,以符合我們實際情況:

在監控主機上運行:

 

 /usr/local/nagios/libexec/check_nrpe -H 192.168.1.211 -c check_users

 

這條命令會出現這樣的信息:

 

 USERS OK - 3 users currently logged in |users=3;5;10;0

 

如果需要調整參數須在被監控機上做調整,然後我們把這些默認已有的命令添加在我們的被監控機上

在監控主機上編輯我們剛纔建立的192.168.1.211.cfg文件,添加信息:

 

 define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_users
        check_command           check_nrpe!check_users
        max_check_attempts 5
        normal_check_interval 1
}
define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_load
        check_command           check_nrpe!check_load
        max_check_attempts 5
        normal_check_interval 1
}
define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_sda3
        check_command           check_nrpe!check_sda3
        max_check_attempts 5
        normal_check_interval 1
}
define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_zombie_procs
        check_command           check_nrpe!check_zombie_procs
        max_check_attempts 5
        normal_check_interval 1
}
define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_total_procs
        check_command           check_nrpe!check_total_procs
        max_check_attempts 5
        normal_check_interval 1
}
define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_swap
        check_command           check_nrpe!check_swap
        max_check_attempts 5

        normal_check_interval 1
}

 

我還需要監控sda1這個分區?我要怎麼辦?

那麼我們先在被監控機的nrpe.cfg上添加:

 

command[check_sda1]=/usr/local/nagios/libexec/check_disk -w 20 -c 10 -p /dev/sda1

 

修改完記得重啓nrpe服務!重啓方法不多說了Kill掉進程,再重新運行就是!

然後在監控主機的192.168.1.211.cfg文件中再添加:

 

define service{
        use     generic-service
        host_name       192.168.1.211
        service_description     check_sda1
        check_command           check_nrpe!check_sda1
        max_check_attempts 5
        normal_check_interval 1
}

 

重啓nagios:

 

 /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
service nagios restart

 

打開nagios監控主頁看看:

上面就是我們剛纔添加的信息,如果還想添加更多的監控,就按照上面的步驟操作就可以,關鍵是要明白libexec裏面的命令怎麼使用,這個就要發揮谷歌的作用了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章