细说Zabbix监控TCP状态

Zabbix默认模板中是不能监控到TCP各个状态的连接数的,需要我们自定义一个模板来实现。网上方法很多,并且很多都是一长串的脚本,有点让人望而却步。我个人总结就是先弄清楚TCP有哪些状态,然后在zabbix          的agent上新增一条配置即可,具体操作按如下步骤。

1、在zabbix的/etc/zabbix/zabbix_agentd.d目录下新增配置文件tcp_status.conf

# cat > /etc/zabbix/zabbix_agentd.d/tcp_status.conf << EOF

## 以下列出的2条UserParameter,2选1即可.

## 使用 netstat 命令来获取TCP状态连接数,需要修改netstat权限,即zabbix用户在执行netstat命令时,需具有与netstat命令所有者相当的权限要先执行chmod 4755 /bin/netstat .

UserParameter=system.netstat[*],netstat -antp |grep -i \$1 |grep -v grep|wc -l

## 或者使用 ss 命令来获取TCP状态连接数,速度比netstat快,也不需要修改ss命令权限,但需要注意是ss列出来的ESTABLISHED是缩写成ESTAB,且TIME-WAIT、SYN-SENT等状态中间是中横线,netstat用的是下划线TIME_WAIT、SYN_SENT.

UserParameter=system.ss[*], ss -antp |grep -i \$1 |grep -v grep |wc -l

EOF

完成添加后,如下图所示

image.png

说明:此处为演示,netstat和ss都添加了

2、重启zabbix-agent

# systemctl restart zabbix-agent

3、需要监控的TCP状态主要包括如下几种:

LISTEN、ESTABLISHED、TIME_WAIT、CLOSE_WAIT、LAST_ACK、SYN_SENT、SYN_RECV、FIN_WAIT1、FIN_WAIT2等。

然后使用zabbix_get命令先检查一下,确认添加无误且能获取到数据。

使用system.netstat时,若不修改netstat命令权限,则会有如下相关提示,需赋予zabbix用户在执行netstat命令时具有与netstat命令所有者相当的权限,即root权限。

image.png

使用system.ss时,不需要修改ss命令权限即可执行,但获取TIME_WAIT时要用中横线

image.png

image.png

说明:在1台主机上验证获取数据正常后,就可以使用ansible等批量部署工具将配置推送到其它需要监控的节点上。

4、获取数据正常后,接下来是在zabbix中创建模板。通常我们在Zabbix添加项(item)的步骤为:

先创建模板①  (Template)-->② 应用(Application)-->③ 监控项(items)-->④触发器(triggers),最后将模板应用到对应的主机上(此处创建模板时,将模板加到了Linux servers组中)。

① 在Configuration-->Templates中创建一个名为"Template TCP Connections"的模板,并且归属于"Linux Servers"组中,这样属于Linux Servers组中的主机将自动继承"Template TCP Connections"模板,如下图所示。

image.png

创建的Templates状态如下图所示。

image.png

② 创建Application,名为"TCP Connections",创建Application的用途是后续添加的items都归属于该Application,便于分类以及查找,如下图所示。

image.png

③ 创建items,如下图所示,点击右上角的"Create item"。

image.png

添加TIME_WAIT的监控,相关设置如下图所示,在item的名称"Name"这里,我们用了zabbix的位置变量,每次添加item时,我们只需要修改key中中括号的内容,方便快速添加。

image.png

添加完成后,状态如下图所示。

image.png

接下来,如果要继续添加其它监控项,我们就可以使用Zabbix的Clone(克隆)功能,如下图所示。

image.png

点击"Clone"后,就相当于基于原有的item并重新复制了一个item,我们只需要修改key就可以了。

image.png

完成修改后,点击下方的"Add"添加,显示如下。

image.png

最后,我们用"Clone"方式添加完其它item项,最终显示如下图所示。

image.png

说明:此处均用netstat命令来完成添加,ss也可以,但要注意添加的TCP状态名称是用中横线。

④ 为需要设置阈值的items是添加触发器,点击右上角的"Create trigger",创建触发器,如下图所示。

image.png

触发器的名称最好与对应item相同,然后选择严重等级(Severity),严重等级为分:Not classified(未分类,需关注)、Information(普通信息,需关注)、Warning(警告)、Average(一般严重)、High(非常严重)、Disaster(灾难),具体设置如下图所示。

image.png

在添加触发器表达式时,我们只需要点击表达式对话框右边的"Add"按钮,选择对应的item,先按默认完成添加,然后再按需修改表达式,较复杂的表达式都是手工按需求编写的。

image.png

image.png

最后,以"Clone"方式完成其它item对应的trigger添加,完成后,如下图所示。

image.png

说明:相关Trigger阈值需要根据实际情况进行设置调整。

⑤ 在所有主机上添加模板"Template TCP Connections",如下图所示。

image.png

完成添加后,在"Latest data"中查看数据,如下图所示。

image.png

说明:Application对话框是支持模糊匹配的,这也体现了在创建某一类items时,需创建Application的重要性。

最后,在Grafana中展示效果如下图所示

image.png

image.png


总结:使用Grafana来展示数据确实比Zabbix自身图表要有优势,对Grafana感兴趣的可以关注我前面分享的17篇文章,全是干货哦,后续会继续分享使用经验。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章