TCP内核参数与Nginx配置的简单测试

背景

昨天晚上整理了下几个TCP内核的参数.
学习到了一点内核参数的影响.
但是因为时间比较晚了没有继续钻研与nginx的关系
今天想着继续研究一下TCP的部分参数与nginx的关系 
每个系统都不一样. 结果可能跟内核版本和内核参数强相关.
我这里用的是基于ARM的银河麒麟
还有基于x86的OpenEuler
内核版本都比较高

测试机器信息

1. 域名站点
aarch64  
银河麒麟V10SP3
8c 64g
内核: 4.19.90-52.15.v2207.ky10.aarch64

2. 微服务方向代理节点
x86_64
OpenEuler 2203 LTS
16c 96g
内核: 5.10.0-60.18.0.50.oe2203.x86_64

测试点

1. keepalive对域名和应用服务器的影响.
2. 内核参数 ip_local_port_range 对nginx的response code 的影响

Nginx的keepalive的设置

Nginx最常用的是两种模式:
1. Nginx作为web服务器进行使用
   是一个纯粹的Server服务.只需要关注他与客户端的连接就可以了. 
2. Nginx作为反向代理的实现
   此时Nginx不仅是一个Server服务, 对于upstream的服务器还是
   一个client. 
基于如上两个配置:
Nginx的keepalive 的设置也分为两个地方
一个是http时的keepalive设置
另外一个是 upstream 上面的keepalive的设置

Nginx的测试

http的keepalive的设置效果
Nginx的http配置节下面可以使用如下命令进行设置
keepalive_timeout 0;
单位是秒钟, 设置为0 表示禁用长连接. 

进行测试:
注意每次测试都至少间隔 1min 保证上一次测试的 time_wait 都进行了释放. 
先禁用为0 
打开 界面:https://10.110.136.50/
查看TCP链接的情况:
[root@KylinV10SP3ARM64 nginx]#  netstat -anop |grep tcp |grep -v LISTEN |grep -v 637 |grep -v 8848 |grep -v 1521 |grep -v tcp6 |grep -v :22  |grep 10.110.81.124
tcp        0      0 10.110.136.50:443       10.110.81.124:57491     TIME_WAIT   -                    timewait (57.65/0/0)
tcp        0      0 10.110.136.50:443       10.110.81.124:57492     TIME_WAIT   -                    timewait (57.45/0/0)
# 发现只有两个 time_wait的连接
打开登录界面: https://10.110.136.50/login.html
# 至少会有 20个time_wait的连接. 
# 如果是刷新 产生20个time_wait的连接, 如果是全新打开, 产生73个time_wait的连接. 
# 数量太多就不在一一展示了. 


Nginx的测试

修改为: keepalive_timeout 10;
然后再次进行测试
注意需要重启nginx 不要使用 -s reload的模式. 

发现打开登录:https://10.110.136.50/ 还有 https://10.110.136.50/login.html
都是两个 established 的连接. 

但是很快就变成了FIN_WAIT 然后TCP连接很快就消失了.
而且明显感觉 10秒钟最后就已经全部没有了. 
[root@KylinV10SP3ARM64 nginx]#  netstat -anop |grep tcp |grep -v LISTEN |grep -v 637 |grep -v 8848 |grep -v 1521 |grep -v tcp6 |grep -v :22  |grep 10.110.81.124  
tcp        0      0 10.110.136.50:443       10.110.81.124:59809     ESTABLISHED 2532685/nginx: work  off (0.00/0/0)
tcp        0      0 10.110.136.50:443       10.110.81.124:59810     ESTABLISHED 2532685/nginx: work  off (0.00/0/0)
[root@KylinV10SP3ARM64 nginx]#  netstat -anop |grep tcp |grep -v LISTEN |grep -v 637 |grep -v 8848 |grep -v 1521 |grep -v tcp6 |grep -v :22  |grep 10.110.81.124  
tcp        0      0 10.110.136.50:443       10.110.81.124:59809     FIN_WAIT2   -                    timewait (39.81/0/0)
tcp        0      0 10.110.136.50:443       10.110.81.124:59810     FIN_WAIT2   -                    timewait (39.59/0/0)

Upstream 的 keepalive 的测试

Upstream 不设置 keepalive的测试
域名层的nginx 会没次刷新多一个 TIME_WAIT的连接. 
[root@CentOS7MINI nginx]# netstat -anop |grep tcp |grep -v LISTEN |grep -v :637 |grep -v :884 |grep -v :1521 |grep -v tcp6 |grep -v :22 |grep -v 127.0.0.1 |grep 10.110.139.230
tcp        0      0 10.110.139.181:65176    10.110.139.230:5200     TIME_WAIT   -                    timewait (58.09/0/0)
tcp        0      0 10.110.139.181:64752    10.110.139.230:5200     TIME_WAIT   -                    timewait (55.55/0/0)
tcp        0      0 10.110.139.181:23646    10.110.139.230:5200     TIME_WAIT   -                    timewait (42.51/0/0)
tcp        0      0 10.110.139.181:64984    10.110.139.230:5200     TIME_WAIT   -                    timewait (56.86/0/0)
tcp        0      0 10.110.139.181:65142    10.110.139.230:5200     TIME_WAIT   -                    timewait (57.37/0/0)
tcp        0      0 10.110.139.181:65374    10.110.139.230:5200     ESTABLISHED 2340/nginx: worker   off (0.00/0/0)

第二层方向代理会产生更多的TIME_WAIT的连接
一次登录和退出会生产非常多的time_wait的信息:
打开登录界面 10个time_wait
登录成功:    17个time_wait
退出登录:    13个time_wait
[root@openeuler2203 ~]# netstat -anop |grep tcp |grep -v LISTEN |grep -v :637 |grep -v :884 |grep -v :1521 |grep -v tcp6 |grep -v :22 |grep 10.110.139.181
tcp        0      0 10.110.139.230:5200     10.110.139.181:28270    TIME_WAIT   -                    timewait (43.00/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:28502    TIME_WAIT   -                    timewait (44.91/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:26174    TIME_WAIT   -                    timewait (57.03/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:28506    TIME_WAIT   -                    timewait (44.93/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:28452    TIME_WAIT   -                    timewait (44.71/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:28478    TIME_WAIT   -                    timewait (44.91/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:26158    TIME_WAIT   -                    timewait (57.02/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:28440    TIME_WAIT   -                    timewait (44.70/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:28268    TIME_WAIT   -                    timewait (42.99/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:51306    TIME_WAIT   -                    timewait (36.06/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:28514    TIME_WAIT   -                    timewait (44.99/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:28564    TIME_WAIT   -                    timewait (45.20/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:26148    TIME_WAIT   -                    timewait (56.93/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:28466    TIME_WAIT   -                    timewait (44.74/0/0)
tcp        0      0 10.110.139.230:5200     10.110.139.181:26186    TIME_WAIT   -                    timewait (57.06/0/0)

Upstream 的 keepalive 的测试

在upstream里面增加设置
keepalive  32; 
并且在 location 里面设置 
proxy_http_version 1.1;

然后重启nginx

需要注意的是:
在当前服务器只会看到一个 tcp 对中间层nginx的连接
但是中间nginx的连接
会产生 20个time-wait 的连接. 

TCP内核的验证

image


TCP内核验证出现502错误的过程

sysctl -w "net.ipv4.ip_local_port_range=6000 6001"

然后登录nginx 所在的服务器
使用两个客户端打开 或者是打开具体个功能
F12会立即发现有很多的502 badgates 的提示信息. 

也就验证出 如果time_wait+eslabished 的连接数大于 ip_local_port_range 
的范围的话 有极大的概率出现 502的问题. 

注意这个修改完之后 需要立即改回来 不然会出现严重的问题. 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章