线上服务器总结

硬件资源应做到心中有数
场景
因为考试人员增多以及一些未能预知的问题需要扩内存或者硬盘,因为资源有限,服务器的内存如果少于85%又不是很稳定,这个时候因为不清楚自己的资源有多少就会很尴尬
建议
服务器以及虚拟机安装完毕之后,由服务器总负责人出一份服务器明细,包括:
1) 是不是做的集群
2) 每台物理服务器的总的ip,cpu核数,内存,磁盘空间以及上面的虚拟机有哪些
3) 每台物理服务器已用和所剩的内存,磁盘空间还剩多少,并给出预警值
4) 每台虚拟机分配的cpu核数,内存以及磁盘空间数
参考:

运维人员和操作文档不可缺
场景
某台虚拟机的内存不够用了,或者磁盘要扩盘,这个时候就要涉及到扩充,而vsphereclient一般只有运维人员比较熟悉,运维人员不在就略显尴尬
建议
1) 提前令运维相关这方面的负责人把扩内存和磁盘以及如何操作vsphereclient的文档准备好
2) 找至少两个人对这块熟悉轮岗,以备不时之需

服务器监测有学问
场景1
临时征用电脑显尴尬,比如在用某某的电脑监测呢,可能因为他的电脑上有代码,这时候就尴尬,然后监测着突然发现230飚的很高,230是什么来着什么来着,这就是监测虚拟机是的命名问题了
建议
提前确定好是用自己的电脑还是学校的电脑,然后确定好就不要动了,就固定下来,然后建议每台最多监测6台虚拟机,命名以ip+虚拟机的服务命名
场景2
有人来看服务器的情况询问监看服务器的人一些界面的基本东西,如咱们都需要看些什么啊,这个cpu%都飙到100多了怎么还没有崩啊,结果被问的一脸懵,也很没有存在感
建议
1) 由运维人员或专人负责出一个介绍top命令的文档,对界面上的东西进行一个简介,给出一些建议警戒值
2) 负责看服务器的人弄清这些常见的属性,并在中场结束后给出一些简单的分析,如内存数,cpu的一个跳动幅度,什么服务的压力是突然增加的交给负责人(如这次的李总),这样既可以熟悉有什么服务,也可以收获一些linux方面的知识
场景3
单核cpu一般飙到75%-80%达到一个满负荷,下面的cpu%一般是360%达到满负荷,正常情况下低于这些值很多是很正常的,但是在19号上午第二场考试的时候因为调查问卷的原因数据库崩掉了一次,已经很脆弱了,原因也没有完全排查出来,结果突然从40飙到了100多,平常情况这都不叫事但这种情况下就要立即上报,果然因为点击了设计表而导致了锁表,这个时候服务器监测就起到了作用
建议
1) 作为服务器监测人员更应该关注着出现的问题,来及时调整监测的重心,既能收获开发或线上的知识,也能及时防止因为服务器导致项目不能郑航使用
2) 学会具体问题具体分析
所有服务都要设置自启
场景
因为学校断电,导致所有服务器都关机了,导致zabbix服务关闭,米老师想去看的时候,没有及时把服务启动
建议
在正式应用之前都要做关机重启实验,保证能正确运行后,向总负责人验收确认

附录
查看内存
free –m
查看存盘
df –h
清理缓存
echo 1 > /proc/sys/vm/drop_caches
echo 2 > /proc/sys/vm/drop_caches
echo 3 > /proc/sys/vm/drop_caches
防火墙
最好是开着防火墙,把每个服务的端口号开着

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章