后台服务出现明显"变慢",如何排查?

一,对问题进行更加清晰定义:

  1. 首先查看服务时突然变慢还是长时间运行后观察到变慢?类似问题是否重复出现?
  2. “慢”的定义是什么,是系统对其他方面请求的反应延时边长吗?

二,清理问题的症状,这更便于定位具体的原因,有以下思路:

  1. 问题可能来自于JAVA服务自身,也可能仅仅是受系统里其他服务的影响。初始判断可以先确认是否出现意外程序错误,例如检查应用本身的错误日志。
    对于分布式系统,很多公司都会实现更加系统的日志,性能等监控系统。一些JAVA诊断工具也可以用于这个诊断,例如通过JFR(Java Flight Recordea>),监控应用是否大量出现了某种类型的异常。
    如果有,那么异常可能就是这个突破点。
    如果没有,可以先检查系统级别的资源等情况,监控CPU,内存等资源是否被其他进程大量占用,并且这种占用是不符合系统正常运行状况。
  2. 监控JAVA服务自身,例如GC日志里面是否观察到Full GC等恶劣情况出现,或者是否Minor GC 在变长等;例用jstat等工具,获取内存使用的统计信息也是个常用手段;利用jstack等工具检查是否出现死锁等;
  3. 如果还不确定具体问题,对应用进行Profiling也是个办法,但因为它会对系统产生侵入性,如果不是非常必要,大多数情况下并不建议在生产系统上进行。
  4. 定位了程序错误或者JVM配置的问题后,就可以采取相应补救措施,然后验证是否解决,否则还需要重复上面部分过程。

参考: java核心技术36讲

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章