Java应用/JVM宕机排查步骤

相信大家都遇到过,自己的Java应用运行一段时间就宕机了或者响应请求特别慢。这时候就需要我们了来找出问题所在了。绝大部分都是代码问题导致的。


一、服务宕机

如果是服务宕机,发生致命问题导致进程已经死掉了,那么已经访问不了了,通常都是CPU问题引起的,程序一般会自己生成javacore文件,一般生成位置在/root目录或jar包同目录下。JavaCore文件主要保存的是Java应用各线程在某一时刻的运行的位置,即JVM执行到哪一个类、哪一个方法、哪一个行上。

找到这个文件,执行命令

gdb java <文件>
bt

如果文件没有损坏的话可以看到完整的栈调用信息。就可以定位到问题代码所在。
我曾经就因为底层调用的一个geo库出问题,导致程序直接挂掉,分析core文件可以清晰的看到native方法的调用。


二、服务响应请求慢

出现这个问题一般都是内存溢出,GC线程一直在重复GC,没有线程来处理用户请求,或者问题代码导致CPU占用过高。
程序崩溃前会生成HeapDump文件,也可以手动生成,HeapDump是一个二进制文件,它保存了某一时刻JVM堆中对象使用情况。
在JVM启动参数要配置好HeapDump的生成位置和配置打印gc日志。这样才能排查问题。

先分析GC日志
在线分析工具地址:https://gceasy.io/
在这里插入图片描述
把gc文件上传就好了,就可以看到分析结果。重点关注什么区域的GC占用最多时间。
离线分析工具:GCViewer 是一款开源的GC日志分析工具。
如果程序内存溢出,通过分析gc文件可以发现程序内存占用机会100%而且一直重复GC。
分析HeapDump文件

1、先找到Java应用的pid
ps -ef | grep java  或者 jps -l 查看
2、查看堆内存使用量
jmap -heap <pid>
3、查看Java进程中的每一个线程的情况(linux),可以清晰的看到每一个线程的cpu及内存使用情况
top -Hp <pid>

window下可以借助工具 Process Explorer,
在这里插入图片描述

4、打印线程快照信息,保存到文件xxx.txt中方便查看
jstack <pid> > xxx.txt
参考我的博客:https://blog.csdn.net/Axela30W/article/details/105615288
5、通过top -Hp <pid>看到的线程id是10进制的,我们输出到xxx.txt中的是16进制,所以需要转一下,找一个异常线程tid
printf "%x" <tid>  假如输出为 1111
6、在xxx.txt文件中查找tid为1111的栈信息,可以看到这个线程在干什么,定位到问题代码。
7、程序宕机会自动产生dump文件,若没有宕机就手动导出dump文件
jmap -dump:format=b,file=文件名 <pid>

桌面分析工具:Eclipse Memory Analyzer,它有windows版的和Linux版的
windows下:把HeapDump文件放进去就可以了,分析完后,很直观的看到当前内存占用量最高的是某个类的某个参数。持有了多少个对象,这些对象占用了多少内存,从而定位到问题代码。
Linux下:先把Eclipse Memory Analyzer版上传到服务器,解压,假如/home/mat为解压后路径,执行命令

/home/mat/ParseHeapDump.sh <文件名> org.eclipse.mat.api:suspects prg.eclipse.mat.api:overview org.eclipse.mat.api:top_components

分析完之后会在当前文件生成结果文件。下载到本地查看即可。
没贴具体的操作图片,有问题的可以留言交流。


在这里插入图片描述


  • 我的公众号:Coding抠腚
  • 人生海海,山山而川。
    Coding抠腚
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章