java · 2021年4月20日 0

记录一次生产服务器CPU飙升

  • 2021-04-18日,生产服务器主备机器服务器飙升,下面是排查问题的全过程
    1. 通过top查看到了cpu占用比较高的应用服务,我们的服务器上部署了多个应用,探查到cpu占用率400%;
    2. 使用 ps -mp pid -o THREAD,tid,time |sort -rn 命令查看当前pid 占用资源较高的线程tid并进行排序
    3. 将线程格式转换为16进制后 printf "%x\n" tid
    4. 得到十六进制后的线程tid后使用 jstack pid |grep tid -A 30 查看线程的堆栈信息
    5. 最后发现是一个Socket服务接口在接收输入流时,加了一个InputStream.available(),这个方法是因为链接建立但是数据还在发送中,需要while循环的获取,开发时没有考虑到空包并且客户端未关闭连链接的情况,导致了服务端死循环, 从而导致CPU使用率飙升;
    6. 最后解决方案为主动发送探测包,判断服务端状态如果没有响应主动的关闭链接;