调试排错 - Java应用在线调试Arthas

原文链接:调试排错 - Java应用在线调试Arthas

1. Arthas简介

1.1 Arthas是什么

Arthas 是Alibaba开源的Java诊断工具,深受开发者喜爱。

1.2 Arthas能解决什么问题

著作权归https://www.pdai.tech所有。 链接:https://www.pdai.tech/md/java/jvm/java-jvm-agent-arthas.html

当你遇到以下类似问题而束手无策时,Arthas可以帮助你解决:

  • 这个类从哪个 jar 包加载的? 为什么会报各种类相关的 Exception?

  • 我改的代码为什么没有执行到? 难道是我没 commit? 分支搞错了?

  • 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?

  • 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!

  • 是否有一个全局视角来查看系统的运行状况?

  • 有什么办法可以监控到JVM的实时运行状态?

Arthas支持JDK 6+,支持Linux/Mac/Windows,采用命令行交互模式,同时提供丰富的 Tab 自动补全功能,进一步方便进行问题的定位和诊断。

1.3 Arthas资源推荐

1.4 Arthas基于了哪些工具上发展而来

  • greys-anatomy (opens new window): Arthas代码基于Greys二次开发而来,非常感谢Greys之前所有的工作,以及Greys原作者对Arthas提出的意见和建议!

  • termd (opens new window): Arthas的命令行实现基于termd开发,是一款优秀的命令行程序开发框架,感谢termd提供了优秀的框架。

  • crash (opens new window): Arthas的文本渲染功能基于crash中的文本渲染功能开发,可以从这里 (opens new window)看到源码,感谢crash在这方面所做的优秀工作。

  • cli (opens new window): Arthas的命令行界面基于vert.x提供的cli库进行开发,感谢vert.x在这方面做的优秀工作。

  • compiler (opens new window) Arthas里的内存编绎器代码来源

  • Apache Commons Net (opens new window) Arthas里的Telnet Client代码来源

  • JavaAgent:运行在 main方法之前的拦截器,它内定的方法名叫 premain ,也就是说先执行 premain 方法然后再执行 main 方法

  • ASM:一个通用的Java字节码操作和分析框架。它可以用于修改现有的类或直接以二进制形式动态生成类。ASM提供了一些常见的字节码转换和分析算法,可以从它们构建定制的复杂转换和代码分析工具。ASM提供了与其他Java字节码框架类似的功能,但是主要关注性能。因为它被设计和实现得尽可能小和快,所以非常适合在动态系统中使用(当然也可以以静态方式使用,例如在编译器中)

1.5 同类工具有哪些

2. Arthas入门

2.1 Arthas 上手前

推荐先在线使用下arthas:官方在线教程(推荐)(opens new window)

2.2 Arthas 安装

下载arthas-boot.jar,然后用java -jar的方式启动:

2.3 Arthas 官方案例展示

2.3.1 Dashboard

https://alibaba.github.io/arthas/dashboard

2021-01-27-tHoM4L

2.3.2 Thread

一目了然的了解系统的状态,哪些线程比较占cpu? 他们到底在做什么?

2.3.3 jad

对类进行反编译:

2.3.4 mc

Memory Compiler/内存编译器,编译.java文件生成.class

2.3.5 redefine

加载外部的.class文件,redefine jvm已加载的类。

2.3.6 sc

查找JVM中已经加载的类。

2.3.7 stack

查看方法 test.arthas.TestStack#doGet 的调用堆栈:

2.3.8 Trace

观察方法执行的时候哪个子调用比较慢:

2021-01-27-wLHZNv

2.3.9 Watch

观察方法 test.arthas.TestWatch#doGet 执行的入参,仅当方法抛出异常时才输出。

2.3.10 Monitor

监控某个特殊方法的调用统计数据,包括总调用次数,平均rt,成功率等信息,每隔5秒输出一次。

2.3.11 Time Tunnel(tt)

记录方法调用信息,支持事后查看方法调用的参数,返回值,抛出的异常等信息,仿佛穿越时空隧道回到调用现场一般。

2.3.12 Classloader

了解当前系统中有多少类加载器,以及每个加载器加载的类数量,帮助您判断是否有类加载器泄露。

2.3.13 Web Console

https://alibaba.github.io/arthas/web-console

2021-01-27-BcaHFn

2.4 Arthas 命令集

2.4.1 基础命令

  • help——查看命令帮助信息

  • cat (opens new window)——打印文件内容,和linux里的cat命令类似

  • [grep]](https://github.com/alibaba/arthas/blob/master/site/src/site/sphinx/grep.md)——匹配查找,和linux里的grep命令类似

  • pwd (opens new window)——返回当前的工作目录,和linux命令类似

  • cls——清空当前屏幕区域

  • session——查看当前会话的信息

  • reset (opens new window)——重置增强类,将被 Arthas 增强过的类全部还原,Arthas 服务端关闭时会重置所有增强过的类

  • version——输出当前目标 Java 进程所加载的 Arthas 版本号

  • history——打印命令历史

  • quit——退出当前 Arthas 客户端,其他 Arthas 客户端不受影响

  • stop/shutdown——关闭 Arthas 服务端,所有 Arthas 客户端全部退出

  • keymap (opens new window)——Arthas快捷键列表及自定义快捷键

2.4.2 jvm相关

2.4.3 class/classloader相关

2.4.4 monitor/watch/trace相关

请注意,这些命令,都通过字节码增强技术来实现的,会在指定类的方法中插入一些切面来实现数据统计和观测,因此在线上、预发使用时,请尽量明确需要观测的类、方法以及条件,诊断结束要执行 shutdown 或将增强过的类执行 reset 命令。

2.4.5 options

2.4.6 管道

Arthas支持使用管道对上述命令的结果进行进一步的处理,如sm java.lang.String * | grep 'index'

  • grep——搜索满足条件的结果

  • plaintext——将命令的结果去除ANSI颜色

  • wc——按行统计输出结果

2.4.7 后台异步任务

当线上出现偶发的问题,比如需要watch某个条件,而这个条件一天可能才会出现一次时,异步后台任务就派上用场了,详情请参考这里 (opens new window)

  • 使用 > 将结果重写向到日志文件,使用 & 指定命令是后台运行,session断开不影响任务执行(生命周期默认为1天)

  • jobs——列出所有job

  • kill——强制终止任务

  • fg——将暂停的任务拉到前台执行

  • bg——将暂停的任务放到后台执行

2.4.8 Web Console

通过websocket连接Arthas。

2.4.9 用户数据回报

3.1.4版本后,增加了用户数据回报功能,方便统一做安全或者历史数据统计。

在启动时,指定stat-url,就会回报执行的每一行命令,比如: ./as.sh --stat-url 'http://192.168.10.11:8080/api/stat'

在tunnel server里有一个示例的回报代码,用户可以自己在服务器上实现。

StatController.java (opens new window)

2.4.10 其他特性

3. Arthas场景实战

3.1 查看最繁忙的线程,以及是否有阻塞情况发生?

场景:我想看下查看最繁忙的线程,以及是否有阻塞情况发生? 常规查看线程,一般我们可以通过 top 等系统命令进行查看,但是那毕竟要很多个步骤,很麻烦。

3.2 确认某个类是否已被系统加载?

场景:我新写了一个类或者一个方法,我想知道新写的代码是否被部署了?

3.3 如何查看一个class类的源码信息?

场景:我新修改的内容在方法内部,而上一个步骤只能看到方法,这时候可以反编译看下源码

3.4 重要:如何跟踪某个方法的返回值、入参.... ?

场景:我想看下我新加的方法在线运行的参数和返回值?

具体看watch命令。

3.5 如何看方法调用栈的信息?

场景:我想看下某个方法的调用栈的信息?

运行此命令之后需要即时触发方法才会有响应的信息打印在控制台上。

3.6 重要:找到最耗时的方法调用?

场景:testMethod这个方法入口响应很慢,如何找到最耗时的子调用?

运行此命令之后需要即时触发方法才会有响应的信息打印在控制台上,然后一层一层看子调用。

3.7 重要:如何临时更改代码运行?

场景:我找到了问题所在,能否线上直接修改测试,而不需要在本地改了代码后,重新打包部署,然后重启观察效果?

如上,是直接更改线上代码的方式,但是一般好像是编译不成功的。所以,最好是本地ide编译成 class文件后,再上传替换为好!

总之,已经完全不用重启和发布了!这个功能真的很方便,比起重启带来的代价,真的是不可比的。比如,重启时可能导致负载重分配,选主等等问题,就不是你能控制的了。

3.8 我如何测试某个方法的性能问题?

场景:我想看下某个方法的性能。

3.9 更多

请参考: 官方Issue墙

4. Arthas源码

首先我们先放出一张整体宏观的模块调用图:

2021-01-27-DXSEgF

源码理解可以看移步这两篇文章:

5. 参考资料

  • https://www.cnblogs.com/muxuanchan/p/10097639.html

  • https://www.cnblogs.com/yougewe/p/10770690.html

  • https://help.aliyun.com/document_detail/112975.html

最后更新于

这有帮助吗?