前言

最近在某应用更新代码后部分机器发布失败,发布失败的机器上Tomcat一直没有启动成功,日志卡在Deploying web application,重启数次之后仍然是一样的情况。所以进行排查问题,下面记录了所有的排查过程,需要的朋友们可以参考学习。
排查过程
1. Tomcat启动线程卡住
下文中Tomcat启动线程代指线程名为localhost-startStop-$id的线程。
使用jstack打印出Tomcat的线程堆栈:
jstack `jps |grep Bootstrap |awk '{print $1}'` > jstack.log
从jstack.log里面可以看到线程localhost-startStop-1处于WAITING状态,堆栈如下:
"localhost-startStop-1" #26 daemon prio=5 os_prio=0 tid=0x00007fe6c8002000 nid=0x3dc1 waiting on condition [0x00007fe719c1e000] java.lang.Thread.State: WAITING (parking) at sun.misc.Unsafe.park(Native Method) - parking to wait for <0x00000007147be150> (a xxx.heartbeat.network.client.FutureResult) at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175) at java.util.concurrent.FutureTask.awaitDone(FutureTask.java:429) at java.util.concurrent.FutureTask.get(FutureTask.java:191) at xxx.HeartBeatContainer.invoke(HeartBeatContainer.java:183) at xxx.HeartBeatContainer.registry(HeartBeatContainer.java:130)
对应的代码如下:
final ResponseFuture<XxxMessage<Result>> future = responseFutureFactory.newResponseFuture(request); channel.writeAndFlush(request); XxxMessage<Result> response = future.get();
线程一直卡在future.get()没有返回。这个步骤是在等待客户端向Xxx-Server发送的注册请求的返回。
2. Xxx注册请求没返回
用tcpdump抓了下包(Xxx-Server的服务端口是yyy):
tcpdump -X -s0 -i bond0 port yyy
发现只有建连接的包,没有length != 0的数据包:
IP app-ip.56599 > xxx-server-ip.yyy: Flags [S], seq 3536490816, win 14600, options [mss 1460,sackOK,TS val 3049061547 ecr 0], length 0 IP xxx-server-ip.yyy > app-ip.56599: Flags [S.], seq 2500877640, ack 3536490817, win 14480, options [mss 1460,sackOK,TS val 1580197458 ecr 3049061547], length 0 IP app-ip.56599 > xxx-server-ip.yyy: Flags [.], ack 1, win 14600, options [nop,nop,TS val 3049061548 ecr 1580197458], length 0
所以,推断注册请求没返回的原因是请求压根儿没有发送出去。
3. Xxx注册请求没发送出去
Xxx代码里面调用了channel.writeAndFlush,但是数据却没有发送出去。这块的代码,更友好的做法应该是writeAndFlush之后对返回的ChannelFuture注册一个Listener,在write操作完成之后的回调里面判断状态。
在Netty大神 – @yh的指导下用BTrace跟了一下Netty的代码。
在Tomcat启动逻辑相关脚本bin/catalina.sh里面加上参数让Btrace agent和Tomcat一起启动:
JAVA_OPTS="$JAVA_OPTS -javaagent:${BTRACE_HOME}/build/btrace-agent.jar=script=${BTRACE_HOME}/scripts/HangDebug.class,stdout=true,debug=true,noServer=true"
HangDebug.class里面包含了一些需要查看的方法,下面是排查没有发送请求原因的步骤:
io.netty.channel.Channel.Unsafe的write方法,验证了请求没有发送出去的推论;io.netty.channel.ChannelOutboundHandler的write方法时报错;io.netty.handler.codec.MessageToByteEncoder的write方法时抛出了异常,异常堆栈为:io.netty.handler.codec.EncoderException: java.lang.NoSuchMethodError: io.netty.util.internal.MathUtil.safeFindNextPositivePowerOfTwo(I)I io.netty.handler.codec.MessageToByteEncoder.write(MessageToByteEncoder.java:125) ... Caused by: java.lang.NoSuchMethodError: io.netty.util.internal.MathUtil.safeFindNextPositivePowerOfTwo(I)I io.netty.buffer.PoolThreadCache$MemoryRegionCache.<init>(PoolThreadCache.java:372) ...
这个时候,问题的原因比较明确了:
io.netty.util.internal.MathUtil.safeFindNextPositivePowerOfTwo这个方法没有找到。
最后找到问题的BTrace Method如下:
@OnMethod(
clazz = "+io.netty.channel.ChannelOutboundHandler",
method = "write",
location = @Location(value = Kind.ERROR)
)
public static void errorChannelOutboundHandlerWrite(@ProbeClassName String className, Throwable cause) {
println("error ChannelOutboundHandler.write, real class: " + className);
Threads.jstack(cause);
println("=====================");
}
这里有一个问题:为什么这个异常日志里面没有打印呢?
这个问题可以从io.netty.channel.AbstractChannelHandlerContext代码里找到答案:
private void invokeWrite(Object msg, ChannelPromise promise) {
try {
((ChannelOutboundHandler)this.handler()).write(this, msg, promise);
} catch (Throwable var4) {
notifyOutboundHandlerException(var4, promise);
}
}
notifyOutboundHandlerException会去通知对应的Listener,Xxx的这段老代码没有注册Listener,所以没有打印出这个异常。
4. NoSuchMethodError原因
再次查看了下$WEBAPP-DIR/WEB-INF/lib下Netty的版本:
netty-3.10.6.Final.jar netty-all-4.1.4.Final.jar netty-buffer-4.1.5.Final.jar netty-codec-4.1.5.Final.jar netty-codec-http-4.1.5.Final.jar netty-common-4.1.5.Final.jar netty-handler-4.1.5.Final.jar netty-resolver-4.1.5.Final.jar netty-transport-4.1.5.Final.jar transport-netty3-client-5.0.0.jar transport-netty4-client-5.0.0.jar
比较扎眼的是netty-all-4.1.4.Final.jar的版本和其它jar包版本不太一致。需要进一步确认一下,io.netty.buffer.PoolThreadCache$MemoryRegionCache和io.netty.util.internal.MathUtil这两个类分别是从哪个jar包中加载的。
在Tomcat启动逻辑相关脚本bin/catalina.sh里面加上启动参数,打印Class加载的日志:
JAVA_OPTS="$JAVA_OPTS -verbose:class"
可以看到:
... [Loaded io.netty.buffer.PoolThreadCache$MemoryRegionCache from file:$WEBAPP-DIR/WEB-INF/lib/WEB-INF/lib/netty-buffer-4.1.5.Final.jar] ... [Loaded io.netty.util.internal.MathUtil from file:$WEBAPP-DIR/WEB-INF/lib/netty-all-4.1.4.Final.jar] ...
从netty-all-4.1.4.Final.jar中加载的io.netty.util.internal.MathUtil,是没有safeFindNextPositivePowerOfTwo这个方法的(正常情况下,应该从netty-common-4.1.5.Final.jar中加载这个类)。
至此为止,弄清楚了启动卡住的原因:
Netty包加载问题 => Xxx调用channel.writeAndFlush发送注册请求时异常 => 没有回包,future.get()一直卡住 => Tomcat启动线程卡住
还有一个令人费解的现象:为什么有的机器启动正常,有的机器启动不正常呢?
5. 不同机器表现不同
再回头看一下启动有问题的机器上Netty相关jar包的顺序,这里我们使用ls -f命令(只关注和问题相关的jar包):
$ ls -f |grep netty netty-buffer-4.1.5.Final.jar netty-all-4.1.4.Final.jar ... netty-common-4.1.5.Final.jar ...
ls加-f参数的含义可以通过man手册看到:
-f do not sort, enable -aU, disable -ls --color
意思是直接使用系统调用getdents的返回,不再做排序。从man手册可以看到,ls默认排序方法是Sort entries alphabetically if none。
NoSuchMethodError的原因是:从netty-buffer-4.1.5.Final.jar中加载了io.netty.buffer.PoolThreadCache$MemoryRegionCache,这个类是会调用io.netty.util.internal.MathUtil.safeFindNextPositivePowerOfTwo这个方法的;从netty-all-4.1.4.Final.jar加载的io.netty.util.internal.MathUtil没有这个方法。
对比看下启动正确的机器上的Netty相关jar包的顺序:
$ ls -f |grep netty ... netty-all-4.1.4.Final.jar ... netty-common-4.1.5.Final.jar netty-buffer-4.1.5.Final.jar ...
由此可以看出所有Netty相关的Class均从netty-all-4.1.4.Final.jar中加载,不会有不兼容的问题产生。
要么问题来了:为什么在ext4中,拥有相同目录项的目录,ls -f出来的顺序是不一样的呢?
这个问题我暂时也回答不上来,至少我还没有拿到令自己信服的代码级别的解释。
嗯,没有代码的解释不是解释,没有deadline的任务不是任务,没有流程图或分享的源码阅读不是源码阅读,没有报告的性能测试不是性能测试。
这里有一个基于现象的解释,我觉得还比较靠谱:
On modern filesystems where directory data structures are based on a search tree or hash table, the order is practically unpredictable.
我们可以做的
事后诸葛亮时间 :) 开玩笑的,遇事多review下才能少犯错误。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。
# tomcat启动问题
# 启动tomcat遇到问题
# tomcat
# 挂掉问题排查
# 项目启动tomcat失败的几种可能原因和解决方法(小结)
# tomcat启动异常:子容器启动失败(a child container&nbs
# 解决tomcat启动报错:一个或多个listeners启动失败问题
# 加载
# 可以看到
# 这个问题
# 三方
# 卡在
# 有一个
# 机器上
# 性能测试
# 的是
# 事后诸葛亮
# 是在
# 来了
# 会有
# 我还
# 看了
# 我觉得
# 不太
# 是从
# 这段
# 我们可以
相关文章:
css网站制作参考文献有哪些,易聊怎么注册?
,怎么在广州志愿者网站注册?
建站之星导航配置指南:自助建站与SEO优化全解析
如何在云主机上快速搭建网站?
实例解析angularjs的filter过滤器
清除minerd进程的简单方法
如何在阿里云虚拟服务器快速搭建网站?
如何在橙子建站上传落地页?操作指南详解
微网站制作教程,我微信里的网站怎么才能复制到浏览器里?
整蛊网站制作软件,手机不停的收到各种网站的验证码短信,是手机病毒还是人为恶搞?有这种手机病毒吗?
建站OpenVZ教程与优化策略:配置指南与性能提升
如何选择高效可靠的多用户建站源码资源?
网站制作哪家好,cc、.co、.cm哪个域名更适合做网站?
如何选择建站程序?包含哪些必备功能与类型?
网站制作价目表怎么做,珍爱网婚介费用多少?
实例解析Array和String方法
沈阳制作网站公司排名,沈阳装饰协会官方网站?
如何在云虚拟主机上快速搭建个人网站?
网站制作软件有哪些,制图软件有哪些?
如何在Golang中指定模块版本_使用go.mod控制版本号
南阳网站制作公司推荐,小学电子版试卷去哪里找资源好?
如何在Golang中使用encoding/gob序列化对象_存储和传输数据
如何续费美橙建站之星域名及服务?
表情包在线制作网站免费,表情包怎么弄?
如何确保FTP站点访问权限与数据传输安全?
如何在局域网内绑定自建网站域名?
建站之星后台密码遗忘或太弱?如何重置与强化?
如何在云主机上快速搭建多站点网站?
网站建设设计制作营销公司南阳,如何策划设计和建设网站?
c++23 std::expected怎么用 c++优雅处理函数错误返回【详解】
建站之星在线客服如何快速接入解答?
电脑免费海报制作网站推荐,招聘海报哪个网站多?
深圳网站制作培训,深圳哪些招聘网站比较好?
制作网站的软件下载免费,今日头条开宝箱老是需要下载怎么回事?
韩国网站服务器搭建指南:VPS选购、域名解析与DNS配置推荐
如何规划企业建站流程的关键步骤?
如何制作公司的网站链接,公司想做一个网站,一般需要花多少钱?
如何撰写建站申请书?关键要点有哪些?
如何在服务器上配置二级域名建站?
如何快速搭建高效可靠的建站解决方案?
如何在Tomcat中配置并部署网站项目?
东莞市网站制作公司有哪些,东莞找工作用什么网站好?
建站之星收费标准详解:套餐费用及年费价格表一览
如何在阿里云完成域名注册与建站?
c# Task.ConfigureAwait(true) 在什么场景下是必须的
早安海报制作网站推荐大全,企业早安海报怎么每天更换?
已有域名和空间,如何快速搭建网站?
如何用免费手机建站系统零基础打造专业网站?
c# 服务器GC和工作站GC的区别和设置
建站主机是否属于云主机类型?
*请认真填写需求信息,我们会在24小时内与您取得联系。