一个小直播平台,随着用户增加,性能出现了问题,开始是消息延迟,接的是腾讯的 im,做过测试,10000 条消息可能会有 20 条会有 100 多秒的延迟才有响应,我们所有的消息是放在 spring 的异步线程池做处理,当时 spring 线程池的数量设置的最大数量是 200,队列是 1 万,策略是队列不足主线程跑,但是 ..

关于 tomcat 线程池调优的问题

一个小直播平台,随着用户增加,性能出现了问题,开始是消息延迟,接的是腾讯的 im,做过测试,10000 条消息可能会有 20 条会有 100 多秒的延迟才有响应,我们所有的消息是放在 spring 的异步线程池做处理,当时 spring 线程池的数量设置的最大数量是 200,队列是 1 万,策略是队列不足主线程跑,但是消息延迟更明显了,看日志发现 spring 的线程池一直开的很高,随后就把最大数量改到了 2000 队列改到 2000(这么做是不想让消息在队列里停留太久)就这样好过一阵子,然后每次感觉很卡的时候就不停的加负载(主服务 23 台负载在 4 台服务器上),对了忘记说了。架构就是 zk 加 dubbo,其实 dubbo 也没拆分很大,主要对后台管理系统提供服务。所以全部压力都在这 23 台负载上,我们运维给 tomcat 线程池设置到了 1000,后来改到了 2000,但是我发现接口响应变的更久了,切了份 nginx 日志,在高峰期,平均接口响应都在 20 秒之上,我的天那,(我一度怀疑是代码或者 db 的问题,我们的 redis mysql 都是买的阿里的)平时都是 0.00 几响应, 然后我看了负载 tomcat 的日志,惊奇的发现,高峰期 随便一个线程执行 距下次执行都是 20 秒以上,看了很多资料,觉得是线程设置太高,线程切换时间用的久。但是我们的 cpu 高峰也就只跑了 40% 而且日志里线程最高就只跑到 1400,大佬们,有谁能给我指跳路,
目前我觉得是线程设置太高了,导致引起的一系列问题。。
太难的做不了,然后人手也不够,就两个后台 java,一个运维还什么也不懂。。为难我这个没做过并发的一年小开发了。。。。

  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    135 引用 • 515 回帖
  • 并发
    37 引用 • 63 回帖
  • Q&A

    提问之前请先看《提问的智慧》精读注解版,好的问题比好的答案更有价值。

    1114 引用 • 7240 回帖 • 587 关注
7 回帖   
请输入回帖内容...
  • jackfruitran  

    我们服务器单台是 8 核 16G 的,我觉得他们设置线程都是 2 倍核心数什么的,没有过这方面经验,也不知道具体设置多少是少,求经验大佬给点经验,今天尝试了把一台负载 tomcat 最大线程数改到 500 试一试 明天看下日志的效果,但是我还怕 cpu 切换线程是对系统的,一台机子 5 6 台负载 只改了一台又不会有效果

  • 88250

    CPU 一直是爆表的么?如果不是的话考虑下是不是 IO 造成的延迟,比如对外的网络连接。

    1 回复
  • jackfruitran        

    cpu 最开始只有 10% 现在高峰期就 40% 对外的网络连接有,但是大部分都在异步连接池里,有延迟的比例也很少。。大 d 之前有用 tomcat 吗,线程池参数是怎么设置的。。。

    1 回复
  • 88250      

    最好是查一下官方文档再调。我总感觉你这不是线程池的问题。 加点耗时日志看看,另外可以用 jstack、jmap 等工具看看 JVM 状态。

    2 回复
  • jackfruitran        

    😭 现在的能力啃不动官方文档。。。只能到处找帖子看别人经验,,,现在是所有的接口在高峰期 响应都很慢,,我看日志,通过日志的线程号,一条条追的,同一个线程号,第二次在执行就是 30 秒 40 之后了,正常最多一秒就该跑第二条了,如果是代码里有问题的,不应该每一个线程都要这么久啊,,肯定会有很快执行完的啊。。而且低峰的时候我们代码正常响应速度在 0.00 几秒(nginx 看的)这些也都是我看日志猜的。。我真的是没什么经验,,很忧伤

  • jackfruitran        

    耗时日志的话 就是 nginx 响应时间看到了,接口高峰请求 10S-30S 不等,低峰 0.00 几秒就完事了,,jvm 堆内存快照的话 不敢在生产环境直接用 ,每个知识点 都要先看很久资料 再开始用,真的是太菜了,而且身边也没大佬带,

    1 回复
  • 88250      

    加诊断日志比较稳妥高效,先排除第三方调用影响,这个最不可控。把有可能耗时的点都列出来,逐一排除。

请输入回帖内容 ...