Dubbo之connet timeout问题排查

标签: dubbo connet timeout | 发表时间:2019-05-13 20:27 | 作者:ncs123
出处:https://www.iteye.com
一 背景
    购物车依赖推荐的dubbo接口,推荐服务每天凌晨3点会批量下线推荐dubbo服务,全量更新商品,更新完以后在执行上线操作,每天凌晨3点10分左右,购物车工程都会出现5000左右的connection timeout error。正常依赖的dubbo服务工程在启动的时候,消费端会经常出现connection timeout error。





二 问题排查
    遇到问题之后,sa,中间件开发,推荐开发,购物车开发等拉群排查问题,分析影响面。
    dubbo源码分析


总结:推荐服务上线之后,消费端收到zookeeper通知,会主动拉取推荐dubbo服务的URL信息。消费端拿到URL信息后,如果connections不配置,则共享连接,否则每服务每连接,然后将该服务URL和clinets列表封装成一个DubboInvoker对象。如果connection timeout下次会重试。

   哨兵监控分析



    我们发现在connection timeout error出现的时候,推荐服务器TcpExtListenOverflows,TcpExtListenDrops指标异常。

    TcpExtListenDrops(监听队列连接丢弃数)和 TcpExtListenOverflows(监听队列连接溢出数):
  • ListenOverflows:3次握手之后进入Accept Queue,如果Accept Queue满了,队列溢出连接就会丢弃,TcpExtListenOverflows值增加1;
  • ListenDrops:包含上面的情况,也就是说当出现ListenOverflows时,它也会增加1;除此之外,当内存不够无法为新的连接分配socket相关的数据结构时,也会增加1,当然还有别的异常情况下会增加1。

    Accept Queue 的队列长度是由程序的backlog和系统参数net.core.somaxconn共同设置,当backlog的值大于系统设置的net.core.somaxconn时则取net.core.somaxconn的值,否则取程序设置的backlog值。

总结:net.core.somaxconn默认值是128,dubbo backlog目前1024, min(net.core.somaxconn, backlog) = 128。推荐一个服务的提供者的消费者就由1600多,推荐服务一上线,消费者都是第一时间去建立连接,导致Accept Queue溢出。
参考: SYN packet handling in the wild

三 解决问题
    问题已经分析完成,解决的思路:
  1. 增加云主机net.core.somaxconn值和dubbo backlog值。
  2. 修改dubbo源码,服务提供者一上线,消费者延迟随机时间之后去建立连接。

    目前所有云主机同步参数net.core.somaxconn调整到2048,dubbo backlog默认值还是1024,需要压测确定具体值,connection timeout error已经由原先的6000降低到200,connection timeout之后会重试连接,不会影响业务功能。

已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [dubbo connet timeout] 推荐:

Dubbo之connet timeout问题排查

- - 开源软件 - ITeye博客
    购物车依赖推荐的dubbo接口,推荐服务每天凌晨3点会批量下线推荐dubbo服务,全量更新商品,更新完以后在执行上线操作,每天凌晨3点10分左右,购物车工程都会出现5000左右的connection timeout error. 正常依赖的dubbo服务工程在启动的时候,消费端会经常出现connection timeout error.

[原]Dubbo实例

- -
Dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案. Remoting: 网络通信框架,实现了sync-over-async 和 request-response 消息机制. RPC: 一个远程过程调用的抽象,支持负载均衡、容灾和集群功能. Registry: 服务目录框架用于服务的注册和服务事件发布和订阅.

为线程执行设置timeout

- - ITeye博客
long timeout = 1000;// 任务必须在设定时间内完成,否则任务将被强制关闭. long timeNeed = 2000;// 任务完成需要的时长. TimeUnit timeUnit = TimeUnit.MILLISECONDS;// 时间单位. ExecutorService executor = Executors.newSingleThreadExecutor();// 高级并发API.

DUBBO用户指南

- - 开源软件 - ITeye博客
随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,亟需一个治理系统确保架构有条不紊的演进. 当网站流量很小时,只需一个应用,将所有功能都部署在一起,以减少部署节点和成本. 此时,用于简化增删改查工作量的 数据访问框架(ORM) 是关键. 当访问量逐渐增大,单一应用增加机器带来的加速度越来越小,将应用拆成互不相干的几个应用,以提升效率.

dubbo 问题整理

- - 行业应用 - ITeye博客
1 面试题:Dubbo中zookeeper做注册中心,如果注册中心集群都挂掉,发布者和订阅者之间还能通信么. 可以的,启动dubbo时,消费者会从zk拉取注册的生产者的地址接口等数据,缓存在本地. 每次调用时,按照本地存储的地址进行调用. 注册中心对等集群,任意一台宕掉后,会自动切换到另一台 . 注册中心全部宕掉,服务提供者和消费者仍可以通过本地缓存通讯 .

dubbo服务降级实现dubbo-plus/circuitbreaker at master · dubboclub/dubbo-plus · GitHub

- -
向注册中心写入动态配置覆盖规则:(通过由监控中心或治理中心的页面完成). 表示消费方对该服务的方法调用都直接返回null值,不发起远程调用. 屏蔽不重要服务不可用时对调用方的影响. 表示消费方对该服务的方法调用在失败后,再返回null值,不抛异常. 容忍不重要服务不稳定时对调用方的影响. Dubbo支持服务降级,并且支持当服务出现异常的时候进行服务降级处理,但是存在一下几个缺陷.

学习dubbo源代码

- - Java - 编程语言 - ITeye博客
1、Dubbo与Spring的整合. Dubbo在使用上可以做到非常简单,不管是Provider还是Consumer都可以通过Spring的配置文件进行配置,配置完之后,就可以像使用springbean一样进行服务暴露和调用了,完全看不到dubboapi的存在. 这是因为dubbo使用了spring提供的可扩展Schema自定义配置支持.

dubbo的安装和使用

- - CSDN博客云计算推荐文章
随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,亟需一个治理系统确保架构有条不紊的演进. 当网站流量很小时,只需一个应用,将所有功能都部署在一起,以减少部署节点和成本. 此时,用于简化增删改查工作量的 . 数据访问框架(ORM) 是关键.

Dubbo基本原理机制

- - 开源软件 - ITeye博客
转自:http://blog.csdn.net/paul_wei2008/article/details/19355681 分布式服务框架:. –高性能和透明化的RPC远程服务调用方案. -Apache MINA 框架基于Reactor模型通信框架,基于tcp长连接. Dubbo缺省协议采用单一长连接和NIO异步通讯,.

dubbo处理文件上传

- - 开源软件 - ITeye博客
dubbo和hessian的maven依赖:. 服务提供者(项目名称:provider). 首先是web.xml配置(使用spring):. 最重要的applicationContext.xml :. 参考: dubbo hessian协议. .