浅谈CLOSE_WAIT

标签: Technical Linux TCP | 发表时间:2016-01-19 12:19 | 作者:老王
出处:http://huoding.com

TCP 有很多连接状态,每一个都够聊十块钱儿的,比如我们以前讨论过 TIME_WAITFIN_WAIT1,最近时不时听人提起 CLOSE_WAIT,感觉有必要梳理一下。

所谓 CLOSE_WAIT,借用某位大牛的话来说应该倒过来叫做 WAIT_CLOSE,也就是说「等待关闭」,如果你还不理解其含义,可以看看 TCP 关闭连接时的图例:

TCP Close

TCP Close

不要被图中的 client 和 server 所迷惑,你只要记住:主动关闭的一方发出 FIN 包,被动关闭的一方响应 ACK 包,此时,被动关闭的一方就进入了 CLOSE_WAIT 状态。如果一切正常,稍后被动关闭的一方也会发出 FIN 包,然后迁移到 LAST_ACK 状态。

通常,CLOSE_WAIT 状态在服务器停留时间很短,如果你发现大量的 CLOSE_WAIT 状态,那么就意味着被动关闭的一方没有及时发出 FIN 包,一般有如下几种可能:

  • 程序问题:代码层面遗漏或者死循环之类的,没有 close 相应的 socket 连接。
  • 响应太慢:对方已经 timeout 了,本方还忙于耗时逻辑,导致 close 被延后。
  • BACKLOG 太大:队列堆积严重,导致多余的请求来不及消费就被关闭了。

如果遭遇了 CLOSE_WAIT 故障,那么需要立刻通过「netstat」或者「ss」命令来判断 CLOSE_WAIT 连接是哪些进程引起的,如果是我们自己写的一些程序,比如用 HttpClient 自定义的蜘蛛,那么八九不离十是忘记了 close 相应的 socket,如果是一些使用广泛的程序,比如 Tomcat 之类的,那么不太可能是它们自身的 BUG,更可能是响应速度太慢或者 BACKLOG 设置过大导致的故障。

此外还有一点需要说明:按照前面图例所示,当被动关闭的一方处于 CLOSE_WAIT 状态时,主动关闭的一方处于 FIN_WAIT2 状态。 那么为什么我们总听说 CLOSE_WAIT 状态过多的故障,但是却相对少听说 FIN_WAIT2 状态过多的故障呢?这是因为 Linux 有一个「tcp_fin_timeout」设置,控制了 FIN_WAIT2 的最大生命周期。坏消息是 CLOSE_WAIT 没有类似的设置,如果不重启进程,那么 CLOSE_WAIT 状态很可能会永远持续下去;好消息是如果连接开启了 keepalive 机制,那么可以通过对应的设置来清理无效连接,不过 keepalive 是治标不治本的方法,还是应该对照前面的解释找到问题的症结才对。

本来想多写点的,但是着急下班回家,就写到这吧,结尾推荐两个案例:

写得都比我好,建议大家仔细阅读。

 

相关 [close_wait] 推荐:

HttpClient 与 Close_Wait

- - 互联网 - ITeye博客
服务器A需要通过HttpClient去连接另一个系统B提供的服务,运行一段时间后抛出以下异常:. 在服务器B上运行netstat命令,发现大量连接处于 CLOSE_WAIT 状态. 简单来说CLOSE_WAIT数目过大是由于被动关闭连接处理不当导致的. 我说一个场景,服务器A会去请求服务器B上面的apache获取文件资源,正常情况下,如果请求成功,那么在抓取完资源后服务器A会主动发出关闭连接的请求,这个时候就是主动关闭连接,连接状态我们可以看到是TIME_WAIT.

浅谈CLOSE_WAIT

- - 火丁笔记
TCP 有很多连接状态,每一个都够聊十块钱儿的,比如我们以前讨论过 TIME_WAIT 和 FIN_WAIT1,最近时不时听人提起 CLOSE_WAIT,感觉有必要梳理一下. 所谓 CLOSE_WAIT,借用某位大牛的话来说应该倒过来叫做 WAIT_CLOSE,也就是说「等待关闭」,如果你还不理解其含义,可以看看 TCP 关闭连接时的图例:.

服务器TIME_WAIT和CLOSE_WAIT区别及解决方案

- - 操作系统 - ITeye博客
  系统上线之后,通过如下语句查看服务器时,发现有不少TIME_WAIT和CLOSE_WAIT.      TIME_WAIT:表示主动关闭,通过优化系统内核参数可容易解决.      CLOSE_WAIT:表示被动关闭,需要从程序本身出发.      ESTABLISHED:表示正在通信.     通过上网了解,总结如下:.

TCP状态迁移,CLOSE_WAIT & FIN_WAIT2 的问题

- - 操作系统 - ITeye博客
大家对netstat -a命令很熟悉,但是,你有没有注意到STATE一栏呢,基本上显示着established,time_wait,close_wait等,这些到底是 什么意思呢,在这篇文章,我将会详细的阐述. 大家很明白TCP初始化连接三次握手吧:发SYN包,然后返回SYN/ACK包,再发ACK包,连接正式建立.

TCP关闭连接(为什么会能Time_wait,Close_wait?)

- - C++博客-牵着老婆满街逛
转载自https://www.qcloud.com/community/article/102. 最近一段时间一直在学习阅读mina和nio的源码,也发现了一些问题无法解决,然后重读了一下tcp协议,收获颇多. (这就是带着问题去读书的好处). 这次就和大家分享一下我们的netframework服务总会抛出一个“connet reset by peer”的原因吧.