NFS-RPC框架优化过程

标签： Java Grizzly java mina netty | 发表时间：2011-09-13 10:33 | 作者：bluedavy EricSheng

出处：http://blog.bluedavy.com

NFS-RPC框架从编写之初，到现在为止（应该还会有些提升，不过估计不大），每秒支撑的请求数上升了好几倍，测试结果的演变为：
37k –> 56k –> 65k –> 88k –> 93k –> 143k –> 148k –> 153k
以上测试结果为在100并发、100 request byte、100 response byte以及单连接下的背景下得出的，在这篇blog中来分享下这个框架所做的一些优化动作，希望能给编写rpc框架或使用mina/netty/grizzly的同学们一点点帮助，也希望得到高手们更多的指点。

1、37k –> 56k
由于目前大部分的NIO框架采用的均为1个socket io线程处理多个连接的io事件，如果io线程时间占用太长的话，就会导致收到的响应处理的比较慢的现象，这步优化就是针对反序列化过程占用io线程而做的，采用的方法即为在读取流时仅根据长度信息把所有的bytes都读好，然后直接作为收到的信息返回给业务线程，业务线程在进行处理前先做反序列化动作，感兴趣的同学可以看看NFS-RPC中：code.google.nfs.rpc.netty.serialize.NettyProtocolDecoder或code.google.nfs.rpc.mina.serialize.MinaProtocolDecoder，以及code.google.nfs.rpc.mina.server.MinaServerHandler或code.google.nfs.rpc.netty.server.NettyServerHandler。

2、56k –> 65k
在测试的过程中，发现YGC的耗时比较长，在咨询了sun的人后告诉我主要是由于有旧生代的数据结构引用了大量新生代对象造成的，经过对程序的分析，猜测是benchmark代码本身用于记录请求响应时间信息的ConcurrentLinkedQueue造成的，在某超级大牛的指示下，换成了在每个线程中用数组的方式，按区间来记录响应时间信息等，感兴趣的同学可以看看NFS-RPC中：code.google.nfs.rpc.benchmark.SimpleProcessorBenchmarkClientRunnable

3、65k –> 88k
在某超级大牛的分析下，发现目前的情况下io线程的上下文切换还是比较频繁，导致io线程处理效率不够高，默认情况下，NIO框架多数采用的均为接到一个包后，将这个包交由反序列化的处理器进行处理，对于包中有多个请求信息或响应信息的情况，则采用一个一个通知的方式，而rpc框架在接到一个请求或响应对象时的做法通常是唤醒等待的业务线程，因此对于一个包中有多个请求或响应的状况就会导致io线程需要多次唤醒业务线程，这个地方改造的方法是nio框架一次性的将包中所有的请求或响应对象通知给业务线程，然后由业务线程pipeline的去唤醒其他的业务线程，感兴趣的同学可以看看NFS-RPC中：code.google.nfs.rpc.netty.serialize.NettyProtocolDecoder或code.google.nfs.rpc.mina.serialize.MinaProtocolDecoder，以及code.google.nfs.rpc.netty.client.NettyClientHandler或code.google.nfs.rpc.mina.client.MinaClientProcessor。

4、88k –> 93k
这步没什么可说的，只是多支持了hessian序列化，然后这个结果是用hessian序列化测试得出的。

5、93k –> 143k
在到达93k时，看到测试的结果中有不少请求的响应时间会超过10ms，于是用btrace一步一步跟踪查找是什么地方会出现这种现象，后来发现是由于之前在确认写入os send buffer时采用的是await的方式，而这会导致需要等待io线程来唤醒，增加了线程上下文切换以及io线程的负担，但这个地方又不能不做处理，后来就改造成仅基于listener的方式进行处理，如写入失败会直接创建一个响应对象，这次改造后效果非常明显，感兴趣的同学可以看看nfs-rpc中：code.google.nfs.rpc.mina.client.MinaClient或code.google.nfs.rpc.netty.client.NettyClient。

6、143k –> 148k
这步是在@killme2008 的指点下，将tcpNoDelay设置为了false，但这个设置不适用于低压力的情况，在10个线程的情况下tps由3w降到了2k，因此tcpNoDelay这个建议还是设置成true。

7、148k –> 153k
这步没什么可说的，只是多支持了protobuf序列化，这个结果是用protobuf序列化测试得出的，之前还测试过下@bnu_chenshuo 写的一个protorpc，是基于protobuf的rpc加上netty实现的，结果也很强悍，测试出来是149k，看来protobuf的rpc也是有不少值得学习的地方的。

上面就是到目前为止的所有优化动作，其中的很多我估计高手的话是不会犯错的，我走的弯路多了些，总结来说rpc框架的优化动作为：
1、尽可能减少io线程的占用时间；
2、尽可能减少线程上下文切换；
3、尽可能使用高效的序列化/反序列化；

ps: Grizzly的同学对nfs-rpc-grizzly的代码做了不少的修改，让grizzly的benchmark result从62k上升到了141k，如果你使用grizzly来做rpc，我觉得这部分的代码是很值得看看的，:)

NFS-RPC框架在后面将继续做更多的测试和优化，例如采用aio、coroutine、测试CNK问题等，敬请关注：http://code.google.com/p/nfs-rpc

NFS-RPC框架优化过程

- EricSheng - BlueDavy之技术blog

NFS-RPC框架从编写之初，到现在为止（应该还会有些提升，不过估计不大），每秒支撑的请求数上升了好几倍，测试结果的演变为：. 以上测试结果为在100并发、100 request byte、100 response byte以及单连接下的背景下得出的，在这篇blog中来分享下这个框架所做的一些优化动作，希望能给编写rpc框架或使用mina/netty/grizzly的同学们一点点帮助，也希望得到高手们更多的指点.

JAVA RPC 通讯框架

- - 经验沉淀知识结晶

Bison 是一个JAVA 程间的通信框架，基于apache mina 实现，对mina进行了byteBuffer 缓冲区重用以及半包出处时减少拷贝. 客户端(bison-client) 功能点. 2 支持高用性：高可用的一个基本原则，可以接受快速的失败，但不能接受长时间的等待. Githup地址:https://github.com/gavenpeng/Bison.

【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架

- - 开源软件 - ITeye博客

HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，. 【RPC框架Hessian四】Hessian与Spring集成.

zmq-rpc:基于zeromq网络层编写的protobuf RPC框架

- Shengbin - codedump

阅读过zmq的代码之后,感觉这个网络层是我目前见过最高效的–线程之间使用lockfree的消息队列保存消息,可以启动多个I/O线程分担压力等等特性.于是决定基于它写一个protobuf RPC的框架.. 另外,这里使用的protobuf是旧版本2.3.0,新版本2.4.1的生成的RPC service接口跟原来不太一致,暂时还没有去研究它.BTW,升级版本之后导致原来的接口发生变化这是一个很操蛋的事情..

集成libevent,google protobuf的RPC框架

- goodman - C++博客-那谁的技术博客

chenshuo的evproto同样也是集成libevent与google protobuf的RPC框架,不过在对libevent的使用上,这里的做法与他不尽相同:. 1) 他使用了libevent自带的RPC功能, 而这里只使用到libevent对网络I/O进行的封装的最基本的功能.. eventrpc项目目前是avidya下的一个子项目,avidya项目的定位是实现一些分布式的玩具系统(比如google已经公开论文的chubby,mapreduce,GFS等),也许以后不一定能被用上,但是也要实践做一把.由于有一个好用的RPC框架是做分布式的必需品,所有首先实现eventrpc这个子项目了,以后也许还会实现其他语言的版本,如python,java..

NFS-RPC框架优化过程

相关 [nfs rpc 框架] 推荐：

NFS-RPC框架优化过程

JAVA RPC 通讯框架

【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架

zmq-rpc:基于zeromq网络层编写的protobuf RPC框架

集成libevent,google protobuf的RPC框架

RPC调用框架比较分析

RPC框架实现 - 容灾篇 - bangerlee

基于hessian和netty的RPC框架设计和实现

分布式RPC框架性能大比拼

基于Netty的异步Rpc调用的小框架

相关文章

订阅