epoll机制在搜索引擎spider中的应用

标签： Uncategorized 互联网 搜索引擎 系统架构 crawler | 发表时间：2013-10-23 20:28 | 作者：semo2524

出处：http://semocean.com

本文将介绍epoll的概念，原理，优点，及使用接口，同时结合作者在搜索引擎spider开发中epoll使用方式的代码向大家具体介绍epoll的使用方式。

P.S. 笔者08年曾有使用epoll编写未考虑压力控制的crawler，将国内著名票务网站压垮并在boss的带领下登门道歉的经历：）足见epoll的强悍!

epoll是什么

按照man帮助中的说明，epoll是为了高性能处理处理文件句柄而改进的poll机制，和其类似的功能是select调用。epoll提供相对简单的接口，即能实现高效的数量巨大的文件句柄的操作和控制。是select和poll的升级替代品。

select也可以管理调度数量众多的文件句柄，但一般select能够管理的文件句柄数为2048(受FD_SETSIZE定义大小的限制)，虽然可以通过修改linux内核代码调整，但因为其实现为轮询机制，所以在当文件句柄较多，而有事件的句柄较少的情况下select的性能会较低(当然，我个人觉得最大的问题，还是文件句柄数的限制)，当然，很多早期的搜索引擎spider，很多都是直接使用select，调度网络句柄，性能也还不错，比如 larbin

而在操作系统实现中，epoll是通过callback回调函数来操作active的文件句柄，所以该调用不用像select或是poll一样需要线性扫描，所以epoll效率较高（当然，如果操作的文件句柄都是活跃的，那select/poll的性能类似），而且epoll能够管理的文件句柄数非常多，一般是系统能够管理的文件句柄的上限，况且epoll通过epoll_create，epoll_ctl，epoll_wait即能完成文件句柄的管理，所以很多时候epoll系列的接口会成为管理大量文件句柄的机制的首选。

epoll的优点

其实上文已经提到了很多，综合起来，主要是以下两方面有点：

高效：在大量文件句柄管理中，如果active的文件句柄较少，则效率较select/poll高
量大：理论上能够管理操作系统最大文件句柄数的句柄

当然，在实际中，在一些benchmark中，如果绝大部分文件句柄/socket都active，则epoll的效率相较select/poll并没有什么优势，相反，如果过多使用epoll_ctl，效率相比还有稍微的下降。但是一旦使用idle connections模拟WAN环境，epoll的效率就远在select/poll之上

另外，能够管理的文件句柄数也不可能达到最大句柄上限，在1GB内存的机器上大约是10万左右，具体数目可以cat /proc/sys/fs/file-max察看，一般来说这个数目和系统内存关系很大。

epoll的使用

首先要介绍epoll相关的数据结构。

epoll用到的有函数都是在头文件sys/epoll.h中声明：

typedef union epoll_data {
                void *ptr;
                int fd;
                __uint32_t u32;
                __uint64_t u64;
        } epoll_data_t;

        struct epoll_event {
                __uint32_t events;      /* Epoll events */
                epoll_data_t data;      /* User data variable */
        };

结构体epoll_event 被用于注册所感兴趣的事件和回传所发生待处理的事件，其中epoll_data 联合体用来保存触发事件的某个文件描述符相关的数据，例如一个client连接到服务器，服务器通过调用accept函数可以得到于这个client对应的socket文件描述符，可以把这文件描述符赋给epoll_data的fd字段以便后面的读写操作在这个文件描述符上进行。epoll_event 结构体的events字段是表示感兴趣的事件和被触发的事件可能的取值为：

      EPOLLIN ：表示对应的文件描述符可以读；
      EPOLLOUT：表示对应的文件描述符可以写；
      EPOLLPRI：表示对应的文件描述符有紧急的数据可读；
      EPOLLERR：表示对应的文件描述符发生错误；
      EPOLLHUP：表示对应的文件描述符被挂断； 
      EPOLLET：表示对应的文件描述符有事件发生；

函数接口如下：

函数声明： int epoll_create(int size )
该函数生成一个epoll专用的文件描述符，其中的参数是指定生成描述符的最大范围 2、epoll_ctl函数
函数声明： int epoll_ctl(int epfd , int op , int fd , struct epoll_event *event )
该函数用于控制某个文件描述符上的事件，可以注册事件，修改事件，删除事件。
参数： epfd：由 epoll_create 生成的epoll专用的文件描述符；
op：要进行的操作例如注册事件，可能的取值：

EPOLL_CTL_ADD 注册、 EPOLL_CTL_MOD 修改、 EPOLL_CTL_DEL 删除
fd：关联的文件描述符；
event：指向epoll_event的指针；
如果调用成功返回0,不成功返回-1
函数声明： epoll_wait

epoll的工作模式

epoll有两种工作模式，ET模式与LT模式。
LT是缺省的工作方式，并且同时支持block和no-block socket；在这种做法中，内核告诉你一个文件描述符是否就绪了，然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作，内核还是会继续通知你的，所以，这种模式编程出错误可能性要小一点。传统的select/poll都是这种模型的代表。 ET是高速工作方式，只支持no-block socket。在这种模式下，当描述符从未就绪变为就绪时，内核通过epoll告诉你。然后它会假设你知道文件描述符已经就绪，并且不会再为那个文件描述符发送更多的就绪通知，直到你做了某些操作导致那个文件描述符不再为就绪状态了。但是请注意，如果一直不对这个fd作IO操作(从而导致它再次变成未就绪)，内核不会发送更多的通知。 ET（Edge Triggered）与LT（Level Triggered）的主要区别可以从下面的例子看出：

 例子：
1． 标示管道读者的文件句柄注册到epoll中；
2． 管道写者向管道中写入2KB的数据；
3． 调用epoll_wait可以获得管道读者为已就绪的文件句柄；
4． 管道读者读取1KB的数据
5． 一次epoll_wait调用完成

如果是ET模式，管道中剩余的1KB被挂起，再次调用epoll_wait，得不到管道读者的文件句柄，除非有新的数据写入管道。如果是LT模式，只要管道中有数据可读，每次调用epoll_wait都会触发。另一点区别就是设为ET模式的文件句柄必须是非阻塞的。

搜索引擎spider中的使用示例

功能描述

此处的spider，是一个具体而微的应用，或者更应该定义为crawler，即定向快速抓取指定网站，例如我们已经获取到1KW个URL，需要再1天内江1KW的URL对应的网站，使用单机抓取下来。

更具体地，笔者当时的应用场景，是快速地检查指定URL list对应的网站是否能连通，所以具体操作的时候，仅抓取网页的头部信息，并返回其中的return status即可，因为一开始没有spider设计的经验，所以该crawler一开始没有考虑同一网站的压力控制，而epoll过去强悍，导致QA线下测试该crawler时，就将国内著名票务网站压垮（据票务网站的同事说，他们的服务器CPU过热自动重启，而刚完成重启，就。。。又挂了：），也算是工作后的一个奇遇了。当然，这样的CASE在如今，能够很容易被检查出来是一场攻击而被直接封IP。

架构

因为是一个简化的spider，所以架构图和下图类似（精确的架构图涉及泄密不再贴出来）：

性能考虑

假设20个线程，每个线程最多管理50个socket，假设抓取超时时间为10秒（一般会比这个时间长），假设不考虑压力控制，则该crawler每天能够抓取 20 * 50 * 86400 / 10 = 8640,000个网页，单机。如需要更强悍的抓取能力，考虑使用多机。

代码示例

因为代码较多，此处仅贴出涉及到epoll工作原理的代码部分。

图： epoll_create，创建epoll的fd，其中_max_sock_num指定最大管理的socket数量

图：将socket加入epoll机制：创建非阻塞fd，并将非阻塞fd加入epoll管理（初始的fd不响应读消息）

图：使用epoll_ctl设置fd的状态，请参见上图设置读消息机制理解

图： epoll_wait调用方式：如果active的socket数量不为0，则分出错，断开，读，写状态进行对应处理。

更多实现参见该文附件代码： contm_connector.cpp，该代码在实际项目中应用，因用到了自行开发的日志库等外部lib，故不能直接编译，但逻辑经过测试，所以参考性较强。

具体代码参见： http://pan.baidu.com/share/link?shareid=2373459832&uk=1493671608

更多内容参见：

开源spider larbin ： http://sourceforge.net/projects/larbin/

epoll 使用说明： http://www.xmailserver.org/linux-patches/nio-improve.html

百度关键词工具介绍参见： http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

epoll机制在搜索引擎spider中的应用

- - 海之沙

本文将介绍epoll的概念，原理，优点，及使用接口，同时结合作者在搜索引擎spider开发中epoll使用方式的代码向大家具体介绍epoll的使用方式. 笔者08年曾有使用epoll编写未考虑压力控制的crawler，将国内著名票务网站压垮并在boss的带领下登门道歉的经历：）足见epoll的强悍!.

poll,select与epoll

- - 操作系统 - ITeye博客

select的参数类型fd_set没有将文件描述符和事件绑定,它仅仅是一个文件描述符集合,因此select需要提供3个这种类型的参数来分别传入和输出可读,可写及异常等事件.这一方面使得select不能处理更多类型的事件,另一方面由于内核对fd_set集合的在线修改,应用程序下次调用select前不得不重置这3个fd_set集合.

GitHub - facert/awesome-spider: 爬虫集合

- -

收集各种爬虫（默认爬虫语言为 python）, 欢迎大家提 pr 或 issue, 收集脚本见此项目 github-search. Github 仓库及用户分析爬虫. 美女写真套图爬虫（一）（二）. 前程无忧Python招聘岗位信息爬取分析. Stackoverflow 100万问答爬虫. Shadowsocks 账号爬虫.

uSniff:BT种子搜索引擎

- leqoqo - 软件志

一、uSniff相关信息： 1、官方主页：http://www.usniff.com/ 2、简介：uSniff是一个BT种子搜索引擎，简单、易用、实时是其最大的优点，其搜索引擎数据库包含了17个知名种子站点的种子信息，目的是想发展成为世界上最大的BT种子搜索引擎，而且对于每个种子，该搜索引擎都会进行安全认证，以保证用户的正常使用.

资源搜索引擎

- - 不死鸟 - 分享为王官网

易搜阿里百度夸克网盘搜索. tg中文搜索电报资源搜索引擎. 千帆搜索电报资源搜索引擎. 影视搜影视聚合搜索引擎. 辅助狗无捆绑软件搜索引擎. 查报告可查询各行业的分析报告. 学霸盘课程资料百度网盘. 库问搜索 PDF文献资料搜索.

EPOLL下的accept(转载)

- chuang - C++博客-首页原创精华区

摘要: （转载者注：看完这个，再回头看看nginx源码，发现它在accept时用的是LT模式，read,write时是ET模式）不知道是谁第一个犯了错，在网上贴出所谓epoll通用框架的代码. 注意看accpet的处理：1epfd = epoll_create(10);2 3struct sockaddr_in clientaddr;4struct sockaddr_in se... 阅读全文.

epoll网络编程实例

- - CSDN博客推荐文章

在前面已经经过了PPC、TPC、select之类( TPC就是使用进程处理data，TPC就是使用线程处理 ),前面两个的缺点大家应该都是知道的是吧，对于select( 其实poll和他差不多 )，缺点是能同时连接的fd是在是不多，在linux中一般是1024/2048，对于很大的服务器来说是不够的.

人眼启发视觉搜索引擎

- feng823 - Solidot

Google上周宣布将支持声音和图片进行搜索，但一家创业公司在图像搜索方面走在了Google前面. 源自伦敦帝国学院研究项目的创业公司Cortexica，开发出视觉搜索工具，通过手机拍摄产品照片，它会自动呈现价格信息. Cortexica已经发布了一个用于比较酒价格的工具WINEfindr. Cortexica的视觉搜索技术是受到了人眼视觉系统的启发，它能识别出一个目标的关键特征，不受方位、大小、光线亮暗的影响.

比较好的学术搜索引擎

- hfut_chen - C++博客-首页原创精华区

摘要: 1、http://scholar.google.com/. Google学术搜索滤掉了普通搜索结果中大量的垃圾信息，排列出文章的不同版本以及被其它文章的引用次数. 略显不足的是，它搜索出来的结果没有按照权威度（譬如影响因子、引用次数）依次排列，在中国搜索出来的，前几页可能大部分为中文的一些期刊的文章.

Blekko 对搜索引擎的新探索

- thinkingit - 知乎的博客

Blekko 这款搜索产品做的如何. 从目前我的使用过程来看，Blekko还是很让人激动的. 在谈Blekko之前就要先问：为何在搜索这个看似已经垄断的行业还会有人想去分一杯羹，这些小团队能与Google或微软这样的巨头抗衡吗. 比如之前的Powerset，后来的Cuil，和现在的Blekko. 在Google之前Yahoo是靠人工收录网页，Google的算法和蜘蛛革了搜索的命，一直垄断搜索业十余年，而现在随着WEB 2.0的发展，让人又看到了搜索业革命的火种，可以说Blekko就是这样的一个产品.

epoll机制在搜索引擎spider中的应用

相关 [epoll 搜索引擎 spider] 推荐：

epoll机制在搜索引擎spider中的应用

poll,select与epoll

GitHub - facert/awesome-spider: 爬虫集合

uSniff:BT种子搜索引擎

资源搜索引擎

EPOLL下的accept(转载)

epoll网络编程实例

人眼启发视觉搜索引擎

比较好的学术搜索引擎

Blekko 对搜索引擎的新探索

相关文章

订阅