开源爬虫软件汇总

标签: 搜索引擎 | 发表时间:2014-06-20 11:26 | 作者:互联网实践
出处:http://blog.sina.com.cn/netreview

     世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。

开源爬虫汇总表

开发语言

软件名称

软件介绍

许可证

Java

Arachnid

微型爬虫框架,含有一个小型HTML解析器

GPL

crawlzilla

安装简易,拥有中文分词功能

Apache2

Ex-Crawler

由守护进程执行,使用数据库存储网页信息

GPLv3

Heritrix

严格遵照robots文件的排除指示和META robots标签

LGPL

heyDr

轻量级开源多线程垂直检索爬虫框架

GPLv3

ItSucks

提供swing GUI操作界面

不详

jcrawl

轻量、性能优良,可以从网页抓取各种类型的文件

Apache

JSpider

功能强大,容易扩展

LGPL

Leopdo

包括全文和分类垂直搜索,以及分词系统

Apache

MetaSeeker

网页抓取、信息提取、数据抽取工具包,操作简单

不详

Playfish

通过XML配置文件实现高度可定制性与可扩展性

MIT

Spiderman

灵活、扩展性强,微内核+插件式架构,通过简单的配置就可以完成数据抓取,无需编写一句代码

Apache

webmagic

功能覆盖整个爬虫生命周期,使用Xpath和正则表达式进行链接和内容的提取

Apache

Web-Harvest

运用XSLT、XQuery、正则表达式等技术来实现对Text或XML的操作,具有可视化的界面

BSD

WebSPHINX

由两部分组成:爬虫工作平台和WebSPHINX类包

Apache

YaCy

基于P2P的分布式Web搜索引擎

GPL

Python

QuickRecon

具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能

GPLv3

PyRailgun

简洁、轻量、高效的网页抓取框架

MIT

Scrapy

基于Twisted的异步处理框架,文档齐全

BSD

C++

hispider

支持多机分布式下载, 支持网站定向下载

BSD

larbin

高性能的爬虫软件,只负责抓取不负责解析

GPL

Methabot

经过速度优化、可抓取WEB、FTP及本地文件系统

不详

Methanol

模块化、可定制的网页爬虫,速度快

不详

C#

NWebCrawler

统计信息、执行过程可视化

GPLv2

Sinawler

国内第一个针对微博数据的爬虫程序,功能强大

GPLv3

spidernet

以递归树为模型的多线程web爬虫程序,支持以GBK (gb2312)和utf8编码的资源,使用sqlite存储数据

MIT

Web Crawler

多线程,支持抓取PDF/DOC/EXCEL等文档来源

LGPL

网络矿工

功能丰富,毫不逊色于商业软件

BSD

PHP

OpenWebSpider

开源多线程网络爬虫,有许多有趣的功能

不详

PhpDig

适用于专业化强、层次更深的个性化搜索引擎

GPL

Snoopy

具有采集网页内容、提交表单功能

GPL

ThinkUp

采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行交互分析并将结果以可视化形式展现

GPL

微购

可采集淘宝、京东、当当等300多家电子商务数据

GPL

ErLang

Ebot

可伸缩的分布式网页爬虫

GPLv3

Ruby

Spidr

可将一个或多个网站、某个链接完全抓取到本地

MIT


     五岳之巅原创,转载请注明出处。


  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [开源 爬虫 软件] 推荐:

开源爬虫软件汇总

- - 互联网实践
     世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示. 虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎. 微型爬虫框架,含有一个小型HTML解析器. 由守护进程执行,使用数据库存储网页信息.

开源Python网络爬虫框架Scrapy

- - 互联网实践
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据. 不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了. 一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样.

开源爬虫Labin,Nutch,Neritrix介绍和对比

- - 开源软件 - ITeye博客
larbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在LINUX下,在一台普通PC下larbin每天可以爬5百万个页面(当然啦,需要拥有良好的网络). Larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发. larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源.

开源磁力搜索爬虫dhtspider原理解析

- - 蓝猫的博客 - 分享前端开发经验和教程
开源地址: https://github.com/callmelanmao/dhtspider. 开源的dht爬虫已经有很多了,有php版本的,python版本的和nodejs版本. 经过一些测试,发现还是nodejs版本的爬虫效率最高,测试使用的是github上面的已有开源项目, https://github.com/dontcontactme/p2pspider/.

实用的开源百度云分享爬虫项目yunshare - 安装篇

- - 蓝猫的博客 - 分享前端开发经验和教程
今天开源了一个百度云网盘爬虫项目,地址是 https://github.com/callmelanmao/yunshare. github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发.

开源跟踪软件 Prey

- bin - 开源中国社区最新软件
Prey 可让你全时跟踪你的电话和笔记本,如果它丢了或者被偷了,可以帮你找到它们.

盛大开源软件

- - kernelchina
盛大研究院在其网站 http://www.sndacode.com/projects开源了不少应用. 很多都是上层应用相关,我感兴趣的有如下几个:. 在手机上看code的人估计是个傻帽,但是在PAD上面还可能是一件爽快的事情. 作为google reader的中毒使用者,这个功能还是很有价值的,是盛大电子书的亮点.

网络爬虫

- - 四火的唠叨
文章系本人原创,转载请保持完整性并注明出自 《四火的唠叨》. 最近在写一个程序,去爬热门事件和热门关键词网站上的数据. 网络爬虫也叫做网络蜘蛛,是一种互联网机器人,把需要的网页撷取下来,组织成适当格式存储. 它是搜索引擎的重要组成部分,虽然从技术实现上来说,它的难度往往要小于对于得到的网页信息的处理.

Google 图片爬虫

- - 吴良超的学习笔记
这里的 Google 图片爬虫指的是爬取在 Google 上通过关键词搜索得到的图片,由于最近需要一些特定领域的图片,而且现有的数据库满足不了要求,因此就想通过 Google 搜索筛选出这些特定领域的图片,然后下载下来后再进行人工筛选. 这里采用了两种方法,区别在于是否需要解析网页端的 JS 代码.