Scrapy爬虫笔记【1-基本框架】

标签: scrapy 笔记 框架 | 发表时间:2014-03-08 20:36 | 作者:yixiantian7
出处:http://blog.csdn.net

一、Scrapy 概览

Scrapy 是一款抓取网页并从中提取结构化数据的应用程序框架,它具有非常广泛的应用场景,如:数据挖掘、信息处理和历史信息归档等。

尽管 Scrapy 最初被设计用于 屏幕抓取(准确地说是 网页抓取),但您也可以仅使用它的 API 来提取数据(就像 Amazon Associates Web Services)或作为通用的网页爬虫来使用。

下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。

    

二、组件

    1、Scrapy Engine(Scrapy引擎)

    Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

    2、Scheduler(调度)

    调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。

    3、Downloader(下载器)

    下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

    4、Spiders(蜘蛛)

    蜘蛛是有Scrapy 用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则

    蜘蛛的整个抓取流程(周期)是这样的:

  • 首先 获取第一个URL的初始请求,当请求返回后调取一个回调函数。 第一个请求是通过调用start_requests()方法。该方法默认从 start_urls中的Url中生成请求,并执行解析来调用回调函数。
  • 在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。
  • 在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。
  • 最后,从蜘蛛返回的项目通常会进驻到项目管道。

        5、Item Pipeline(项目管道)

        项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是 清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

        项目管道通常执行的过程有:

  • 清洗HTML数据
  • 验证解析到的数据(检查项目是否包含必要的字段)
  • 检查是否是重复数据(如果重复就删除)
  • 将解析到的数据 存储到数据库中

        6、Downloader middlewares(下载器中间件)

        下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。

        7、Spider middlewares(蜘蛛中间件)

        蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

        8、Scheduler middlewares(调度中间件)

        调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

        三、数据处理流程

  •   

    1. Engine打开一个domain,定位到控制domain的spider,向spider请求第一个url,把这个url作为抓取的对象

    2. Engine从spider得到用来抓取的第一个url,并作为request放到scheduler中,【等于把这个request放到一个任务队列里面,以后每次循环都从第二步开始】——向spider要url

    3. Engine向scheduler请求下一个用来抓取的url【准备使用向spider要来的url】——准备使用url

    4. scheduler返回下一个抓取的url给engine,engine将其发送到downloader,通过downloader middleware(请求方向)【向downloader传送这个正在使用的url】——使用url

    5. 一旦网页完成下载downloader使用下载的页面生成一个response并将其发送到engine,通过downloader middleware(响应方向)【downloader完成对url下载后,返回处理结果】——返回使用结果

    6. engine接收从downloader发来的response并将其发送到spider进行处理,通过spider middleware(输入方向)【把返回结果发送给spider处理】——处理返回结果

    7. spider处理response并返回scraped items和新的request给engine【处理返回结果后得到新的request】——得到新的请求

    8. engine发送由spider返回的scraped item给item pipeline,发送spider返回的request给scheduler【下载的数据放入item pipeline,新的请求放入任务队列】——准备进入下一循环

    9. 重复第二步直到scheduler没有多余的request,此时engine关闭domain

         四、驱动器

        Scrapy是由 Twisted 写的一个受欢迎的Python事件驱动网络框架,它使用的是非堵塞的异步处理。




  • 文章参考

    1 、http://uimeet.com/docs/scrapy/cn/0.15.1/intro/overview.html

    2、http://www.tuicool.com/articles/2uaIve

    3、http://hackecho.com/2012/02/glimpse-of-the-architechture-of-scrapy/

    作者:yixiantian7 发表于2014-3-8 20:36:55 原文链接
    阅读:92 评论:0 查看评论

    相关 [scrapy 笔记 框架] 推荐:

    Scrapy爬虫笔记【1-基本框架】

    - - CSDN博客研发管理推荐文章
    Scrapy 是一款抓取网页并从中提取结构化数据的应用程序框架,它具有非常广泛的应用场景,如:数据挖掘、信息处理和历史信息归档等. 尽管 Scrapy 最初被设计用于 屏幕抓取(准确地说是 网页抓取),但您也可以仅使用它的 API 来提取数据(就像. Amazon Associates Web Services)或作为通用的网页爬虫来使用.

    开源Python网络爬虫框架Scrapy

    - - 互联网实践
    所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据. 不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了. 一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样.

    网络爬虫框架scrapy介绍及应用——抓取新浪新闻的标题内容评论

    - - CSDN博客综合推荐文章
    开始这篇博文之前,调研了相关的爬虫方法,简单罗列冰山一角. 手动编写爬虫,httpclient 是常用工具. 常见的请求方式有httpget 和httppost. http://www.yeetrack.com/?p=779 这个教程很全面. httpclient 对js 的支持比较差,有时候需要使用htmlunit 或者selenium.

    使用Scrapy来爬取自己的CSDN文章

    - - CSDN博客推荐文章
    爬虫作为一中数据搜集获取手段,在大数据的背景下,更加得到应用. 我在这里只是记录学习的简单的例子. 大牛可以直接使用python的url2模块直接抓下来页面,然后自己使用正则来处理,我这个技术屌丝只能依赖于框架,在这里我使用的是Scrapy. 首先是python的安装和pip的安装. 在安装Scrapy的过程中,其依赖于 cryptography,在自动安装 cryptography编译的过程中,其缺少了 libffi库,导致Scrapy安装失败.

    如何使用scrapy爬取资源,你懂得

    - - CSDN博客编程语言推荐文章
    前言:有没有看点视频感觉到处都是广告,有没有觉得它的播放速度很慢,不要担心,看完这篇文章你就是老司机了.          scrapy官方文档上说不建议使用这个方法来安装,但是经过我的实验发现官方网站上的安装方法都不好使,ubuntu上的安装文档如下:. 创建之后在文件目录下面就有了初始的项目结构.

    使用Scrapy-redis实现分布式爬取

    - - 标点符
    Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取. 但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来. 而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件.

    笔记

    - 毛毛 - 游戏人生
    我关于写代码的一些琐碎的看法. 之前没有把 Paul Graham 的 <黑客与画家> 一书读完, 上周就从同事那里把书带回家, 也一直没读, 到这周才有时间读完. 很久没有更新了 (一看时间, 整整 5 个月), 顺便把这篇写了几个月的感想放出来.. 这本书前面 8 章讲述的内容, 大多是我并不太感兴趣的, 比如财富, 比如创业.

    PHP框架 Yaf

    - Le - 开源中国社区最新软件
    Yaf是一个C语言编写的PHP框架,Yaf 的特点: 用C语言开发的PHP框架, 相比原生的PHP, 几乎不会带来额外的性能开销. 所有的框架类, 不需要编译, 在PHP启动的时候加载, 并常驻内存. 更短的内存周转周期, 提高内存利用率, 降低内存占用率. 支持全局和局部两种加载规则, 方便类库共享.

    Textmate笔记

    - Sean Lee - Reborn
    过去在Windows上还真的没有怎么太在意文本编辑器(也跟自己不是职业程序员有点关系吧. ),近来常在Mac上使用Textmate,真觉得一款好的文本编辑器实在非常必要. Textmate售价$58,很多人觉得贵,不过它真的不错. 为Finder加上“Open in textmate”按钮. 作者Henrik的主页上有详细的介绍.

    OSX 笔记

    - - C++博客-首页原创精华区
    在vbox中安装10.7的方法:. 首先使用OS_X_Lion.iso.torrent下载操作系统的iso文件. 直接使用OS_X_Lion.iso安装,安装完之后使用HJMac.iso进行启动. 在win7 64bit上通过,但是在linux上没有通过. 升级,可以把10.7升级为10.7.4,方法是去苹果官方 http://support.apple.com/downloads 网站下载:.