Scrapy爬虫笔记【1-基本框架】

标签: scrapy 爬虫 笔记 | 发表时间:2014-03-09 04:36 | 作者:yixiantian7
出处:http://blog.csdn.net

一、Scrapy 概览

Scrapy 是一款抓取网页并从中提取结构化数据的应用程序框架,它具有非常广泛的应用场景,如:数据挖掘、信息处理和历史信息归档等。

尽管 Scrapy 最初被设计用于 屏幕抓取(准确地说是 网页抓取),但您也可以仅使用它的 API 来提取数据(就像 Amazon Associates Web Services)或作为通用的网页爬虫来使用。

下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。

    

二、组件

    1、Scrapy Engine(Scrapy引擎)

    Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

    2、Scheduler(调度)

    调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。

    3、Downloader(下载器)

    下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

    4、Spiders(蜘蛛)

    蜘蛛是有Scrapy 用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则

    蜘蛛的整个抓取流程(周期)是这样的:

  • 首先 获取第一个URL的初始请求,当请求返回后调取一个回调函数。 第一个请求是通过调用start_requests()方法。该方法默认从 start_urls中的Url中生成请求,并执行解析来调用回调函数。
  • 在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。
  • 在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。
  • 最后,从蜘蛛返回的项目通常会进驻到项目管道。

        5、Item Pipeline(项目管道)

        项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是 清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

        项目管道通常执行的过程有:

  • 清洗HTML数据
  • 验证解析到的数据(检查项目是否包含必要的字段)
  • 检查是否是重复数据(如果重复就删除)
  • 将解析到的数据 存储到数据库中

        6、Downloader middlewares(下载器中间件)

        下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。

        7、Spider middlewares(蜘蛛中间件)

        蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

        8、Scheduler middlewares(调度中间件)

        调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

        三、数据处理流程

  •   

    1. Engine打开一个domain,定位到控制domain的spider,向spider请求第一个url,把这个url作为抓取的对象

    2. Engine从spider得到用来抓取的第一个url,并作为request放到scheduler中,【等于把这个request放到一个任务队列里面,以后每次循环都从第二步开始】——向spider要url

    3. Engine向scheduler请求下一个用来抓取的url【准备使用向spider要来的url】——准备使用url

    4. scheduler返回下一个抓取的url给engine,engine将其发送到downloader,通过downloader middleware(请求方向)【向downloader传送这个正在使用的url】——使用url

    5. 一旦网页完成下载downloader使用下载的页面生成一个response并将其发送到engine,通过downloader middleware(响应方向)【downloader完成对url下载后,返回处理结果】——返回使用结果

    6. engine接收从downloader发来的response并将其发送到spider进行处理,通过spider middleware(输入方向)【把返回结果发送给spider处理】——处理返回结果

    7. spider处理response并返回scraped items和新的request给engine【处理返回结果后得到新的request】——得到新的请求

    8. engine发送由spider返回的scraped item给item pipeline,发送spider返回的request给scheduler【下载的数据放入item pipeline,新的请求放入任务队列】——准备进入下一循环

    9. 重复第二步直到scheduler没有多余的request,此时engine关闭domain

         四、驱动器

        Scrapy是由 Twisted 写的一个受欢迎的Python事件驱动网络框架,它使用的是非堵塞的异步处理。




  • 文章参考

    1 、http://uimeet.com/docs/scrapy/cn/0.15.1/intro/overview.html

    2、http://www.tuicool.com/articles/2uaIve

    3、http://hackecho.com/2012/02/glimpse-of-the-architechture-of-scrapy/

    作者:yixiantian7 发表于2014-3-8 20:36:55 原文链接
    阅读:92 评论:0 查看评论

    相关 [scrapy 爬虫 笔记] 推荐:

    Scrapy爬虫笔记【1-基本框架】

    - - CSDN博客研发管理推荐文章
    Scrapy 是一款抓取网页并从中提取结构化数据的应用程序框架,它具有非常广泛的应用场景,如:数据挖掘、信息处理和历史信息归档等. 尽管 Scrapy 最初被设计用于 屏幕抓取(准确地说是 网页抓取),但您也可以仅使用它的 API 来提取数据(就像. Amazon Associates Web Services)或作为通用的网页爬虫来使用.

    开源Python网络爬虫框架Scrapy

    - - 互联网实践
    所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据. 不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了. 一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样.

    基于 Python 的 Scrapy 爬虫入门:代码详解

    - - SegmentFault 最新的文章
    接下来创建一个爬虫项目,以 图虫网 为例抓取里面的图片. 在顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为: https://tuchong.com/tags/美女/,我们以此作为爬虫入口,分析一下该页面:. 打开页面后出现一个个的图集,点击图集可全屏浏览图片,向下滚动页面会出现更多的图集,没有页码翻页的设置.

    网络爬虫框架scrapy介绍及应用——抓取新浪新闻的标题内容评论

    - - CSDN博客综合推荐文章
    开始这篇博文之前,调研了相关的爬虫方法,简单罗列冰山一角. 手动编写爬虫,httpclient 是常用工具. 常见的请求方式有httpget 和httppost. http://www.yeetrack.com/?p=779 这个教程很全面. httpclient 对js 的支持比较差,有时候需要使用htmlunit 或者selenium.

    使用Scrapy来爬取自己的CSDN文章

    - - CSDN博客推荐文章
    爬虫作为一中数据搜集获取手段,在大数据的背景下,更加得到应用. 我在这里只是记录学习的简单的例子. 大牛可以直接使用python的url2模块直接抓下来页面,然后自己使用正则来处理,我这个技术屌丝只能依赖于框架,在这里我使用的是Scrapy. 首先是python的安装和pip的安装. 在安装Scrapy的过程中,其依赖于 cryptography,在自动安装 cryptography编译的过程中,其缺少了 libffi库,导致Scrapy安装失败.

    如何使用scrapy爬取资源,你懂得

    - - CSDN博客编程语言推荐文章
    前言:有没有看点视频感觉到处都是广告,有没有觉得它的播放速度很慢,不要担心,看完这篇文章你就是老司机了.          scrapy官方文档上说不建议使用这个方法来安装,但是经过我的实验发现官方网站上的安装方法都不好使,ubuntu上的安装文档如下:. 创建之后在文件目录下面就有了初始的项目结构.

    使用Scrapy-redis实现分布式爬取

    - - 标点符
    Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取. 但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来. 而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件.

    网络爬虫

    - - 四火的唠叨
    文章系本人原创,转载请保持完整性并注明出自 《四火的唠叨》. 最近在写一个程序,去爬热门事件和热门关键词网站上的数据. 网络爬虫也叫做网络蜘蛛,是一种互联网机器人,把需要的网页撷取下来,组织成适当格式存储. 它是搜索引擎的重要组成部分,虽然从技术实现上来说,它的难度往往要小于对于得到的网页信息的处理.

    Google 图片爬虫

    - - 吴良超的学习笔记
    这里的 Google 图片爬虫指的是爬取在 Google 上通过关键词搜索得到的图片,由于最近需要一些特定领域的图片,而且现有的数据库满足不了要求,因此就想通过 Google 搜索筛选出这些特定领域的图片,然后下载下来后再进行人工筛选. 这里采用了两种方法,区别在于是否需要解析网页端的 JS 代码.

    JSOUP实现简单爬虫

    - - ITeye博客
    这个说是简单爬虫 其实连个爬虫也算不上吧 功能太精简了.... 流程很简单: 输入几个初始的网页 然后通过JSOUP获取网页中的a标签的href的值. 接着把新得到的地址放入任务队列中. 实现中的worker是一个单线程的派发器 用于产生Parser. Parser用于完成网页的保存 网页的解析 以及入队列操作.