基于 Python 的 Scrapy 爬虫入门:代码详解

标签: scrapy python | 发表时间:2017-11-28 00:42 | 作者:大虫
出处:https://segmentfault.com/blogs

一、内容分析

接下来创建一个爬虫项目,以 图虫网 为例抓取里面的图片。在顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为: https://tuchong.com/tags/美女/,我们以此作为爬虫入口,分析一下该页面:

打开页面后出现一个个的图集,点击图集可全屏浏览图片,向下滚动页面会出现更多的图集,没有页码翻页的设置。Chrome右键“检查元素”打开开发者工具,检查页面源码,内容部分如下:

  <div class="content">
    <div class="widget-gallery">
        <ul class="pagelist-wrapper">
            <li class="gallery-item...

可以判断每一个 li.gallery-item是一个图集的入口,存放在 ul.pagelist-wrapper下, div.widget-gallery是一个容器,如果使用 xpath 选取应该是: //div[@class="widget-gallery"]/ul/li,按照一般页面的逻辑,在 li.gallery-item下面找到对应的链接地址,再往下深入一层页面抓取图片。

但是如果用类似 Postman 的HTTP调试工具请求该页面,得到的内容是:

  <div class="content">
    <div class="widget-gallery"></div>
</div>

也就是并没有实际的图集内容,因此可以断定页面使用了Ajax请求,只有在浏览器载入页面时才会请求图集内容并加入 div.widget-gallery中,通过开发者工具查看XHR请求地址为:

  https://tuchong.com/rest/tags/美女/posts?page=1&count=20&order=weekly&before_timestamp=

参数很简单,page是页码,count是每页图集数量,order是排序,before_timestamp为空,图虫因为是推送内容式的网站,因此before_timestamp应该是一个时间值,不同的时间会显示不同的内容,这里我们把它丢弃,不考虑时间直接从最新的页面向前抓取。

请求结果为JSON格式内容,降低了抓取难度,结果如下:

  {
  "postList": [
    {
      "post_id": "15624611",
      "type": "multi-photo",
      "url": "https://weishexi.tuchong.com/15624611/",
      "site_id": "443122",
      "author_id": "443122",
      "published_at": "2017-10-28 18:01:03",
      "excerpt": "10月18日",
      "favorites": 4052,
      "comments": 353,
      "rewardable": true,
      "parent_comments": "165",
      "rewards": "2",
      "views": 52709,
      "title": "微风不燥  秋意正好",
      "image_count": 15,
      "images": [
        {
          "img_id": 11585752,
          "user_id": 443122,
          "title": "",
          "excerpt": "",
          "width": 5016,
          "height": 3840
        },
        {
          "img_id": 11585737,
          "user_id": 443122,
          "title": "",
          "excerpt": "",
          "width": 3840,
          "height": 5760
        },
        ...
      ],
      "title_image": null,
      "tags": [
        {
          "tag_id": 131,
          "type": "subject",
          "tag_name": "人像",
          "event_type": "",
          "vote": ""
        },
        {
          "tag_id": 564,
          "type": "subject",
          "tag_name": "美女",
          "event_type": "",
          "vote": ""
        }
      ],
      "favorite_list_prefix": [],
      "reward_list_prefix": [],
      "comment_list_prefix": [],
      "cover_image_src": "https://photo.tuchong.com/443122/g/11585752.webp",
      "is_favorite": false
    }
  ],
  "siteList": {...},
  "following": false,
  "coverUrl": "https://photo.tuchong.com/443122/ft640/11585752.webp",
  "tag_name": "美女",
  "tag_id": "564",
  "url": "https://tuchong.com/tags/%E7%BE%8E%E5%A5%B3/",
  "more": true,
  "result": "SUCCESS"
}

根据属性名称很容易知道对应的内容含义,这里我们只需关心 postlist 这个属性,它对应的一个数组元素便是一个图集,图集元素中有几项属性我们需要用到:

  • url:单个图集浏览的页面地址
  • post_id:图集编号,在网站中应该是唯一的,可以用来判断是否已经抓取过该内容
  • site_id:作者站点编号 ,构建图片来源链接要用到
  • title:标题
  • excerpt:摘要文字
  • type:图集类型,目前发现两种,一种 multi-photo是纯照片,一种 text是文字与图片混合的文章式页面,两种内容结构不同,需要不同的抓取方式,本例中只抓取纯照片类型,text类型直接丢弃
  • tags:图集标签,有多个
  • image_count:图片数量
  • images:图片列表,它是一个对象数组,每个对象中包含一个 img_id属性需要用到

根据图片浏览页面分析,基本上图片的地址都是这种格式: https://photo.tuchong.com/{site_id}/f/{img_id}.jpg ,很容易通过上面的信息合成。

二、创建项目

  1. 进入cmder命令行工具,输入 workon scrapy 进入之前建立的虚拟环境,此时命令行提示符前会出现 (Scrapy) 标识,标识处于该虚拟环境中,相关的路径都会添加到PATH环境变量中便于开发及使用。
  2. 输入 scrapy startproject tuchong 创建项目 tuchong
  3. 进入项目主目录,输入 scrapy genspider photo tuchong.com 创建一个爬虫名称叫 photo (不能与项目同名),爬取 tuchong.com 域名(这个需要修改,此处先输个大概地址),的一个项目内可以包含多个爬虫

经过以上步骤,项目自动建立了一些文件及设置,目录结构如下:

  (PROJECT)
│  scrapy.cfg
│
└─tuchong
    │  items.py
    │  middlewares.py
    │  pipelines.py
    │  settings.py
    │  __init__.py
    │
    ├─spiders
    │  │  photo.py
    │  │  __init__.py
    │  │
    │  └─__pycache__
    │          __init__.cpython-36.pyc
    │
    └─__pycache__
            settings.cpython-36.pyc
            __init__.cpython-36.pyc
  • scrapy.cfg:基础设置
  • items.py:抓取条目的结构定义
  • middlewares.py:中间件定义,此例中无需改动
  • pipelines.py:管道定义,用于抓取数据后的处理
  • settings.py:全局设置
  • spiders\photo.py:爬虫主体,定义如何抓取需要的数据

三、主要代码

items.py 中创建一个 TuchongItem类并定义需要的属性,属性继承自 scrapy.Field 值可以是字符、数字或者列表或字典等等:

  import scrapy

class TuchongItem(scrapy.Item):
    post_id = scrapy.Field()
    site_id = scrapy.Field()
    title = scrapy.Field()
    type = scrapy.Field()
    url = scrapy.Field()
    image_count = scrapy.Field()
    images = scrapy.Field()
    tags = scrapy.Field()
    excerpt = scrapy.Field()
    ...

这些属性的值将在爬虫主体中赋予。

spiders\photo.py 这个文件是通过命令 scrapy genspider photo tuchong.com 自动创建的,里面的初始内容如下:

  import scrapy

class PhotoSpider(scrapy.Spider):
    name = 'photo'
    allowed_domains = ['tuchong.com']
    start_urls = ['http://tuchong.com/']

    def parse(self, response):
        pass

爬虫名 name,允许的域名 allowed_domains(如果链接不属于此域名将丢弃,允许多个) ,起始地址 start_urls 将从这里定义的地址抓取(允许多个)
函数 parse 是处理请求内容的默认回调函数,参数 response 为请求内容,页面内容文本保存在 response.body 中,我们需要对默认代码稍加修改,让其满足多页面循环发送请求,这需要重载 start_requests 函数,通过循环语句构建多页的链接请求,修改后代码如下:

  import scrapy, json
from ..items import TuchongItem

class PhotoSpider(scrapy.Spider):
    name = 'photo'
    # allowed_domains = ['tuchong.com']
    # start_urls = ['http://tuchong.com/']

    def start_requests(self):
        url = 'https://tuchong.com/rest/tags/%s/posts?page=%d&count=20&order=weekly';
        # 抓取10个页面,每页20个图集
        # 指定 parse 作为回调函数并返回 Requests 请求对象
        for page in range(1, 11):
            yield scrapy.Request(url=url % ('美女', page), callback=self.parse)

    # 回调函数,处理抓取内容填充 TuchongItem 属性
    def parse(self, response):
        body = json.loads(response.body_as_unicode())
        items = []
        for post in body['postList']:
            item = TuchongItem()
            item['type'] = post['type']
            item['post_id'] = post['post_id']
            item['site_id'] = post['site_id']
            item['title'] = post['title']
            item['url'] = post['url']
            item['excerpt'] = post['excerpt']
            item['image_count'] = int(post['image_count'])
            item['images'] = {}
            # 将 images 处理成 {img_id: img_url} 对象数组
            for img in post.get('images', ''):
                img_id = img['img_id']
                url = 'https://photo.tuchong.com/%s/f/%s.jpg' % (item['site_id'], img_id)
                item['images'][img_id] = url

            item['tags'] = []
            # 将 tags 处理成 tag_name 数组
            for tag in post.get('tags', ''):
                item['tags'].append(tag['tag_name'])
            items.append(item)
        return items

经过这些步骤,抓取的数据将被保存在 TuchongItem 类中,作为结构化的数据便于处理及保存。

前面说过,并不是所有抓取的条目都需要,例如本例中我们只需要 type="multi_photo 类型的图集,并且图片太少的也不需要,这些抓取条目的筛选操作以及如何保存需要在 pipelines.py中处理,该文件中默认已创建类 TuchongPipeline 并重载了 process_item 函数,通过修改该函数只返回那些符合条件的 item,代码如下:

  ...
    def process_item(self, item, spider):
        # 不符合条件触发 scrapy.exceptions.DropItem 异常,符合条件的输出地址
        if int(item['image_count']) < 3:
            raise DropItem("美女太少: " + item['url'])
        elif item['type'] != 'multi-photo':
            raise DropItem("格式不对: " + + item['url'])
        else:
            print(item['url'])
        return item
...

当然如果不用管道直接在 parse 中处理也是一样的,只不过这样结构更清晰一些,而且还有功能更多的 FilePipelinesImagePipelines可供使用, process_item将在每一个条目抓取后触发,同时还有 open_spiderclose_spider 函数可以重载,用于处理爬虫打开及关闭时的动作。

注意:管道需要在项目中注册才能使用,在 settings.py 中添加:

   ITEM_PIPELINES = {
    'tuchong.pipelines.TuchongPipeline': 300, # 管道名称: 运行优先级(数字小优先)
}

另外,大多数网站都有反爬虫的 Robots.txt 排除协议,设置 ROBOTSTXT_OBEY = True 可以忽略这些协议,是的,这好像只是个君子协定。如果网站设置了浏览器User Agent或者IP地址检测来反爬虫,那就需要更高级的Scrapy功能,本文不做讲解。

四、运行

返回 cmder 命令行进入项目目录,输入命令:

  scrapy crawl photo

终端会输出所有的爬行结果及调试信息,并在最后列出爬虫运行的统计信息,例如:

  [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 491,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 10224,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 2,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2017, 11, 27, 7, 20, 24, 414201),
 'item_dropped_count': 5,
 'item_dropped_reasons_count/DropItem': 5,
 'item_scraped_count': 15,
 'log_count/DEBUG': 18,
 'log_count/INFO': 8,
 'log_count/WARNING': 5,
 'response_received_count': 2,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2017, 11, 27, 7, 20, 23, 867300)}

主要关注 ERRORWARNING两项,这里的 Warning 其实是不符合条件而触发的 DropItem 异常。

五、保存结果

大多数情况下都需要对抓取的结果进行保存,默认情况下 item.py 中定义的属性可以保存到文件中,只需要命令行加参数 -o {filename} 即可:

  scrapy crawl photo -o output.json # 输出为JSON文件
scrapy crawl photo -o output.csv  # 输出为CSV文件

注意:输出至文件中的项目是未经过 TuchongPipeline 筛选的项目,只要在 parse 函数中返回的 Item 都会输出,因此也可以在 parse 中过滤只返回需要的项目

如果需要保存至数据库,则需要添加额外代码处理,比如可以在 pipelines.pyprocess_item 后添加:

  ...
    def process_item(self, item, spider):
        ...
        else:
            print(item['url'])
            self.myblog.add_post(item) # myblog 是一个数据库类,用于处理数据库操作
        return item
...

为了在插入数据库操作中排除重复的内容,可以使用 item['post_id'] 进行判断,如果存在则跳过。

本项目中的抓取内容只涉及了文本及图片链接,并未下载图片文件,如需下载图片,可以通过两种方式:

  1. 安装 Requests 模块,在 process_item 函数中下载图片内容,同时在保存至数据库时替换为本地图片路径。
  2. 使用 ImagePipelines 管道下载图片(需要额外安装 Pillow 模块),具体使用方法参考文档: https://doc.scrapy.org/en/lat...

上一篇: 基于 Python 的 Scrapy 爬虫入门:环境搭建

相关 [python scrapy 爬虫] 推荐:

开源Python网络爬虫框架Scrapy

- - 互联网实践
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据. 不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了. 一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样.

基于 Python 的 Scrapy 爬虫入门:代码详解

- - SegmentFault 最新的文章
接下来创建一个爬虫项目,以 图虫网 为例抓取里面的图片. 在顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为: https://tuchong.com/tags/美女/,我们以此作为爬虫入口,分析一下该页面:. 打开页面后出现一个个的图集,点击图集可全屏浏览图片,向下滚动页面会出现更多的图集,没有页码翻页的设置.

Scrapy爬虫笔记【1-基本框架】

- - CSDN博客研发管理推荐文章
Scrapy 是一款抓取网页并从中提取结构化数据的应用程序框架,它具有非常广泛的应用场景,如:数据挖掘、信息处理和历史信息归档等. 尽管 Scrapy 最初被设计用于 屏幕抓取(准确地说是 网页抓取),但您也可以仅使用它的 API 来提取数据(就像. Amazon Associates Web Services)或作为通用的网页爬虫来使用.

最全Python爬虫总结

- - CSDN博客综合推荐文章
最近总是要爬取一些东西,索性就把Python爬虫的相关内容都总结起来了,自己多动手还是好. (2)保存爬取的图片/视频和文件和网页. (7)某个网站的站内所有目录爬虫. (9)爬虫框架Scrapy   . 二,保存爬取的图片/视频和文件和网页. #图片/视频和文件和网页的地址抓取下来后,利用模块urllib里的urlretrieve()方法下载下来:.

Python写爬虫与网页解析

- - 互联网实践
Python写个简单爬虫,并作网页解析,还是非常高效的. urllib2是urllib得增强版,httplib更为底层,可以理解为urllib是对httplib的抽象. httplib是一个相对底层的http请求模块,其上有专门的包装模块,如urllib内建模块,goto等第三方模块,但是封装的越高就越不灵活,比如urllib模块里请求错误时就不会返回结果页的内容,只有头信息,对于某些需要检测错误请求返回值的场景就不适用,所以就得用这个模块了.

python爬虫实践之网页抓取

- - CSDN博客推荐文章
python自带了urllib和urllib2模块,以及第三方的requests库来抓取网页,这里我们使用easy_install包管理工具下载requests库,BeautifulSoup库,在CMD命令行下,切换到easy_install的目录,运行命令easy_install 包名称. 安装好requests包之后,我们就可以选择使用urllib,urllib2或requests库来抓取网页了.

网络爬虫框架scrapy介绍及应用——抓取新浪新闻的标题内容评论

- - CSDN博客综合推荐文章
开始这篇博文之前,调研了相关的爬虫方法,简单罗列冰山一角. 手动编写爬虫,httpclient 是常用工具. 常见的请求方式有httpget 和httppost. http://www.yeetrack.com/?p=779 这个教程很全面. httpclient 对js 的支持比较差,有时候需要使用htmlunit 或者selenium.

[python爬虫] Selenium常见元素定位方法和操作的学习介绍

- - CSDN博客编程语言推荐文章
        这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~.         前文目录:.          [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上).

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

- - CSDN博客推荐文章
前一篇文章" [python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID、用户名、微博数、粉丝数、关注数等. 微博信息:包括转发或原创、点赞数、转发数、评论数、发布时间、微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩:.

使用Scrapy来爬取自己的CSDN文章

- - CSDN博客推荐文章
爬虫作为一中数据搜集获取手段,在大数据的背景下,更加得到应用. 我在这里只是记录学习的简单的例子. 大牛可以直接使用python的url2模块直接抓下来页面,然后自己使用正则来处理,我这个技术屌丝只能依赖于框架,在这里我使用的是Scrapy. 首先是python的安装和pip的安装. 在安装Scrapy的过程中,其依赖于 cryptography,在自动安装 cryptography编译的过程中,其缺少了 libffi库,导致Scrapy安装失败.