教您使用DynamicGecco抓取JD全部商品信息

标签: dynamicgecco jd 全部 | 发表时间:2016-07-18 11:23 | 作者:
出处:http://www.iteye.com

关于gecco爬虫框架

如果对gecco还没有了解可以参看一下gecco的 github首页。gecco爬虫十分的简单易用。之前有一篇文章《 教您使用java爬虫gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章。这里介绍一下DynamicGecco方式,比之前更简单,抓取全部京东商品只要3个类就能搞定了。

什么是DynamicGecco

DynamicGecco的目的是在不定义SpiderBean的情况下实现爬取规则的运行时配置。其实现原理是采用字节码编程,动态生成SpiderBean,而且通过自定义的GeccoClassLoader实现了抓取规则的热部署。通常我们可以利用DynamicGecco实现下面这些特性:

  • 已经定义了ORM(如:hiberante)的bean,将注解动态的加载到ORM的bean中,可以很方便的将页面格式化后入库
  • 很多类似的网站的抓取,SpiderBean都一样,只是提取元素的cssPath不一样,为了不构建很多重复的SpiderBean,可以考虑动态生成SpiderBean
  • 通过配置的方式抓取页面,通过后台管理系统、配置文件等配置抓取规则,动态的将配置规则转换成SpiderBean
  • 利用动态SpiderBean可以构建可视化爬虫,利用可视化工具构建抓取规则,将规则动态转换为SpiderBean

规则定义

爬虫的抓取规则,如matchUrl、csspath、ajax等不需要再使用注解方式注入SpiderBean中,利用DynamicGecco直接定义。下面是抓取全部JD商品的规则定义:

   public static void main(String[] args) {

    //对应原来的Category和HrefBean类
    Class<?> category = DynamicGecco.html()
    .stringField("parentName").csspath("dt a").text().build()
    .listField("categorys", 
            DynamicGecco.html()
            .stringField("url").csspath("a").href().build()
            .stringField("title").csspath("a").text().build()
            .register()).csspath("dd a").build()
    .register();

    //对应原来的AllSort类
    DynamicGecco.html()
    .gecco("http://www.jd.com/allSort.aspx", "consolePipeline", "allSortJsonPipeline")
    .requestField("request").request().build()
    .listField("mobile", category)
            .csspath(".category-items > div:nth-child(1) > div:nth-child(2) > div.mc > div.items > dl").build()
    .register();

    //对应ProductBrief类
    Class<?> productBrief = DynamicGecco.html()
    .stringField("code").csspath(".j-sku-item").attr("data-sku").build()
    .stringField("title").csspath(".p-name> a > em").text().build()
    .stringField("preview").csspath(".p-img > a > img").image("", "data-lazy-img", "src").build()
    .stringField("detailUrl").csspath(".p-name > a").href(true).build()
    .register();

    //对应ProductList类
    DynamicGecco.html()
    .gecco("http://list.jd.com/list.html?cat={cat}&delivery={delivery}&page={page}&JL={JL}&go=0", "consolePipeline", "productListJsonPipeline")
    .requestField("request").request().build()
    .intField("currPage").csspath("#J_topPage > span > b").text().build()
    .intField("totalPage").csspath("#J_topPage > span > i").text().build()
    .listField("details", productBrief).csspath("#plist .gl-item").build()
    .register();

    //对应ProductDetail类
    DynamicGecco.html()
    .gecco("http://item.jd.com/{code}.html", "consolePipeline")
    .stringField("code").requestParameter().build()
    .stringField("title").csspath("#name > h1").text().build()
    .stringField("detail").csspath("#product-detail-2").build()
    .stringField("image").csspath("#spec-n1 img").image("d:/gecco/jd/img").build()
    .field("price", FieldType.type(JDPrice.class)).ajax("http://p.3.cn/prices/get?type=1&pdtk=&pdbp=0&skuid=J_{code}").build()
    .field("jdAd", FieldType.type(JDad.class)).ajax("http://cd.jd.com/promotion/v2?skuId={code}&area=1_2805_2855_0&cat=737%2C794%2C798").build()
    .register();

    HttpGetRequest start = new HttpGetRequest("http://www.jd.com/allSort.aspx");
    start.setCharset("GBK");
    GeccoEngine.create()
    .classpath("com.geccocrawler.gecco.demo.jd")
    .start(start)
    .interval(2000)
    .run();

}

规则定义后,启动GeccoEngine即可,和之前没有两样,可以看出来,之前的例子定义了7个Bean,但是这里只需要一个类就都搞定了。

语法讲解

  • html():定义一个html页面爬虫,对应原来HtmlBean接口。对已经存在的类可以指定参数html(className),如果不定义系统会自动生成类名。
  • json():定义一个json数据的爬虫,对应原来JsonBean接口。对已经存在的类可以指定参数json(className),如果不定义系统会自动生成类名。
  • gecco(matchUrl, pipelines...):定义url匹配模式和pipeline处理器。对应原来@Gecco注解
  • existField(fileName):定义一个存在的属性,用来承载抽取出来的内容,如果属性不存在,不会创建新的属性
  • stringField(fileName):定义一个属性,用来承载抽取出来的内容,如果属性已经存在则复用,如果不存在会生成一个新的属性。目前支持的原始类型属性包括:intField, floatField, longField, doubleField,shortField
  • requestField(fileName):对应HttpRequest类型的属性
  • listField(fileName,memberClass):对应一个list类型属性,memberClass表示List里元素的数据类型
  • field(fileName,memberClass):定义memberClass类型的属性,这是一个比较灵活的定义属性的方式,可以任意指定属性类型
  • csspath(csspath):jsoup的抽取元素规则,对应原来@HtmlField注解
  • text():对应原来@Text注解
  • href():对应原来@Href注解
  • image():对应原来@Image注解
  • attr():对应原来@Attr注解
  • ajax():对应原来@Ajax注解
  • jsonpath():对应原来@JSONPath注解
  • build():构建属性抽取规则
  • loadClass():构建整个Bean,使用GeccoClassLoader加载进JVM
  • register():完成loadClass()并且注册到GeccoEngine(GeccoEngine必须后启动才有效)

JsonPipeline

Pipeline的写法也和之前有所区别,由于是运行时生成的Bean,不能像以前那样直接使用定义的Bean,Gecco会将所有Bean都转换为JSONObject,通过json操作来获取抓取来的信息。下面是DynamicJD定义的两个Pipeline:

类别处理Pipeline,对应原来的AllSortPipeline

   @PipelineName("allSortJsonPipeline")
public class AllSortJsonPipeline extends JsonPipeline {

    public static List<HttpRequest> sortRequests = new ArrayList<HttpRequest>();

    @Override
    public void process(JSONObject allSort) {
        HttpRequest currRequest = HttpGetRequest.fromJson(allSort.getJSONObject("request"));
        JSONArray categorys = allSort.getJSONArray("mobile");
        process(currRequest, categorys);
    }

    private void process(HttpRequest currRequest, JSONArray categorys) {
        if(categorys == null) {
            return;
        }
        for(int i = 0; i < categorys.size(); i++) {
            JSONObject category = categorys.getJSONObject(i);
            JSONArray hrefs = category.getJSONArray("categorys");
            for(int j = 0; j < hrefs.size(); j++) {
                String url = hrefs.getJSONObject(j).getString("url")+"&delivery=1&page=1&JL=4_10_0&go=0";
                SchedulerContext.into(currRequest.subRequest(url));
            }
        }
    }

}

产品列表处理Pipeline,对应原来的ProductListPipeline

   @PipelineName("productListPipeline")
public class ProductListPipeline implements Pipeline<ProductList> {

    @Override
    public void process(ProductList productList) {
        HttpRequest currRequest = productList.getRequest();
        //下一页继续抓取
        int currPage = productList.getCurrPage();
        int nextPage = currPage + 1;
        int totalPage = productList.getTotalPage();
        if(nextPage <= totalPage) {
            String nextUrl = "";
            String currUrl = currRequest.getUrl();
            if(currUrl.indexOf("page=") != -1) {
                nextUrl = StringUtils.replaceOnce(currUrl, "page=" + currPage, "page=" + nextPage);
            } else {
                nextUrl = currUrl + "&" + "page=" + nextPage;
            }
            SchedulerContext.into(currRequest.subRequest(nextUrl));
        }
    }

}

以上三个类就完成了JD全部商品的抓取,是不是足够简单了。那注解方式还有必要用吗?当然还是有必要的,你会发现,DynamicGecco虽然足够简单,但是他的可理解性、可读性还是没有注解方式好,对于Gecco框架的新手我还是建议先从注解方式开始。

动态增加修改规则

DynamicGecco通过自定义的GeccoClassLoader实现了规则的热部署,这个是个很有用的功能,你可以想象,假如你有一个管理后台,通过配置就能实现爬虫规则的定义,写爬虫不需要再开发程序,直接配置一下就可以了,如果管理系统做的足够强大,你甚至可以做成可视化的方式,csspath都不需要自己写了。这里还是以最简单的MyGithub为例讲解动态增加修改规则。

启动爬虫引擎

动态增加修改规则,意味着你可以在没有规则的情况下先启动爬虫引擎。规则可以在你定义好后再加入爬虫引擎。

   //初始化爬虫引擎,此时由于没有初始请求,爬虫引擎会阻塞初始队列,直到获取到初始请求
GeccoEngine ge = GeccoEngine.create("com.geccocrawler.gecco.demo.dynamic")    
    .interval(5000)
    .loop(true)
    .engineStart();

定义爬取规则

爬虫规则的定义和之前讲的基本一致,唯一不同的是register()改成loadClass()。loadClass()用于先启动爬虫引擎后定义规则的场景

   //定义爬取规则
Class<?> rule1 = DynamicGecco
    .html()
    .gecco("https://github.com/xtuhcy/gecco", "consolePipeline")
    .stringField("title").csspath(".repository-meta-content").text(false).build()
    .intField("star").csspath(".pagehead-actions li:nth-child(2) .social-count").text(false).build()
    .intField("fork").csspath(".pagehead-actions li:nth-child(3) .social-count").text().build()
    .loadClass();

注册新的规则

犹豫规则定好后并没有注册,通过下面的方法注册规则:

   //注册规则
ge.register(rule1);

初始请求

加入初始请求队列后,爬虫就开始工作了

   //加入初始请求,爬虫引擎开始工作
ge.getScheduler().into(new HttpGetRequest("https://github.com/xtuhcy/gecco"));

更新规则

如果这时我们希望更新一下抓取规则,比如不想抓star了,我们可以这样更新:

   try {
    //开始更新规则
    ge.beginUpdateRule();
    //修改规则
    Class<?> newRule = DynamicGecco
    .html(rule1.getName())
    .gecco("https://github.com/xtuhcy/gecco", "consolePipeline")
    .intField("fork").csspath(".pagehead-actions li:nth-child(3) .social-count").text().build()
    .removeField("star")
    .loadClass();
    //注册新规则
    ge.register(newRule);
} catch(Exception ex) {
    ex.printStackTrace();
} finally {
    //规则更新完毕
    ge.endUpdateRule();
}

下线已有规则

已经定义好的规则,我们可以将其下线,方法如下:

   try {
    //开始更新规则
    ge.beginUpdateRule();
    //下线之前的规则
    ge.unregister(rule);
} catch(Exception ex) {
    ex.printStackTrace();
} finally {
    //规则更新完毕
    ge.endUpdateRule();
}

到此,爬虫规则的增加/修改/删除都已经实现。可以愉快的配置爬虫规则了!

 

完整的的Demo代码可以参考github上的源代码,位于com.geccocrawler.gecco.demo.dynamic包下。



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [dynamicgecco jd 全部] 推荐:

教您使用DynamicGecco抓取JD全部商品信息

- - ITeye博客
如果对gecco还没有了解可以参看一下gecco的 github首页. 之前有一篇文章《 教您使用java爬虫gecco抓取JD商品信息》,使用的是传统的注解方式,建议看这篇文章前先了解之前的文章. 这里介绍一下DynamicGecco方式,比之前更简单,抓取全部京东商品只要3个类就能搞定了.

系统架构师JD

- - CSDN博客架构设计推荐文章
国内大型的物流企业,专业从事国内公路运输和航空运输代理. Foss项目的架构设计,包括需求分析,模块设计,系统结构设计,关键功能的开发,技术难题的解决,对团队质量输出的把控等等. 1、熟悉WebLogic/Websphere/JBoss等一个以上大型应用服务器,熟悉Linux及应用服务器集群. 2、 具有丰富J2EE架构设计经验,具有大型基于J2EE体系结构的项目规划、系统架构设计、开发经验.

浪漫骑士已经全部阵亡

- daniel - 看上去很猛
  那个年轻人几天后即将出国,他的爱人已经慌张撤退,没有人再像湾流中一条小船上钓鱼的老人一样,能够耗尽漫长的等待. 浪漫爱情跟英雄主义一样,面临穷途末路. 据说她回家后马上开始相亲,他能想象到她坐在一个条件不差的男人面前,慢慢摆弄刀叉,一改往日在他面前的狼吞虎咽. 他依然原地待命,看到对方发来的短信,说“无法忘记他”,只浮现一个欣慰的笑容.

BlueTrip:含有全部功能的 CSS Framework

- - 我爱水煮鱼
前面介绍了只有 1KB 的轻量级 CSS 框架: 1KB CSS Grid,今天介绍一个含有全部功能的 CSS 框架:. Tripoli 的最好的地方组成(名字也是截自 Blueprint 和 Tripoli). 还有 960.gs 的简单性. 以及 Elements 的图标. 所以基本上 BlueTrip 包含其他 CSS 框架的优点,使用它可以让你事半功倍,跳过过去繁重的工作,BlueTrip 的详细功能有:.

Google Chrome扩展开发指南全部翻译工作完成

- beralee - cnBeta.COM
感谢金山说下次我们翻译啥?的投递. 360极速浏览器一批工程师用业余时间完成了Chrome extension developer's guide全部翻译工作,放在360极速浏览器应用开放平台的开发文档里供大家参考学习.

《速度与激情5》全部车型图文详解

- 伤心狼X - 乐淘吧
首先出来砸场的是来自本田的第二代NSX-R,它搭载是由熟练的技术人员组装的3.2L DOHC V6发动机,最大马力290匹,比标准版的NSX多出20匹,1.3吨的整备质量也轻于普通版100kg. 这台NSX-R可非同一般,整车的性能不是几个 功率指数体现出来的,其精髓在于超精细的调教和整车的一流操控.

明日起动车组将全部实现网络售票

- David - cnBeta.COM
9月30日起,全国铁路动车组将全部实现网络售票,旅客可登录www.12306.cn订购车票. 根据铁道部安排,本月底前,全国所有G/D/C字头动车组列车将全部实行网上售票. 今年可谓是旅客购买火车票方式产生重大变革的一年. 随着今年7月北京铁路局开通电话订票业务后,京津城际、京沪高铁等列车陆续进入网络订票范围.

HTC HD7 实机、规格、影片全部露出来了!

- David Z - Engadget 中国版
HTC HD7 这个名字从传闻到真实,到底叫什么名字,也许还会再有一点点改变,但我们己经看到实机外型、规格及展示速度飞快的影片. HTC HD7 规格使用 4.3寸 WVGA TFT 屏幕、1Ghz 处理器、8GB 内存、500万像素自动对焦镜头、双 LED 灯、HD 影片拍摄、支持四频、WIFI 802.11b/g/n、蓝牙 2.1 + EDR、GPS、G-Sensor、3.5mm 耳机、MicroUSB 及 1,300mAh 电池.

快速禁用某个或全部 Chrome 扩展的 Chrome 扩展

- wyman - 谷奥——探寻谷歌的奥秘
也许你已经安装了太多太多的扩展了,而有些扩展可能临时才会用一下,其实不用的时候不如把他们禁用掉,省点内存,也省点屏幕空间. 禁用的好处就是你可以随时在需要的时候启用它,比直接卸载强. Disable All Extensions Plus这枚Chrome扩展就是干这个的,点击它的图标可以看到所有已安装的扩展,想禁用哪个直接点它名字就好了,或者直接禁用全部.

明年元旦起火车票全部实名制

- - 网易头条新闻
本报讯  明年1月1日起,所有旅客列车都将实行实名制购票验票乘车制度. 铁路部门昨晚发布消息,从明天开始,旅客购买明年车票均须凭本人有效身份证件购票. 下月1日(乘车日期)起,全国所有旅客列车实行车票实名制,旅客须凭本人有效身份证件购买车票,并持车票及购票时所使用的乘车人本人有效身份证件原件(免费乘车的儿.