webmagic使用手册

- - 开源软件 - ITeye博客

webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发. webmagic的核心非常简单，但是覆盖爬虫的整个流程，也是很好的学习爬虫开发的材料. web爬虫是一种技术，webmagic致力于将这种技术的实现成本降低，但是出于对资源提供者的尊重，webmagic不会做反封锁的事情，包括：验证码破解、代理切换、自动登录等.

webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发. webmagic的核心非常简单，但是覆盖爬虫的整个流程，也是很好的学习爬虫开发的材料. 作者曾经进行过一年的垂直爬虫的开发，webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架. web爬虫是一种技术，webmagic致力于将这种技术的实现成本降低，但是出于对资源提供者的尊重，webmagic不会做反封锁的事情，包括：验证码破解、代理切换、自动登录、抓取静态资源等.

truelicense使用手册

- - Java - 编程语言 - ITeye博客

1.生成truelicense的maven项目. 2.maven安装并测试maven项目. 3.生成license认证文件. lic.txt文件内容如下. #图形界面操作安装卸载查看证书. 已有 0 人发表留言，猛击->> 这里<<-参与讨论. —软件人才免语言低担保赴美带薪读研.

webmagic 0.3.0 发布，高性能Java爬虫框架

- - 开源中国社区最新新闻

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫. 之前两个版本的主题分别是"灵活"，"方便"，而此次更新的主题是"性能". 重写了XPath解析器，替换了HtmlCleaner. 这个XPath解析器(我另外建立了一个项目 Xsoup)基于Jsoup完成，比HtmlCleaner性能好一倍以上，同时有更友好的错误提示.

TeamToy完全使用手册

- - 方糖气球

这是一份姗姗来迟的使用手册，因为TeamToy之前一直处于heavy develop的状态，一方面是精力有限，另一方面是变动频繁，请大家谅解. 到上周，TeamToy已经拥有了一个比较清晰的框架，于是有了这份文档. 在这里，我们将讲述TeamToy的理念、安装、基本功能的最佳实践、移动客户端、如何对接其他系统、以及插件的使用和开发.

I2P不完全使用手册

- iworm - 月光博客

　　说起I2P或许大家有些陌生，可能没有听说过这个软件，但提起Tor人们都知道这是一个著名的开源匿名网络工具. I2P和Tor一样，也是一个著名的开源匿名网络工具. 和Tor相比，I2P和Tor有很多相似的地方，也有很多不同. 由于人们比较熟悉Tor，那么先从I2P和Tor的比较开始介绍I2P. 　　Tor每次启动时首先需要连接中央目录服务器，除非在短时间内重启Tor.

Ubuntu 菜鸟使用手册（1-4）

- - Ubuntusoft

Ubuntu 12.04 菜鸟使用手册是由友帮拓作者 suruibin写的一份面向Ubuntu 新手的教程文档. 更新源设置（附更新源列表）. 系统托盘问题（解决方法）. Gnome 3 相关使用. 安装Vbox /VM /虚拟机相关教程. 下载列表： http://suruibin.diandian.com/.

[转载]Apache Shiro使用手册

- - 开源软件 - ITeye博客

第一部分 Shiro构架介绍. Apache Shiro是一个强大易用的Java安全框架，提供了认证、授权、加密和会话管理等功能： . 认证 - 用户身份识别，常被称为用户“登录”；. 密码加密 - 保护或隐藏数据防止被偷窥；. 会话管理 - 每用户相关的时间敏感的状态. 对于任何一个应用程序，Shiro都可以提供全面的安全管理服务.

函数	说明
text(n)	第n个文本节点(0表示取所有)
allText()	包括子节点的所有文本
tidyText()	包括子节点的所有文本，并进行智能换行
html()	内部html(不包括当前标签本身)
outerHtml()	外部html(包括当前标签本身)
regex(@attr,expr,group)	正则表达式，@attr是抽取的属性(可省略)，expr是表达式内容，group为捕获组(可省略，默认为0)

webmagic使用手册

下载及安装

使用maven

项目结构

不使用maven

第一个爬虫

定制PageProcessor

使用注解

模块详细介绍

webmagic-core

webmagic-core的模块划分

Spider类(核心调度)

PageProcessor(页面分析及链接抽取)

Downloader(页面下载)

Scheduler(URL管理)

Pipeline(后续处理和持久化)

webmagic-extension

注解模块

TargetUrl

ExtractBy

用于字段

用于类

ExtractByUrl

ComboExtract

类型转换

AfterExtractor

OOSpider

PageModelPipeline

分页

分布式

相关 [webmagic 使用手册] 推荐：

相关文章

订阅