网页抓取工具

标签: 网页抓取 工具 | 发表时间:2013-12-30 23:06 | 作者:qinlinhai
出处:http://www.iteye.com

简介

       Webdup能够把您想要浏览的信息(如网页和图片等)预先下载下来,保存在本地硬盘,使您可以从本地进行离线浏览,这样不仅可以大大减少上网时间,降低上网费用,还可以加快浏览速度;并且将来无须上网就可以很方便地查阅这些信息。不仅如此, Webdup更提供了备份历次下载记录和比较完善的管理功能,使您能够方便地分类保存和管理有价值的下载信息。

原理

       Webdup在下载项目时,从用户设定的"起始地址"开始,如果下载下来的是网页(即HTML文件),则对它进行分析,解析出该网页中包含的所有链接,如果某个链接符合继续下载的条件(根据用户设定的"层数限制","URL过滤"和"文件过滤"等来进行判断),则把该链接加入到下载队列中等待下载。就这样不断的下载和解析,直到所有的链接都被下载且没有新的需要下载的链接产生,项目下载结束。

功能

       支持HTTP和FTP下载,并支持HTTP和Socks5代理服务器;
       支持多线程下载;
       支持断点续传;
       可按URL和文件后缀名设置过滤,只下载所需文件;
       Webdup的过滤设置
       Webdup的过滤设置
       自动识别下载过的文件是否更新过,减少重复下载;
       可设置定时下载和定时停止;
       支持自动拨号和自动挂断;
       可导出和导入项目文件,方便用户交换网上资源;
       提供与浏览器(IE)的整合,方便快速地创建项目;
       支持项目和类别的拖拽操作,方便用户分类管理项目;
       能自动识别操作系统的语言,按需显示中文或英文。

 





已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [网页抓取 工具] 推荐:

网页抓取工具

- - Web前端 - ITeye博客
       Webdup能够把您想要浏览的信息(如网页和图片等)预先下载下来,保存在本地硬盘,使您可以从本地进行离线浏览,这样不仅可以大大减少上网时间,降低上网费用,还可以加快浏览速度;并且将来无须上网就可以很方便地查阅这些信息. 不仅如此, Webdup更提供了备份历次下载记录和比较完善的管理功能,使您能够方便地分类保存和管理有价值的下载信息.

浅谈jsoup网页抓取技术

- - CSDN博客互联网推荐文章
        最近初步接触HTML的页面抓取技术,之前曾涉及较多的是XML解析,对于XML解析方法非常的多,使用dom4j是最方便的. HTML解析似乎用途会更多一些,对于HTML的页面解析却也不甚了解. 查了一些资料,了解到了jsoup页面解析技术,jsoup是一款java的HTML解析器,可以直接解析某个URL地址、HTML文本内容,它提供了一套非常省力的API,可通过DOM,CSS以及类似于jquery的操作方法来取出和操作数据.

python爬虫实践之网页抓取

- - CSDN博客推荐文章
python自带了urllib和urllib2模块,以及第三方的requests库来抓取网页,这里我们使用easy_install包管理工具下载requests库,BeautifulSoup库,在CMD命令行下,切换到easy_install的目录,运行命令easy_install 包名称. 安装好requests包之后,我们就可以选择使用urllib,urllib2或requests库来抓取网页了.

C# HttpHelper帮助类,真正的Httprequest请求时无视编码,无视证书,无视Cookie,网页抓取

- Bloger - 博客园-首页原创精华区
之前我写过篇关于C# HttpWebRequest 绝技的文章 无视证书的方法请在篇文章里面查找谢谢,以下不做无视证书的方法. 无论是Get还是Post 带Cookie,编码问题解决 ,这里完全做到了无视编码的问题. 最近把上面的方法整理了一下,这个类相当于一个SqlHelper类一下,我把它叫做HttpHelper类,以后还会慢慢更新,希望大家多我支持,.

工具小结

- yboren - 博客园-welfear
文档名称:工具小结(Tools Tips) 文档维护:Xuefeng Chang([email protected] @welfear) 文档日期:2010.10.17 find. -name "*.java" | sed 's/.*\///' | \ sort | uniq -c | grep -v "^ *1 " | sort -r 短小精干.

Windows工具集

- - 互联网 - ITeye博客
参考: https://community.rapid7.com/servlet/JiveServlet/downloadBody/2881-102-2-6389/Mitigating%20Service%20Account%20Credential%20Theft%20on%20Windows.pdf.

Geek 漫画:工具

- Yaping - 煎蛋
原作 MANU,由 Oicebot 汉化. 男:我说,与其开车这么大老远过来拍照,我们不如把夏天那张照片在PS里用“色调”选项来改改……. Geek Sexy:旋转木马赛马大赛[v]. 漫画:数码Geek 乱战,他们眼中的对方. Geek Sexy:Cosplay 视频特效大Fight. Geek Sexy:哭泣的PC玩家.

手机:非工具

- 達 - 《商业价值》杂志
手机正在改变世界,因为它正在改变人类本身. 如果有外星人真的在观察人类,他们或许现在正在写下这样的记录:“这个物种正在经历一个剧烈的习性与形态变革期. 其过去100年来的科技爆发已经开始把这个物种带入‘体外进化’阶段——半导体技术正在让这群碳基生命体融合硅基基因,而这种融合已经从被称作‘手机’的沟通设备的‘器官化’开始了.

gdb调试工具

- - CSDN博客系统运维推荐文章
查看帮助一是man 命令,二是进入 www.gnu.org,找到gdb的帮助文档(更详细). gcc -Wall -g main.c -o main,只有这样才能产生调试信息,包括core的调试信息.     run(r)  运行,执行到断点,重新用r,表示重新开始执行.     list(l)  列出源代码,l 2,l main,l 2,16(数字表示行数).

佈署工具 Whiskey_disk

- - ihower { blogging }
(文章是2011年2月的草稿,放著大概也不會更新了,就貼出來吧. 在 舊作 Capistrano 就強調了自動化佈署:. 執行某些 script hook,例如跑 index. 自從 git 主宰之後,一直在找 Capistrano 和 Vald 之外的選擇:. * DeployYML https://github.com/postmodern/deployml 有點像是超簡單版的 whiskey_disk.