磁力链接爬虫工具magnetW/Config.md at master · dengyuhan/magnetW · GitHub

标签: | 发表时间:2019-08-12 09:55 | 作者:
出处:https://github.com

自定义配置

配置文件在 main/resources/config.properties下,修改配置后需要重新启动项目

    #管理密码 32位小写MD5值
admin.password.md5=

#规则json文件地址(支持URL和本地路径)本地路径以main/resources为根目录
#修改规则后 访问重载规则API可热刷新配置
//rule.json.uri=rule.json
rule.json.uri=https://raw.githubusercontent.com/dengyuhan/magnetW/master/src/main/resources/rule.json

#搜索框占位文字
search.placeholder=钢铁侠
#版本号链接(点击版本号要跳转的链接)
version.link=
#是否开启预加载(开启后会异步缓存下一页,加快下一页的访问速度但会增加性能消耗)
preload.enabled=true

#是否开启tracker服务器 开启后会在新增一列拼接了tracker服务器列表的磁力链接
trackers.enabled=true
#自动更新tracker列表的URL
trackers.update.url=https://raw.githubusercontent.com/ngosang/trackerslist/master/trackers_best.txt
#自动更新tracker列表的间隔时间(单位:小时)
trackers.update.interval.hour=24

#是否开启搜索结果屏蔽功能 屏蔽的数据存储的文件将创建在工程父目录
search.result.filter.enabled=false

#不蒜子统计
#是否开启
busuanzi.enabled=false
#是否在页面上显示(当busuanzi.enabled=true,PC版页面生效)
busuanzi.show=false

#是否忽略需要代理才能访问的源站
proxy.ignore=true
#HTTP代理服务器配置
proxy.enabled=false
proxy.host=127.0.0.1
proxy.port=1087

规则说明

规则Json支持本地文件和网络文件,基于XPath

    {
    "site": "CiLiWiKi",			              //网站名称
    "proxy": false,                           //该网站是否需要代理才能访问
    "group": "//*[@id=\"wall\"]/div[2]/div",  //Item容器XPath
    "magnet": "./div[1]/h3/a/@href",          //磁力链XPath
    "name": "./div[1]/h3/a",                  //显示名称XPath
    "size": "./div[3]/span[2]/b",             //文件大小XPath
    "date": "./div[3]/span[5]/b",             //创建时间XPath
    "hot": "./div[3]/span[4]/b",              //人气热度XPath
    "url": "https://www.ciliwiki.com",        //网站首页
    "paths": { 								  //搜索路径
      "preset": "/search/%s-%d.html",         //默认排序
      "time": "/search/%s-%d-time.html",      //时间排序
      "size": "/search/%s-%d-size.html",      //大小排序
      "hot": "/search/%s-%d-views.html"       //人气排序
    }
  }

获取XPath

group

选中列表其中一个Item,右键元素即可复制这个Item的XPath,示例中选中的是第5个,所以XPath是 //*[@id="wall"]/div[2]/div[5],把索引去掉并转义,所以最终是 //*[@id=\"wall\"]/div[2]/div

控制台用 $x("//*[@id=\"wall\"]/div[2]/div")测试,打印出列表说明XPath正确

magnet | name | size | date | hot

以显示名称为例,选中包含名称的元素,复制出来的XPath是这样 //*[@id="wall"]/div[2]/div[5]/div[1]/h3/a,因为每个属性都是在group下查找的,所以要把 group的部分去掉在前面加 .name的XPath应该是 ./div[1]/h3/a

API

管理API

可以去 在线MD5将密码转成32位小写,然后在 config.properties中填入MD5,即可访问管理API

    admin.password.md5=529ca8050a00180790cf88b63468826a

重载规则
    /api/reload?p=[管理密码]
清除缓存
    /api/clear-cache?p=[管理密码]

数据API

支持返回数据JSON,可以用来扩展其它平台

获取源站列表
    api/source
搜索
    api/search?source=[源站名称]&keyword=[关键字]&sort=[排序类型]&page=[页码]

代理配置

这里以Mac端的SS为例,其它端请自行Google

1.开启HTTP代理

2.在配置文件中填入地址和端口

    proxy.ignore=false
proxy.enabled=true
proxy.host=127.0.0.1
proxy.port=1087

3.重启项目生效

其它说明

  1. Linux的SS大多为服务端,这里需要的是客户端,注意不要用错;
  2. 用的是HTTP代理的端口而不是Socket代理;
  3. 如果是PAC模式,一定要把源站的域名加到PAC里并重启SS;
  4. 要确保你的代理是能访问到源站的,可以通过浏览器是否能够打开源站来验证。

相关 [磁力链接 爬虫 工具] 推荐:

磁力链接爬虫工具magnetW/Config.md at master · dengyuhan/magnetW · GitHub

- -
main/resources/config.properties下,修改配置后需要重新启动项目. 规则Json支持本地文件和网络文件,基于XPath. //该网站是否需要代理才能访问. "group": "//*[@id=\"wall\"]/div[2]/div", //Item容器XPath. 选中列表其中一个Item,右键元素即可复制这个Item的XPath,示例中选中的是第5个,所以XPath是.

Webmagic 一个网络爬虫工具包

- - 行业应用 - ITeye博客
webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发. webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料. 作者曾经进行过一年的垂直爬虫的开发,webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架. web爬虫是一种技术,webmagic致力于将这种技术的实现成本降低,但是出于对资源提供者的尊重,webmagic不会做反封锁的事情,包括:验证码破解、代理切换、自动登录、抓取静态资源等.

网络爬虫

- - 四火的唠叨
文章系本人原创,转载请保持完整性并注明出自 《四火的唠叨》. 最近在写一个程序,去爬热门事件和热门关键词网站上的数据. 网络爬虫也叫做网络蜘蛛,是一种互联网机器人,把需要的网页撷取下来,组织成适当格式存储. 它是搜索引擎的重要组成部分,虽然从技术实现上来说,它的难度往往要小于对于得到的网页信息的处理.

Google 图片爬虫

- - 吴良超的学习笔记
这里的 Google 图片爬虫指的是爬取在 Google 上通过关键词搜索得到的图片,由于最近需要一些特定领域的图片,而且现有的数据库满足不了要求,因此就想通过 Google 搜索筛选出这些特定领域的图片,然后下载下来后再进行人工筛选. 这里采用了两种方法,区别在于是否需要解析网页端的 JS 代码.

JSOUP实现简单爬虫

- - ITeye博客
这个说是简单爬虫 其实连个爬虫也算不上吧 功能太精简了.... 流程很简单: 输入几个初始的网页 然后通过JSOUP获取网页中的a标签的href的值. 接着把新得到的地址放入任务队列中. 实现中的worker是一个单线程的派发器 用于产生Parser. Parser用于完成网页的保存 网页的解析 以及入队列操作.

最全Python爬虫总结

- - CSDN博客综合推荐文章
最近总是要爬取一些东西,索性就把Python爬虫的相关内容都总结起来了,自己多动手还是好. (2)保存爬取的图片/视频和文件和网页. (7)某个网站的站内所有目录爬虫. (9)爬虫框架Scrapy   . 二,保存爬取的图片/视频和文件和网页. #图片/视频和文件和网页的地址抓取下来后,利用模块urllib里的urlretrieve()方法下载下来:.

htmlunit爬虫优化方案

- - 研发管理 - ITeye博客
发现很多人搞爬虫会把python作为首选技术,理由是简单;但是本人最熟悉的还是java,所以对java内存浏览器技术htmlunit做了一次研究,发现原生的htmlunit的性能及对多线程的支持不是那么友好,特别是使用代理ip后,oom是很正常的,监控程序并查看源码总结问题原因:. 1、js执行器执行js是使用多线程执行,在关闭js执行线程的时候,使用com.gargoylesoftware.htmlunit.javascript.background.DefaultJavaScriptExecutor这个类的时候,有段代码.

爬虫需谨慎!那些你不知道的爬虫反爬虫套路 学起来

- - IT瘾-bigdata
爬虫与反爬虫,是一个很不阳光的行业. 第一是,这个行业是隐藏在地下的,一般很少被曝光出来. 很多公司对外都不会宣称自己有爬虫团队,甚至隐瞒自己有反爬虫团队的事实. 这可能是出于公司战略角度来看的,与技术无关. 第二是,这个行业并不是一个很积极向上的行业. 很多人在这个行业摸爬滚打了多年,积攒了大量的经验,但是悲哀的发现,这些经验很难兑换成闪光的简历.

Scrapy爬虫笔记【1-基本框架】

- - CSDN博客研发管理推荐文章
Scrapy 是一款抓取网页并从中提取结构化数据的应用程序框架,它具有非常广泛的应用场景,如:数据挖掘、信息处理和历史信息归档等. 尽管 Scrapy 最初被设计用于 屏幕抓取(准确地说是 网页抓取),但您也可以仅使用它的 API 来提取数据(就像. Amazon Associates Web Services)或作为通用的网页爬虫来使用.

JAVA爬虫Nutch、WebCollector的正则约束

- - CSDN博客互联网推荐文章
爬虫爬取时,需要约束爬取的范围. 基本所有的爬虫都是通过正则表达式来完成这个约束. 代表"http://www.xinhuanet.com/"后加任意个任意字符(可以是0个). 通过这个正则可以约束爬虫的爬取范围,但是这个正则并不是表示爬取新华网所有的网页. 新华网并不是只有www.xinhuanet.com这一个域名,还有很多子域名,类似:news.xinhuanet.com.