实用的开源百度云分享爬虫项目yunshare - 安装篇

标签: 开源 百度云 分享 | 发表时间:2016-11-18 00:00 | 作者:
出处:https://lanmaowz.com/

今天开源了一个百度云网盘爬虫项目,地址是 https://github.com/callmelanmao/yunshare

百度云分享爬虫项目

github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发

安装

安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务

安装mysql和mongodb,mysql用来保存爬虫数据,mongodb用来保存最终的百度云分享数据,这些数据是json格式的,用mongodb保存更方便。

  git clone https://github.com/callmelanmao/yunshare
cnpm i

推荐使用cnpm命令安装npm依赖,最简单的安装方式

  $ npm install -g cnpm --registry=https://registry.npm.taobao.org

更多安装cnpm的命令可以去 npm.taobao.org上面找。

初始化

爬虫数据(主要是url列表)都是保存在mysql数据库的,yunshare使用sequelizejs做orm映射,源文件在 src/models/index.js,默认的mysql用户名和密码都是root,数据看是yun,你需要手动创建yun数据库

  create database yun default charset utf8

密码根据自己需要进行修改,完成mysql配置之后就可以运行下面的命令

  gulp babel
node dist/script/init.js

注意必须先运行 gulp babel把es6代码编译成es5,然后运行初始化脚本导入初始数据,数据文件在 data/hot.json,里面,是从页面 http://yun.baidu.com/pcloud/friend/gethotuserlist?type=1&from=feed&start=0&limit=24&bdstoken=ac95ef31d3979f6ee707ef75cee9f5c5&clienttype=0&web=1 保存下来的。

启动项目

yunshare使用pm2进行nodejs进程管理,运行 pm2 start process.json启动所有的后台任务,检查任务是否正常运行可以用命令 pm2 list,正常运行的应该有4个任务。

启动elasticsearch索引

elasticsearch索引程序也已经写好了,mapping文件在 data/mapping.json,请确保你已经安装elasticsearch 5.0的版本之后才运行索引程序,命令 pm2 start dist/elastic.js

默认的elasticsearch地址是 http://localhost:9200,如果你需要修改这个地址,可以在`src/ElasticWorker.js`里面修改,修改任何js源码之后记得运行`gulp babel`,在重启pm2任务,不然修改是不会生效的。

在完成elasticsearch配置之后,你也可以在process.json里面添加一项elastic任务,这样就不需要单独启动索引程序了。

DEMO

网盘搜索

下一篇接着介绍整个项目的整体设计思路和开发过程中遇到的问题。

相关 [开源 百度云 分享] 推荐:

实用的开源百度云分享爬虫项目yunshare - 安装篇

- - 蓝猫的博客 - 分享前端开发经验和教程
今天开源了一个百度云网盘爬虫项目,地址是 https://github.com/callmelanmao/yunshare. github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发.

中国首个!百度云宣布边缘计算开源,发布智能边缘开源版本平台OpenEdge

- - 业界
 刚刚12月6日,百度云在2018ABC InspireSUMMIT企业智能大会上宣布,正式发布百度智能边缘(Baidu IntelliEdge,BIE)开源版本OpenneEdge,在中国第一个宣布边缘计算开源. 12月6日,百度副总裁、百度云总经理尹世明现场发布中国首个开源边缘计算平台.  这是百度云继今年5月31日国内第一个发布国内首款智能边缘产品BIE后,在边缘计算领域的又一次重大发布又第一个宣布开源.

Vagrant作者分享开源体会

- - InfoQ cn
Mitchell Hashimoto是一名开源软件工程师, Vagrant项目的作者, Vagrant是一个用Ruby实现的用于构建虚拟化开发平台的工具. 如今 Vagrant已经被无数人使用,并成功获得了两个赞助商做收费技术支持. Mitchell在其博客上,分享了开发开源软件的 经验和心得,这里不仅仅是技术,还有如何做一个好的开源项目维护者,以及如何推广自己的产品.

Syncany : 开源云存储及文件分享工具

- 亚 强 - Wow! Ubuntu
Syncany 是一个开源的云存储及文件分享工具,灵感来源于 Dropbox 和 JungleDisk. 并且所有的数据都是经过本地加密后上传的,保障了安全性. Syncany Launchpad 页面: https://launchpad.net/syncany. Syncany 主页 : http://www.syncany.org/.

重启开源,分享无限--微软面试187题精选

- Feng - 结构之法 算法之道
                      重启开源,分享无限--诚邀你加入微软面试187题的解题中.     我想,只要是稍微浏览过我博客的朋友都知道,本博客内总体上大致分为两个部分的内容:1、算法(如十六个经典算法研究系列);2、面试与编程(涉及到微软面试100题系列,程序员编程艺术系列,海量数据处理面试题集锦等等).

分享一个简单易用的RPC开源项目—Tatala

- - 开源软件 - ITeye博客
这个项目最早(2008年)是用于一个网络游戏的Cache Server,以及一个电子商务的Web Session服务. 后来不断增加新的功能,除了Java还支持C#,到现在已经可以用它来开发网络游戏的服务器. 等过些日子我还会开源网络游戏的服务器源码. 关于性能,当时后台相应请求的效率是每秒10W次,现在我在自己的笔记本上测,只有一个客户端与服务器都在一个物理机上(CPU: i7-3610QM; RAM: 8G; OS: Win7-64),每秒相应12000个请求.

分享两个 Android 开源项目和一个 Doc

- - Trinea
这是首发在我维护的微信公众号 codeKK 上的文章,欢迎大家关注. Android 傻瓜式分包插件. 这是一个可自定义哪些类放在 MainDex 中的插件. ReadMe 中详细介绍了在使用 MultiDex 时,为了解决 MainDex 方法数超标的问题,碰到的一个个坑及如何解决,并列出了详细的参考资料,一篇很不错的文章.

分享一个自己的开源项目-Piebald

- - DiyCode - 致力于构建开发工程师高端交流分享社区社区
这是半年前自己学习Android不到一年的实践项目,肯定会有很不足,敬请指教. 这是一个图片分享应用,图片数据来自加拿大一个免费的图片网站Unsplash.com,上面的图片都是世界各地摄影师的实拍. 现在更新到v2.0.2了,增加了一些特辑和编辑整理两个类别,更多的是一些细节上的优化,比如内存泄漏,还有界面的流畅性的优化,现在开始实习了,时间比较少,但我还是会尽量开发维护的.

[分享创造] 开源一个类微博 twitter 的网站

- - V2EX
网址: https://sserr.net. 代码: https://github.com/coyove/iis. 之前的发布: https://v2ex.com/t/628871. 时隔一个多月,当初的 todo 基本上都清掉了,代码也重构到了开源出去也不会太丢人的程度 XD. 总的来说这是一个类微博的系统,提供了大部分你所熟知的微博功能.