实用的开源百度云分享爬虫项目yunshare - 安装篇

标签: 开源 百度 项目 | 发表时间:2016-11-24 03:59 | 作者:callmelanmao
分享到:
出处:http://www.iteye.com

今天开源了一个百度云网盘爬虫项目,地址是 https://github.com/callmelanmao/yunshare

百度云分享爬虫项目

github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发

安装

安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务

安装mysql和mongodb,mysql用来保存爬虫数据,mongodb用来保存最终的百度云分享数据,这些数据是json格式的,用mongodb保存更方便。

git clone https://github.com/callmelanmao/yunshare cnpm i

推荐使用cnpm命令安装npm依赖,最简单的安装方式

$ npm install -g cnpm --registry=https://registry.npm.taobao.org

更多安装cnpm的命令可以去 npm.taobao.org上面找。

初始化

爬虫数据(主要是url列表)都是保存在mysql数据库的,yunshare使用sequelizejs做orm映射,源文件在 src/models/index.js,默认的mysql用户名和密码都是root,数据看是yun,你需要手动创建yun数据库

create database yun default charset utf8

密码根据自己需要进行修改,完成mysql配置之后就可以运行下面的命令

gulp babel node dist/script/init.js

注意必须先运行 gulp babel把es6代码编译成es5,然后运行初始化脚本导入初始数据,数据文件在 data/hot.json,里面,是从页面  http://yun.baidu.com/pcloud/fr ... b%3D1 保存下来的。

启动项目

yunshare使用pm2进行nodejs进程管理,运行 pm2 start process.json启动所有的后台任务,检查任务是否正常运行可以用命令 pm2 list,正常运行的应该有4个任务。

启动elasticsearch索引

elasticsearch索引程序也已经写好了,mapping文件在 data/mapping.json,请确保你已经安装elasticsearch 5.0的版本之后才运行索引程序,命令 pm2 start dist/elastic.js

默认的elasticsearch地址是 http://localhost:9200,如果你需要修改这个地址,可以在 src/ElasticWorker.js里面修改,修改任何js源码之后记得运行 gulp babel,在重启pm2任务,不然修改是不会生效的。

在完成elasticsearch配置之后,你也可以在process.json里面添加一项elastic任务,这样就不需要单独启动索引程序了。

DEMO

哔哩搜索

下一篇接着介绍整个项目的整体设计思路和开发过程中遇到的问题。



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [开源 百度 项目] 推荐:

百度开源项目推荐

- - ITeye资讯频道
JavaScript 图表库 ECharts. ECharts是一款由百度前端技术部开发的,基于Javascript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表. 提供大量常用的数据可视化图表,底层基于ZRender(一个全新的轻量级canvas类库),创建了坐标系,图例,提示,工具箱等基础组件,并在此上构建出折线图(区域图)、柱状图(条状图)、散点图(气泡图)、饼图(环形图)、K线图、地图、力导向布局图以及和弦图,同时支持任意维度的堆积和多图表混合展现.

实用的开源百度云分享爬虫项目yunshare - 安装篇

- - Web前端 - ITeye博客
今天开源了一个百度云网盘爬虫项目,地址是 https://github.com/callmelanmao/yunshare. github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发.

【其它开源项目→文档在线阅读 DocViwer】DocViewer 是类似百度文库、

- Nick Zhang - Java开源大全
DocViewer 是类似百度文库、豆顶书屋的在线文档阅读程序. 基于JAVA语言,跨平台的文档在线阅读器. <P></P> <P>一个文档在线阅读的JAVA企业级解决方案. </P> <P>该项目已经有成功实施经验,中国平安 国信 等公司的内部投研系统已经使用多时.

开源项目之NeoCrypt

- - CSDN博客推荐文章
一个文件加密解密软件的源代码,可以设置很多著名的加密算法进行加密解密. 它集强力、安全的算法和简单、易用的界面于一身. 它的文件管理界面可以轻易地观看和更改整个系 统的加密设置,也可以加/解密选定的文件,安全地删除文件. 项目需要用到第三方库cryptlib,该库已经放到源码包中. 本程序有一个动态链接库NeoCryptSX与一个主程序Neocrypt组成,NeoCryptSX动态库操作简单,只负责发送调用消息,Neocrypt主程序中封装了Decryptor类负责解码、Encryptor类负责编码,File类负责文件操作、CProgUpdater类负责进度等.

Android优秀开源项目

- - CSDN博客移动开发推荐文章
Android经典的开源项目其实非常多,但是国内的博客总是拿着N年前的一篇复制来复制去,实在是不利于新手学习. 今天爬爬把自己熟悉的一些开源项目整理起来,希望能对 Android开发同学们有所帮助. 另外,如果你有比较好的项目推荐,也烦请在评论里分享出来,我会定期更新博客内容. Apollo音乐播放器:就一个播放器,但是实现的很好.

开源项目 AllJoyn 初识

- - CSDN博客推荐文章
AllJoyn 高通的一个开源项目,针对IoT的. 光看到介绍第一个感觉就是高大上啊. 它要解决的问题是物联网中互联互通的问题,一个好大平台. 从它介绍的PPT的两张图比较一下就会比较清楚了. 第一张图中它描绘的是现状,各个设备厂商虽然都对外提供了物联网接口,云接口,但各个设备没有互联互通,各自为政,群雄割据.

Google正式开源LevelDB项目

- Jie - 新闻 - LUPA开源社区
  Google 宣布 LevelDB 项目开源,使用的开源授权协议为 BSD.   Leveldb是一个google实现的非常高效的kv数据库,目前的版本1.2能够支持billion级别的数据量了. 在这个数量级别下还有着非常高的性能,主要归功.

晒晒我的开源项目们

- zffl - 透明思考 - Thoughts
在等“bundle install”的时候闲着没事,打开 我的Github ,发现还有那么一些东西值得分享一下的. 啤酒游戏 :《 第五项修炼 》里讲的啤酒游戏. 合作的进化 :这就是《 合作的进化 》那本书里讲的生存竞赛游戏. 可以自己写新的策略放进来,看看重复囚徒困境中的最佳策略是如何被选择出来的.

Google code android开源项目(四)

- - CSDN博客推荐文章
一个简洁的android rss阅读器. 创建者写的一些应用包括:闹钟和调节屏幕亮度小工具等. 远程控制winamp(5.5以上版本).  Tesseract OCR(HP实验室开源的)封装的 Android APIs. 使用 visual studio 开发Android NDK C/C++ . android版quake2.