写了个电影搜索引擎 – 十万电影资源分享哦

标签: 我的分享 | 发表时间:2012-10-12 02:44 | 作者:Xiaoxia
出处:http://xiaoxia.org

好吧,做了一个很疯狂的东西! http://movie.readself.com/

平常我想要看电影的时候,总是需要在Google或者Baidu里搜索很长时间才能找到一个下载链接。

比如说,我想看《黑天鹅》,我就去Google里搜索:

ext:mkv Black Swan

然后就搜出种子或者下载链接了。那么这一个过程,是否可以简化呢?是否可以预先搜集好每个影片的下载链接,然后存到数据库里,方便我想看电影的时候直接调出来下载呢?所以就这样萌生了写个爬虫的想法!最初还是听说 荣哥写了一个爬虫放在学校的服务器爬了3个小时,就把100万首音乐资料全部下载了。我后来本想跟随荣哥的足迹的,但突然觉得电影对于我来说比音乐更重要些。预祝荣哥顺利踏上去谷歌山景城总部的愉快旅程 :)

结合我之前做博客搜索引擎的经验,这次做一个电影资源搜索引擎吧!除了自己使用之外,还可以推荐给身边的各位朋友使用。私底下分享即可!

为了搜集这些电影资料,写了n多个爬虫,分别干不同的事情,整合了几个站点的资源。幸好教育网网速还行,每次基本上都可以用几个小时就爬完我需要的影片信息。不同站点的资源的整合,也写了不少程序来智能匹配。比如说,我现在有100多万的电影下载地址或者种子,我怎么跟我的影片信息库关联起来呢?按照我以往做文本分析的经验,通过计算链接和影片信息之间的联系程度,取关联程度最高的一个进行匹配。尽管如此,我发现还是有5%左右的影片的下载地址是错误的,比如2012。因为这个根据这个数字直接匹配2012年的片子了……

在下载链接的列表里,我做了一个简单的排名,把尽量与影片关联程度最高的,以及高清和速度好的链接排在前面。通过这样保证第一个下载链接的可靠性!

这次搜集电影信息的存储没有使用MySQL了,而是使用了MongoDB,性能很好,CPU占用少,用起来很方便,一点也不像MySQL那么繁琐啊。不过在吃光了内存之后,写入硬盘的时候,速度就太坑爹了,硬盘灯常亮啊,Firefox直接卡死,开了100个线程,CPU和网络利用率还是很低!因为爬虫一开始都把网页内容直接塞到MongoDB里,所以爬完后,信息内容的大小超过30GB了(包括小尺寸的海报)。写了几个脚本把影片信息提取出来,去掉了冗余数据,最后剩下10GB,上传到readself.com的VPS(内存512M,硬盘20G)上,跑起来妥妥的,搜索速度也很快!!!

分享地址: http://movie.readself.com/

看吧,小虾过了一段时间又给大家带来好玩的东西了!我本人在Linux下使用KTorrent,在Windows使用μTorrent,下载速度都很给力!用迅雷也可以下载磁力链接的文件。

给朋友们使用一下,觉得好,请评论啊 :D

相关 [电影 搜索引擎 十万] 推荐:

写了个电影搜索引擎 – 十万电影资源分享哦

- - Xiaoxia[PG]
平常我想要看电影的时候,总是需要在Google或者Baidu里搜索很长时间才能找到一个下载链接. 比如说,我想看《黑天鹅》,我就去Google里搜索:. 然后就搜出种子或者下载链接了. 那么这一个过程,是否可以简化呢. 是否可以预先搜集好每个影片的下载链接,然后存到数据库里,方便我想看电影的时候直接调出来下载呢.

uSniff:BT种子搜索引擎

- leqoqo - 软件志
一、uSniff相关信息: 1、官方主页:http://www.usniff.com/ 2、简介:uSniff是一个BT种子搜索引擎,简单、易用、实时是其最大的优点,其搜索引擎数据库包含了17个知名种子站点的种子信息,目的是想发展成为世界上最大的BT种子搜索引擎,而且对于每个种子,该搜索引擎都会进行安全认证,以保证用户的正常使用.

资源搜索引擎

- - 不死鸟 - 分享为王官网
易搜 阿里百度夸克网盘搜索. tg中文搜索 电报资源搜索引擎. 千帆搜索 电报资源搜索引擎. 影视搜 影视聚合搜索引擎. 辅助狗 无捆绑软件搜索引擎. 查报告 可查询各行业的分析报告. 学霸盘 课程资料百度网盘. 库问搜索 PDF文献资料搜索.

人眼启发视觉搜索引擎

- feng823 - Solidot
Google上周宣布将支持声音和图片进行搜索,但一家创业公司在图像搜索方面走在了Google前面. 源自伦敦帝国学院研究项目的创业公司Cortexica,开发出视觉搜索工具,通过手机拍摄产品照片,它会自动呈现价格信息. Cortexica已经发布了一个用于比较酒价格的工具WINEfindr. Cortexica的视觉搜索技术是受到了人眼视觉系统的启发,它能识别出一个目标的关键特征,不受方位、大小、光线亮暗的影响.

比较好的学术搜索引擎

- hfut_chen - C++博客-首页原创精华区
     摘要: 1、http://scholar.google.com/. Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数. 略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章.

Blekko 对搜索引擎的新探索

- thinkingit - 知乎的博客
Blekko 这款搜索产品做的如何. 从目前我的使用过程来看,Blekko还是很让人激动的. 在谈Blekko之前就要先问:为何在搜索这个看似已经垄断的行业还会有人想去分一杯羹,这些小团队能与Google或微软这样的巨头抗衡吗. 比如之前的Powerset,后来的Cuil,和现在的Blekko. 在Google之前Yahoo是靠人工收录网页,Google的算法和蜘蛛革了搜索的命,一直垄断搜索业十余年,而现在随着WEB 2.0的发展,让人又看到了搜索业革命的火种,可以说Blekko就是这样的一个产品.

Mr.Icons:图标icon搜索引擎

- 壮壮爱 - 够趣堂
之前Anliu在如何更换更好的icon文章里面推荐了4个icon搜索引擎,目前部分已经不复存在. 不过Mr.Icons倒是又一个不错的选择,可以搜索图标icon进行下载,有PNG、ico格式以及不同大小提供下载. Mr.Icons还提供图标icon集打包下载,比如动物图标等. 和之前的介绍几款搜索引擎一样,依然不支持中文.

迅搜全文搜索引擎 XunSearch

- Le - 开源中国社区最新软件
迅搜(xunsearch)是采用 C/C++ 基于 xapian 和 scws 开发的全文搜索引擎解决方案,提供 PHP 语言的开发接口. 支持海量数据高速检索,功能强大,简单易用. 本项目旨在帮助一般开发者针对既有的海量数据,快速而方便地建立自己的全文搜索引擎. 全文检索可以帮助您降低服务器搜索负荷、极大程度的提高搜索速度和用户体验.

搜索引擎的特殊用法

- iVane - 崔凯,前端开发
下周组内分享要讨论“工具”,介绍几个搜索引擎的特殊用法,凑凑数:. 通配符,这么搜可以得到“崔凯前端开发”,也能得到“崔凯大连开发” 崔凯*开发. 用于搜索查询词出现在URL中的页面. 由于关键词出现在URL中对排名有一定影响,因此使用inurl:搜索也是定位竞争对手的一种方式. 该指令搜索结果返回的是页面title中包含关键词的页面.

美国购物搜索引擎评测

- - 月光博客
  专注于购物搜索引擎领域的CPCStrategy在其博客中对美国众多流行的购物搜索引擎在2012年第一季度的流量、收入以及转化率等方面进行了全面的分析与对比,其中的一些发现不管是对商家还是消费者都非常有价值. 我们对其进行了编译,希望对大家有帮助.   这项分析的数据样本主要来自CPCStrategy的100多位客户,涵盖约427万次点击,约8.3万张订单,约116万美金的营销成本以及所带来的约787万美金的收入.