搜索引擎-信息检索实践—网络爬虫

标签: 搜索引擎 信息检索 实践 | 发表时间:2013-07-31 20:50 | 作者:gls_liujia
出处:http://blog.csdn.net

网络爬虫有两个任务:下载页面和发现URL。

1.从请求队列中取出URL,下载对应页面,解析页面,找到链接标签。

2.网络爬虫发现了没有遇到过的URL,将其加入请求队列。


网络爬虫使用礼貌策略(politeness policy):
网络爬虫不会在特定的网络服务器上一次抓取多个页面,在同一个网络服务器的两次请求之间,网络爬虫会等待一定时间。

管理员可以在网络服务器上保存robots.txt文件,来辅助或者限制搜索引擎抓取页面:
User-agent:标识一个网络爬虫或者一组网络爬虫,受到以下规则约束。
Allow及Disallow:规定哪些资源允许或者不允许user-agent爬取。
第二个命令块指出:允许FavoredCrawler爬取该网站的所有资源。
sitemap: 网站地图中包含URL列表及与相应URL相关的数据,如修改时间、修改频率、重要程度等。网站地图可以告诉搜索引擎管理员希望被索引的数据,网站隐藏的内容(通过表单生成的页面),网络地图还可以使爬虫知道页面的修改时间等。

robots.txt:包含sitemap的引用

sitemap: 告诉搜索引擎该url的“最后修改时间”,“更新频率”,“重要程度”(0.7>0.5)


HTTP有一个特殊的HEAD请求,用于检测网页变化:
Head请求只返回页面的头部信息,不是页面内容。 服务器的响应中包含Last-Modified,指出页面内容最后一次发生变化的时间。网络爬虫对上一次从GET请求接收到的日期和Head请求中得到的Last-Modified的值比较。

HTTP HEAD请求和服务器响应:


网页重复检测:
simhash 指纹计算过程:
1.利用具有权值的特征集合表示文档,例如词组及频率。
2.对每个词生成B位的不同的散列值。
B = 8
3.在B维的向量V中,对每维进行计算:如果词相应位的散列值为1,对特征权值进行加法运算,否则减法运算。
3=-2+1-1-1+1+2-1+1+1+1+1+1-1
4.如果向量V的第i维是正数,将B位的指纹中第i位设为1,否则为0,最终生成B位的指纹。
3>0 , then 1

simhash指纹生成过程:




作者:gls_liujia 发表于2013-7-31 20:50:55 原文链接
阅读:97 评论:0 查看评论

相关 [搜索引擎 信息检索 实践] 推荐:

搜索引擎-信息检索实践—网络爬虫

- - CSDN博客互联网推荐文章
网络爬虫有两个任务:下载页面和发现URL. 1.从请求队列中取出URL,下载对应页面,解析页面,找到链接标签. 2.网络爬虫发现了没有遇到过的URL,将其加入请求队列. 网络爬虫使用礼貌策略(politeness policy):. 网络爬虫不会在特定的网络服务器上一次抓取多个页面,在同一个网络服务器的两次请求之间,网络爬虫会等待一定时间.

SEO实践(2)——让网站对搜索引擎友好

- - SEM WATCH
在该系列文章的第一篇中,提到SEO应该是以数据为基础的,并略为展开写了一些数据方面的准备工作. 数据虽然是非常重要的,但它扮演的角色只能是辅助:发现问题、总结改进、作为决策的参考因素等,但都无法脱离既有的SEO方法而独立存在. 而SEO的方法,应该分为两种或四种: 使网站对搜索引擎友好、使网站对搜索引擎的用户友好.

SEO实践(3)——让网站对搜索引擎的用户友好

- - SEM WATCH
该系列前的两篇文章提及SEO数据的准备工作、以及如何让网站对搜索引擎友好,难以避免的涉及了不少技术层面上的内容. 这篇总算能进入稍微轻松点的话题,因为让网站对搜索引擎的用户友好,只需要我们从常识出发就可以了——尽管往往越是常识越容易成为盲点. 不知是否有人在疑惑,为什么不是对网站自己的用户友好,而是对搜索引擎的用户友好.

[原]基于hadoop搜索引擎实践——二级索引文件(五)

- - long1657的专栏
基于hadoop搜索引擎——二级索引文件.     一般生成的倒排表文件会比源文件暂用空间大,主要是倒排表文件所记录的信息比较详细. 它记录了所有的索引词记录(TERM_RECORD)信息,对于常见的关键词(TERM),其MULTI_INFO可能包含几万甚至几十万个SINGLE_INFO..     由于倒排表文件很大.

Airbnb深度学习搜索引擎实践-模型发展历程 – Semocean

- -
该文章是KDD 2019上发表的Airbnb的搜索引擎主要算法的文章,主要介绍了Airbnb算法的演进历程. 还是Airbnb一贯的朴实无华的风格:不在乎有多少创新,更多是工业界结合业务上的算法工程,该文章很难的是文章中不仅介绍了Airbnb的算法,以及使用该算法的出发点和考虑,同时还记录了中间的各种坑,甚至一些失败的实验,真的是经验的无私分享,写作手法更像各大厂内网的技术总结分享文章.

uSniff:BT种子搜索引擎

- leqoqo - 软件志
一、uSniff相关信息: 1、官方主页:http://www.usniff.com/ 2、简介:uSniff是一个BT种子搜索引擎,简单、易用、实时是其最大的优点,其搜索引擎数据库包含了17个知名种子站点的种子信息,目的是想发展成为世界上最大的BT种子搜索引擎,而且对于每个种子,该搜索引擎都会进行安全认证,以保证用户的正常使用.

资源搜索引擎

- - 不死鸟 - 分享为王官网
易搜 阿里百度夸克网盘搜索. tg中文搜索 电报资源搜索引擎. 千帆搜索 电报资源搜索引擎. 影视搜 影视聚合搜索引擎. 辅助狗 无捆绑软件搜索引擎. 查报告 可查询各行业的分析报告. 学霸盘 课程资料百度网盘. 库问搜索 PDF文献资料搜索.

人眼启发视觉搜索引擎

- feng823 - Solidot
Google上周宣布将支持声音和图片进行搜索,但一家创业公司在图像搜索方面走在了Google前面. 源自伦敦帝国学院研究项目的创业公司Cortexica,开发出视觉搜索工具,通过手机拍摄产品照片,它会自动呈现价格信息. Cortexica已经发布了一个用于比较酒价格的工具WINEfindr. Cortexica的视觉搜索技术是受到了人眼视觉系统的启发,它能识别出一个目标的关键特征,不受方位、大小、光线亮暗的影响.

比较好的学术搜索引擎

- hfut_chen - C++博客-首页原创精华区
     摘要: 1、http://scholar.google.com/. Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数. 略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章.

Blekko 对搜索引擎的新探索

- thinkingit - 知乎的博客
Blekko 这款搜索产品做的如何. 从目前我的使用过程来看,Blekko还是很让人激动的. 在谈Blekko之前就要先问:为何在搜索这个看似已经垄断的行业还会有人想去分一杯羹,这些小团队能与Google或微软这样的巨头抗衡吗. 比如之前的Powerset,后来的Cuil,和现在的Blekko. 在Google之前Yahoo是靠人工收录网页,Google的算法和蜘蛛革了搜索的命,一直垄断搜索业十余年,而现在随着WEB 2.0的发展,让人又看到了搜索业革命的火种,可以说Blekko就是这样的一个产品.