比较PageRank算法和HITS算法的优缺点

标签: 搜索引擎 | 发表时间:2012-04-26 15:55 | 作者:黄言之
出处:http://blog.sina.com.cn/netreview

1998年,Sergey Brin和Lawrence Page[1]提出了PageRank算法。该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性。该算法认为从网页A导向网页B的链接可以看作是页面A对页面B的支持投票,根据这个投票数来判断页面的重要性。当然,不仅仅只看投票数,还要对投票的页面进行重要性分析,越是重要的页面所投票的评价也就越高。根据这样的分析,得到了高评价的重要页面会被给予较高的PageRank值,在检索结果内的名次也会提高。PageRank是基于对“使用复杂的算法而得到的链接构造” 的分析,从而得出的各网页本身的特性。
HITS 算法是由康奈尔大学( Cornell University ) 的JonKleinberg 博士于1998 年首先提出。Kleinberg认为既然搜索是开始于用户的检索提问,那么每个页面的重要性也就依赖于用户的检索提问。他将用户检索提问分为如下三种:特指主题检索提问(specific queries,也称窄主题检索提问)、泛指主题检索提问(Broad-topic queries,也称宽主题检索提问)和相似网页检索提问(Similar-page queries)。HITS算法专注于改善泛指主题检索的结果。
Kleinberg将网页(或网站)分为两类,即hubs和authorities,而且每个页面也有两个级别,即hubs(中心级别)和authorities(权威级别)。Authorities是具有较高价值的网页,依赖于指向它的页面;hubs为指向较多authorities的网页,依赖于它指向的页面。HITS算法的目标就是通过迭代计算得到针对某个检索提问的排名最高的authority的网页。
通常HITS算法是作用在一定范围的,例如一个以程序开发为主题的网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量authority和hub值进行更新直至收敛。
从上面的分析可见,PageRank算法和HITS算法都是基于链接分析的搜索引擎排序算法,并且在算法中两者都利用了特征向量作为理论基础和收敛性依据。虽然两种算法均为链接分析算法,但两者之间还是有明显的区别的。HITS算法计算的authority值只是相对于某个检索主题的权重,因此HITS算法也常被称为Query-dependent算法;而PageRank算法是独立于检索主题,因此也常被称为Query-independent算法。
PageRank算法的优点在于它对互联网上的网页给出了一个全局的重要性排序,并且算法的计算过程是可以离线完成的,这样有利于迅速响应用户的请求。不过,其缺点在于主题无关性,没有区分页面内的导航链接、广告链接和功能链接等,容易对广告页面有过高评价;另外,PageRank算法的另一弊端是,旧的页面等级会比新页面高,因为新页面,即使是非常好的页面,也不会有很多链接,除非他是一个站点的子站点。这就是PageRank需要多项算法结合的原因。
HITS算法的优点在于它能更好地描述互联网的组织特点,由于它只是对互联网中的很小的一个子集进行分析,所以它需要的迭代次数更少,收敛速度更快,减少了时间复杂度。但HITS算法也存在如下缺点:中心网页之间的相互引用以增加其网页评价,当一个网站上的多篇网页指向一个相同的链接,或者一个网页指向另一个网站上的多个文件时会引起评分的不正常增加,这会导致易受“垃圾链接”的影响;网页中存在自动生成的链接;主题漂移,在邻接图中经常包括一些和搜索主题无关的链接,如果这些链接自身也是中心网页或权威网页就会引起主题漂移:对于每个不同的查询算法都需要重新运行一次来获取结果。这使得它不可能用于实时系统,因为对于上千万次的并发查询这样的开销实在太大。
PageRank算法和HITS算法都是客观的描述了网页之间的本质特征,但是它们都很少考虑到用户浏览习惯时的主题相关性。
Hilltop算法:
HillTop,是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利。HillTop算法的指导思想和PageRank是一致的,即都通过反向链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。在1999-2000年,当这个算法被Bharat与其他Google开发人员开发出来的时候,他们称这种对主题有影响的文档为“专家”文档,而只有从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。
Hilltop算法的过程:首先计算查询主题最相关的“专家”资源列表;其次在选中的“专家”集中识别相关的链接,并追踪它们以识别相关的网页目标;然后将目标根据非关联的指向它们的“专家”数量和相关性排序。由此,目标网页的得分反映了关于查询主题的最中立的专家的集体观点。如果这样的专家池不存在,Hilltop不会给出结果。
从Hilltop算法过程可见,该算法包括两个主要的方面:寻找专家;目标排序。通过对搜索引擎抓取的网页进行预处理,找出专家页面。对于一个关键词的查询,首先在专家中查找,并排序返回结果。
权威页面是对于一个查询主题来说最好的专家指向的页面。专家也有可能在更宽泛的领域或其它领域的主题上也是专家。在专家页面中只有一部分链接与主题相关。因此,把查询主题的专家中相关的外向链接合并,以找到查询主题相关页面高度认可的页面。
从排名在前的匹配专家页面和相联系的匹配信息中选择专家页面中一个超链接的子集。尤其选择那些与所有的查询相关的链接。基于这些选中的链接找出一个它们的目标子集作为查询主题最相关的网页。这个目标子集包含至少被两个非亲属的专家页面链接到的网页。目标集根据指向它们的专家的综合成绩来排序。
Hilltop在应用中还存在一些不足。专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。Hiltop忽略了大多数非专家页面的影响。在Hiltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面代表整个互联网。Hiltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hiltop适合于对查询排序进行求精,而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的,这与前面提到的HITS算法一样会影响查询响应时间。随着专家页面集合的增大,算法的可伸缩性存在不足之处。
Direct Hit 算法
与前面的算法相比,Ask Jeeves公司的Direct Hit算法是一种注重信息的质量和用户反馈的排序方法。它的基本思想是,搜索引擎将查询的结果返回给用户,并跟踪用户在检索结果中的点击。如果返回结果中排名靠前的网页被用户点击后,浏览时间较短,用户又重新返回点击其它的检索结果,那么可以认为其相关度较差,系统将降低该网页的相关性。另一方面,如果网页被用户点击打开进行浏览,并且浏览的时间较长,那么该网页的受欢迎程度就高,相应地,系统将增加该网页的相关度。可以看出,在这种方法中,相关度在不停地变化,对于同一个词在不同的时间进行检索,得到结果集合的排序也有可能不同,它是一种动态排序。
该算法的优点是能够节省大量时间,因为用户阅读的是从搜索结果中筛选出来的更加符合要求的结果。同时,这种算法直接融入用户的反馈信息,能够保证页面的质量。然而,统计表明,Direct Hit算法只适合于检索关键词较少的情况,因为它实际上并没有进行排序,而是一种筛选和抽取,在检索数据库很大、关键词很多的时候,返回的搜索结果成千上万,用户不可能一一审阅。因此,这种方式也不能作为主要的排序算法来使用,而是一种很好的辅助排序算法,目前在许多搜索引擎当中仍然在使用。

参考文献
1. S. Brin, L. Page. Anatomy of a Large - Scale HypertextualWeb Search Engine. Proc. 7th International World Wide Web Conference, 1998
2. Jon M. Kleinberg. Authoritative Sources in a Hyperlinked Environment. Journal of the ACM, 1999; 46(5)
3. Krishna Bharat. Hilltop: A Search Engine based on Expert Documents. Department of Computer Science University of Toronto 2004
4. Gary Culliss. Method for organizing information. United States Patent. Patent number:6014665

相关 [pagerank 算法 hits] 推荐:

比较PageRank算法和HITS算法的优缺点

- - 互联网旁观者
1998年,Sergey Brin和Lawrence Page[1]提出了PageRank算法. 该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性. 该算法认为从网页A导向网页B的链接可以看作是页面A对页面B的支持投票,根据这个投票数来判断页面的重要性. 当然,不仅仅只看投票数,还要对投票的页面进行重要性分析,越是重要的页面所投票的评价也就越高.

[转]排名算法(一)--PageRank

- - 工作笔记
转自: https://blog.csdn.net/isuccess88/article/details/70339759. PageRank是Google研发的主要应用于评估网站可靠度和重要性的一种算法,是进行网页排名的考量指标之一. 本文将对PageRank的原理进行讲解,并以此为出发点介绍如何利用Transwarp Data Hub的Graphene在实际中满足相关分析需求.

搜索引擎链接算法之:HITS算法解析

- - CSDN博客推荐文章
本文节选自《 这就是搜索引擎:核心技术详解》第六章.       HITS算法也是链接分析中非常基础且重要的算法,目前已被Teoma搜索引擎(www.teoma.com)作为链接分析算法在实际中使用. 6.4.1 Hub页面与Authority页面.      Hub页面和Authority页面是HITS算法最基本的两个定义.

主题敏感PageRank (Topic-Sensitive PageRank)

- - CSDN博客推荐文章
        前面的讨论提到. PageRank忽略了主题相关性,导致结果的. 相关性和主题性降低,对于不同的用户,甚至有很大的差别. 例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画. 理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行.

pagerank 与 相关度

- - 张沈鹏
我总是能搜索到我以前整理的文章. 我一直很困惑 pagerank 和 相关度怎么做整合. 晚上开始蒸腾搜索 研究了一下 摘录一点. 虽然每个搜索引擎都严格保密各自的明确的搜索算法,但是搜索引擎分析人士相信搜索引擎结果(排名列表)是“Page Relevance”与“PageRank”. 如果在Google上进行广泛搜索,看起来好象有几千个结果,但实际显示最多前1,000项结果.

网页重要性与PageRank的理解

- - CSDN博客互联网推荐文章
首先不要混淆网页重要性和网页相关性. 相关性:搜索关键字和某一网页之间相关的程度,主要是tf-idf值(最简单:tf*idf)来衡量. 重要性:网页之间重要程度的比较,或者说是网页质量的衡量,主要用pagerank算法计算. of course,搜索关键字搜索引擎给出的应该是重要性和相关性的结合结果.

PageRank 在 40 天里连续更新三次

- Jason - 谷奥——探寻谷歌的奥秘
感谢读者 英文SEO 和 安卓吧 的爆料. PageRank今天再次更新,这也是40天内的第三次更新,前两次是6月27日和7月18日,而7月18日那次号称是6月27日那次的修复更新,修复了之前PageRank更新后的数值错误(包括错误的将Google.com的PageRank从10降级到9). 英文SEO还发现现此次更新的多为无PR的新站.

你的网站价值几何?让PageRank告诉你答案

- Doublel - SQYBI.com
本文同时发表在果壳网死理性派栏目,传送门:http://www.guokr.com/article/65304/. 因为字数原因,所以编辑对死理性派上发表的文章进行了一定的删减和修正. 这里发出的是未删减的版本,表示“太理性了,看不懂”的童鞋们可以来围观此文. 如果你安装过Google工具栏,如果你建立过独立博客或个人网站,那么你肯定和PageRank打过照面.

神一样存在的Google PageRank不再重要

- tian.jn09 - 译言-电脑/网络/数码科技
来源Once-sacred Google PageRank doesn’t matter anymore. 译者jiangchunheng. 神一样存在的Google PageRank不再重要.        这篇邀请帖由Lior Levin执笔,他是一名企业家,任职于Producteev,该公司制作一种任务管理工具.

不要局限于PageRank:逐渐选择其它可操作性指标

- Fenng - Google 黑板报 - Google (谷歌)中国的博客网志,走近我们的产品、技术和文化

发表者:Susan Moskwa,网站管理员趋势分析员. 原文:Beyond PageRank: Graduating to actionable metrics. 发布时间:2011年8月5日 上午 11:22:00. 与所有拥有丰富好奇心的网友一样,我也设置了 Google快讯,每当我的名字在网上被提及时,我都会收到相关电子邮件.