网页重要性与PageRank的理解

标签: 网页 pagerank 理解 | 发表时间:2013-03-30 21:40 | 作者:dream2009gd
出处:http://blog.csdn.net
首先不要混淆网页重要性和网页相关性!

相关性:搜索关键字和某一网页之间相关的程度,主要是tf-idf值(最简单:tf*idf)来衡量。
重要性:网页之间重要程度的比较,或者说是网页质量的衡量,主要用pagerank算法计算。
of course,搜索关键字搜索引擎给出的应该是重要性和相关性的结合结果。

关于网页重要性与pagerank算法,我的理解如下:

(1)如果一个网页被其他很多网页链接到,那么说明他受到普遍认可和信赖,那么他的重要性应该更高。比如凤凰网的新闻质量就比其他不知名网站的链接度高,重要性也应该更高。

(2)被不同的网站链接,权重应该不同。比如,一网页被新浪和某不知名网站链接了,被新浪链接的权重应该更高。

(3)该网页的重要性,也就是pagerank值应该为所有链接该网页的权重之和。


(4)但如何确定周围链接网页的原始权重?这简直就是先有鸡还是先有蛋的问题了啊!
        佩奇和布林想到的办法是把互联网看成所有网页构成的一个大图,有链接的网页之间用有向边连接,这样一个图很明显可以用一个矩阵表示。这个问题就变成了有向图矩阵的问题,利用二维矩阵相乘,反复迭代改变权值,再相乘,再改变权值。。。。10次过后差不多权值就收敛了。
例如:
      首先把所有网页权值设为一样的,比如0.1,设为v0;
      大矩阵相乘,得到迭代一次之后每个网页新的权值v1。当然某些被链接多的网页权值更大了!
      再利用v1的权值,再矩阵相称,得到迭代两次的权值v2,权值继续调整。
      如此反复十次左右,估计v10和v9的差别已经不大了,停止迭代。over!

(5)互联网网页太多,谷歌索引2010年似乎就有5000亿个网页,而且网页权值是动态变化的,比如很旧的网页权值自然会降低,这就需要定期更新网页的pagerank值。但每次更新时间周期很长,咋办?继而有了mapReduce算法。
 
 
作者:dream2009gd 发表于2013-3-30 21:40:52 原文链接
阅读:94 评论:0 查看评论

相关 [网页 pagerank 理解] 推荐:

网页重要性与PageRank的理解

- - CSDN博客互联网推荐文章
首先不要混淆网页重要性和网页相关性. 相关性:搜索关键字和某一网页之间相关的程度,主要是tf-idf值(最简单:tf*idf)来衡量. 重要性:网页之间重要程度的比较,或者说是网页质量的衡量,主要用pagerank算法计算. of course,搜索关键字搜索引擎给出的应该是重要性和相关性的结合结果.

主题敏感PageRank (Topic-Sensitive PageRank)

- - CSDN博客推荐文章
        前面的讨论提到. PageRank忽略了主题相关性,导致结果的. 相关性和主题性降低,对于不同的用户,甚至有很大的差别. 例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画. 理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行.

pagerank 与 相关度

- - 张沈鹏
我总是能搜索到我以前整理的文章. 我一直很困惑 pagerank 和 相关度怎么做整合. 晚上开始蒸腾搜索 研究了一下 摘录一点. 虽然每个搜索引擎都严格保密各自的明确的搜索算法,但是搜索引擎分析人士相信搜索引擎结果(排名列表)是“Page Relevance”与“PageRank”. 如果在Google上进行广泛搜索,看起来好象有几千个结果,但实际显示最多前1,000项结果.

[转]排名算法(一)--PageRank

- - 工作笔记
转自: https://blog.csdn.net/isuccess88/article/details/70339759. PageRank是Google研发的主要应用于评估网站可靠度和重要性的一种算法,是进行网页排名的考量指标之一. 本文将对PageRank的原理进行讲解,并以此为出发点介绍如何利用Transwarp Data Hub的Graphene在实际中满足相关分析需求.

PageRank 在 40 天里连续更新三次

- Jason - 谷奥——探寻谷歌的奥秘
感谢读者 英文SEO 和 安卓吧 的爆料. PageRank今天再次更新,这也是40天内的第三次更新,前两次是6月27日和7月18日,而7月18日那次号称是6月27日那次的修复更新,修复了之前PageRank更新后的数值错误(包括错误的将Google.com的PageRank从10降级到9). 英文SEO还发现现此次更新的多为无PR的新站.

你的网站价值几何?让PageRank告诉你答案

- Doublel - SQYBI.com
本文同时发表在果壳网死理性派栏目,传送门:http://www.guokr.com/article/65304/. 因为字数原因,所以编辑对死理性派上发表的文章进行了一定的删减和修正. 这里发出的是未删减的版本,表示“太理性了,看不懂”的童鞋们可以来围观此文. 如果你安装过Google工具栏,如果你建立过独立博客或个人网站,那么你肯定和PageRank打过照面.

神一样存在的Google PageRank不再重要

- tian.jn09 - 译言-电脑/网络/数码科技
来源Once-sacred Google PageRank doesn’t matter anymore. 译者jiangchunheng. 神一样存在的Google PageRank不再重要.        这篇邀请帖由Lior Levin执笔,他是一名企业家,任职于Producteev,该公司制作一种任务管理工具.

比较PageRank算法和HITS算法的优缺点

- - 互联网旁观者
1998年,Sergey Brin和Lawrence Page[1]提出了PageRank算法. 该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性. 该算法认为从网页A导向网页B的链接可以看作是页面A对页面B的支持投票,根据这个投票数来判断页面的重要性. 当然,不仅仅只看投票数,还要对投票的页面进行重要性分析,越是重要的页面所投票的评价也就越高.

不要局限于PageRank:逐渐选择其它可操作性指标

- Fenng - Google 黑板报 - Google (谷歌)中国的博客网志,走近我们的产品、技术和文化

发表者:Susan Moskwa,网站管理员趋势分析员. 原文:Beyond PageRank: Graduating to actionable metrics. 发布时间:2011年8月5日 上午 11:22:00. 与所有拥有丰富好奇心的网友一样,我也设置了 Google快讯,每当我的名字在网上被提及时,我都会收到相关电子邮件.