pagerank 与 相关度

标签: pagerank 相关 | 发表时间:2012-12-20 17:05 | 作者:张沈鹏
出处:http://10000000.42qu.com

   
我总是能搜索到我以前整理的文章

--------------------------------------------------------

http://www.douban.com/note/74801405/

我一直很困惑 pagerank 和 相关度怎么做整合

晚上开始蒸腾搜索 研究了一下 摘录一点

虽然每个搜索引擎都严格保密各自的明确的搜索算法,但是搜索引擎分析人士相信搜索引擎结果(排名列表)是“Page Relevance”与“PageRank”

Ranking = (Page Relevance) x (PageRank)

..........

如果在Google上进行广泛搜索,看起来好象有几千个结果,但实际显示最多前1,000项结果。例如对“car rental”,显示搜索结果为5,110,000,但实际显示结果只有826个。而且用时只有0.81秒。试想一下,0.84秒的时间就可以计算这五百万搜索结果的每个排名因子得分,然后给出最终我们所看到的网站排名结果吗?

答案就在于:搜索引擎选取与查询条件最相关的那些网页形成一个子集来加速搜索的速度。例如:假设子集中包含2,000个元素,搜索引擎所做的就是使用排名因子中的两到三个因素对整个数据库进行查询,找到针对这两三个排名因子得分较高的前2,000个网页。(请记住,虽然可能有五百多万搜索结果,但最终实际显示的1,000项搜索结果却是从这个2,000页的子集中提炼出来的。) 然后搜索引擎再把所有排名因子整合进这2,000项搜索结果组成的子集中并进行相应的网站排名。由于按相性进行排序,子集中越靠后的搜索结果(不是指网页)相关性(质量)也就越低,所以搜索引擎只向用户显示与查询条件最相关的前1,000项搜索结果。

--------------------------------------------------------

那如何在xpain中做到这一点呢 ?

参见

http://lists.xapian.org/pipermail/xapian-discuss/2008-December/006258.html

[Xapian-discuss] Xapian's scoring/sorting compared to Google's]]

里面提到可以用postingsource来做

http://xapian.org/docs/postingsource.html

Examples

Here is an example of a Python PostingSource which contributes additional weight from some external source:

class ExternalWeightPostingSource(xapian.PostingSource):

"""

A Xapian posting source returning weights from an external source.

"""

def __init__(self, db, wtsource):

xapian.PostingSource.__init__(self)

self.db = db

self.wtsource = wtsource

def init(self, db):

self.alldocs = db.postlist('')

def get_termfreq_min(self): return 0

def get_termfreq_est(self): return self.db.get_doccount()

def get_termfreq_max(self): return self.db.get_doccount()

def next(self, minweight):

try:

self.current = self.alldocs.next()

except StopIteration:

self.current = None

def skip_to(self, docid, minweight):

try:

self.current = self.alldocs.skip_to(docid)

except StopIteration:

self.current = None

def at_end(self):

return self.current is None

def get_docid(self):

return self.current.docid

def get_maxweight(self):

return self.wtsource.get_maxweight()

def get_weight(self):

doc = self.db.get_document(self.current.docid)

return self.wtsource.get_weight(doc)ExternalWeightPostingSource doesn't restrict which documents match - it's intended to be combined with an existing query using OP_AND_MAYBE like so:

extwtps = xapian.ExternalWeightPostingSource(db, wtsource)

query = xapian.Query(query.OP_AND_MAYBE, query, xapian.Query(extwtps))

The wtsource would be a class like this one:

class WeightSource:

def get_maxweight(self):

return 12.34;

def get_weight(self, doc):

return some_func(doc.get_docid())

The Xappy source code contains a perfect example of a weight-only (non-filtering) PostingSource written in Python. This would be a good addition to the postingsource docs. I have slightly edited the original.

http://code.google.com/p/xappy/source/browse/trunk/xappy/searchconnection.py

http://trac.xapian.org/ticket/503

以及 , 一个用法的演示

http://xappy.googlecode.com/svn/trunk/xappy/unittests/weight_external.py

相关 [pagerank 相关] 推荐:

pagerank 与 相关度

- - 张沈鹏
我总是能搜索到我以前整理的文章. 我一直很困惑 pagerank 和 相关度怎么做整合. 晚上开始蒸腾搜索 研究了一下 摘录一点. 虽然每个搜索引擎都严格保密各自的明确的搜索算法,但是搜索引擎分析人士相信搜索引擎结果(排名列表)是“Page Relevance”与“PageRank”. 如果在Google上进行广泛搜索,看起来好象有几千个结果,但实际显示最多前1,000项结果.

主题敏感PageRank (Topic-Sensitive PageRank)

- - CSDN博客推荐文章
        前面的讨论提到. PageRank忽略了主题相关性,导致结果的. 相关性和主题性降低,对于不同的用户,甚至有很大的差别. 例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画. 理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行.

[转]排名算法(一)--PageRank

- - 工作笔记
转自: https://blog.csdn.net/isuccess88/article/details/70339759. PageRank是Google研发的主要应用于评估网站可靠度和重要性的一种算法,是进行网页排名的考量指标之一. 本文将对PageRank的原理进行讲解,并以此为出发点介绍如何利用Transwarp Data Hub的Graphene在实际中满足相关分析需求.

网页重要性与PageRank的理解

- - CSDN博客互联网推荐文章
首先不要混淆网页重要性和网页相关性. 相关性:搜索关键字和某一网页之间相关的程度,主要是tf-idf值(最简单:tf*idf)来衡量. 重要性:网页之间重要程度的比较,或者说是网页质量的衡量,主要用pagerank算法计算. of course,搜索关键字搜索引擎给出的应该是重要性和相关性的结合结果.

PageRank 在 40 天里连续更新三次

- Jason - 谷奥——探寻谷歌的奥秘
感谢读者 英文SEO 和 安卓吧 的爆料. PageRank今天再次更新,这也是40天内的第三次更新,前两次是6月27日和7月18日,而7月18日那次号称是6月27日那次的修复更新,修复了之前PageRank更新后的数值错误(包括错误的将Google.com的PageRank从10降级到9). 英文SEO还发现现此次更新的多为无PR的新站.

你的网站价值几何?让PageRank告诉你答案

- Doublel - SQYBI.com
本文同时发表在果壳网死理性派栏目,传送门:http://www.guokr.com/article/65304/. 因为字数原因,所以编辑对死理性派上发表的文章进行了一定的删减和修正. 这里发出的是未删减的版本,表示“太理性了,看不懂”的童鞋们可以来围观此文. 如果你安装过Google工具栏,如果你建立过独立博客或个人网站,那么你肯定和PageRank打过照面.

神一样存在的Google PageRank不再重要

- tian.jn09 - 译言-电脑/网络/数码科技
来源Once-sacred Google PageRank doesn’t matter anymore. 译者jiangchunheng. 神一样存在的Google PageRank不再重要.        这篇邀请帖由Lior Levin执笔,他是一名企业家,任职于Producteev,该公司制作一种任务管理工具.

比较PageRank算法和HITS算法的优缺点

- - 互联网旁观者
1998年,Sergey Brin和Lawrence Page[1]提出了PageRank算法. 该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性. 该算法认为从网页A导向网页B的链接可以看作是页面A对页面B的支持投票,根据这个投票数来判断页面的重要性. 当然,不仅仅只看投票数,还要对投票的页面进行重要性分析,越是重要的页面所投票的评价也就越高.

不要局限于PageRank:逐渐选择其它可操作性指标

- Fenng - Google 黑板报 - Google (谷歌)中国的博客网志,走近我们的产品、技术和文化

发表者:Susan Moskwa,网站管理员趋势分析员. 原文:Beyond PageRank: Graduating to actionable metrics. 发布时间:2011年8月5日 上午 11:22:00. 与所有拥有丰富好奇心的网友一样,我也设置了 Google快讯,每当我的名字在网上被提及时,我都会收到相关电子邮件.