SEOMOZ 2011排名因素的数据收集与统计分析

标签: 搜索优化SEO | 发表时间:2011-06-12 22:13 | 作者:zero liang
出处:http://semwatch.org

SEOmoz在此次的2011版搜索引擎优化排名因素的调查中,使用了让人耳目一新的统计学方法。其中主要采用到的是Pearson积距相关系数。而具体使用的方法,在http://www.seomoz.org/article/search-ranking-factors#methodology此文中有一些概述性的阐述。

由于原文涉及较多统计学的专业术语,限于译者能力有限,略去了其中不少的东西。所以通过这篇译文也主要是希望让更多人意识到数据分析在SEO中的一种运用方式,但如果想要按照这样的方法实际运用的话,还是必须参考原文。

——————————————————————————————————————————

对于SEOer而言,“在搜索引擎中什么影响排名最大?”此类的问题是我们最为关注的话题之一,所以使用了以下数据来分析其与排名之间的关系:

Linkscape工具中的链接与锚文本等数据

(译者注:Linkscape是SEOmoz开发的软件,使用自己的爬虫来获取海量的数据,主要记录把互联网上面的链接信息记录下来,其应用Open Site Explorer是一个被运用比较广泛的工具,模拟计算PageRank与TrustRank等数值,可作为SEO的参考)

Facebook和Twitter等社会化媒体

页面上的,URL及域名上面的关键词使用情况

以下的章节包括了一些关于数据来源的细节,从关键词列表,到数据来源,还有样本的抽取。最后描述了所使用的统计分析方法。

继续下面的内容之前,有几个需要先提下的事情。SEOmoz只在Google U.S.里面收集数据,而且所有数据都是在2011/3收集的(这时Google的熊猫算法已经更新完毕了)。

数据收集

关键词列表

建立数据集的第一步是选择一个查询词列表。因为这个查询词列表的质量决定了数据的质量,所以有必要保证它包含了各种各样的主题和查询种类(译者注:主题如文学、计算机之分;查询种类如导航型、问答型、产品型之分)。为了这个目的,SEOmoz使用了Google Adwords tool里面15个栏目大类中推荐的查询词(表格1给出了关键词列表所在的栏目)。

一些细节这里就省略不翻译了,总之SEOmoz从那些列表每个获取800个词,并筛选掉了重复的以后,总共还剩下10000多的词。其中包含了搜索量高低不一的各种词,如表格2所示。

SERPs

SEOmoz在Google U.S.上面的10980个查询词中,每个都提取了前30个搜索结果,同时用了些方法,从而忽视了排名的区域性和个性化影响。我们从结果中移除了所有非常规网页搜索结果(图片、视频、新闻等)。最终,为了保证每个SERP都有足够的资料用来分析,排除了所有返回结果少于15个的查询。这样下来,最终剩下223737个独立的URL。

数据收集

此处的具体数据收集,SEOmoz使用了Linkscape的API收集链接类因素,各个社会化媒体自身的API去收集它们上面的因素,也采集了那些词排名好的那些网页本身。

Spearman秩相关系数(重点!)

这是SEOmoz倾向的度量方式,也是唯一在这个报道中一直在阐述的东西。因为拥有大量各种各样的因素和因素种类(它们很多并不是正态分布的),Spearman秩相关系数比更常见的Pearson积距相关系数更好(因为Pearson积距相关系数假设变量是正态分布的)。在分析中,认为每个查询词都是独立的,并为了每个查询词都分别计算了Spearman秩相关系数,然后平均了所有的查询词并报告了最终结果。

——————————————————————————————————————————

后面部分涉及的是大量统计领域的术语,限于译者能力全部略去,但这里已经介绍了之所以用Spearman秩相关系数的原因了,那么接下来只要稍微接触些统计学方面的知识,也可以逐渐自己上手。

首先可以寻找一些相关系数的入门的资料,比如:http://wenku.baidu.com/view/9e5ad1956bec0975f465e21c.html

务必需要先了解的是对于相关系数而言,因果关系与间接关联的关系之间的区别。

实际计算中,常用的Pearson积距相关系数可以用Excel直接来计算(函数名为correl),但Excel没有方法可以方便的计算Spearman秩相关系数,此处需要使用到的是SPSS等更专业的统计分析软件。

另外如SEOmoz所说,这样的数据还是很基础的,单单的相关系数并不能区分两个事物间的因素究竟是因果抑或间接关联,它也有其他很多局限性在。就比如大方向上的,就算完美掌握所有排名因素也不代表网站一定会获取流量,因为关键词排名(指的是某几个热门关键词的排名)并不意味着整站的流量。

所以如何将统计方法更深入、更广泛的运用,就是重点所在了,待大家挖掘。同时希望国内的SEO能先模仿、后超越,最终也能赶上甚至超过国外的水准。

相关 [seomoz 排名 数据] 推荐:

SEOMOZ 2011排名因素的数据收集与统计分析

- liang - SEM WATCH
SEOmoz在此次的2011版搜索引擎优化排名因素的调查中,使用了让人耳目一新的统计学方法. 其中主要采用到的是Pearson积距相关系数. 而具体使用的方法,在http://www.seomoz.org/article/search-ranking-factors#methodology此文中有一些概述性的阐述.

DB-Engines全新数据库排名 Oracle 居首

- - 业界
DB-Engines发布最新的数据库系统排名,该排名中Oracle居首,而开源的MySQL数据库排名第三. 该排名的数据依据5个不同的因素,详情请看 ranking method. 这些数据库包含SQL和NoSQL,详情如下:.

排名前十的SQL和NoSQL数据库

- - 外刊IT评论
本排名根据 DB Engines的排行榜得来,该排行榜从人气上分析了市场上200个不同的数据库,这里一览Top 10. Oracle、MySQL及Microsoft SQL Server一直以绝对的优势霸占着排行榜的前三名,以独特的优势瓜分了市场上最多的用户. 许可机制:Proprietary. Oracle是重要商业项目的首选,同时也是市场上最古老的主流数据库产品.

2016全球最强数据库年度排名盘点

- - 数据库 - ITeye博客
说到盘点,首先肯定得看看DB-Engines的全球数据库排名. 下表是2017年1月份前20名数据库引擎最新排名. DB-Engines 2017-01数据库前20名列表. ​DB-Engines这个排名在业界引用得非常多,权威性也很高,总体来说比较客观,它不像很多咨询机构采用市场调查,或者某个数据库厂商发布的数据,而是通过以下6个方面的统计数据来综合评估各个数据库产品得分并给出综合排名:.

世界黑客排名

- 2楼水饺 - 煎蛋
黑客世界也有这自己的排名,如果你打算雇佣牛逼黑客做点xxxx事情,不妨看看这个网站 RankMyHack.com ,它号称是世界上第一个黑客排名系统. 除了能够收集到一些黑客战绩和信息之外,RankMyHack.com 还开放给任何一个想加入该排名的盆友. 提交你的战绩,然后将RankMyHack 给出的一段代码插入到你所黑掉的网站予以证明.

[转]排名算法(一)--PageRank

- - 工作笔记
转自: https://blog.csdn.net/isuccess88/article/details/70339759. PageRank是Google研发的主要应用于评估网站可靠度和重要性的一种算法,是进行网页排名的考量指标之一. 本文将对PageRank的原理进行讲解,并以此为出发点介绍如何利用Transwarp Data Hub的Graphene在实际中满足相关分析需求.

Android Market排名算法及规则(转)

- boho - 数据挖掘与数据分析
原文来自:http://www.mobile20.com.cn/android-market-ranking-rules/. 众所周知,做搜索出身的Google,旗下的Market的排名肯定是依据一个形同( A×a% + B×b% + C×c%)的公式计算出来的数值,进行排名的. 可根据其排名规则,对自己的产品设计和研发以及推广进行指导.

Android Market排名算法及规则

- PH囧ENIX - Mobile 2.0-我们专注移动互联网
  众所周知,做搜索出身的Google,旗下的Market的排名肯定是依据一个形同( A×a% + B×b% + C×c%)的公式计算出来的数值,进行排名的. 开发者可根据其排名规则,对自己的产品设计和研发以及推广进行指导.   指标A、B、C到底是什么. 这些问题的答案,应该是每个App开发者和运营者都渴望了解的.

【读图】淘宝搜索排名规则

- - i天下网商
有心人虎用军根据视频《淘宝搜索排名规则——相关性解读及其策略》整理出了详尽的思维导图,虽然不能完全代表淘宝搜索排名规则,但对于初级阶段的卖家来说,是不可多得的一份实战干货. 天下网商视觉团队设计,图说淘宝搜索排名规则. (注:此图仅供卖家学习交流,具体操作请以淘宝官方制定的淘宝搜索排名规则为准. 【网商百宝箱】淘宝搜索新规解读.

数学之美:Reddit的排名算法

- - 标点符
上一篇文章介绍了 Hacker News 的排名规则. 这次要介绍的是另外一个社会化新闻类网站 Reddit. Reddit对文章和评论使用了不同的排名算法,这边文章要介绍的是前者,后面的关于评论的排名在后面的文章作再作介绍. Reddit与Hacker News有很大的不同点就是,Hacker News文章标题前面只有一个向上的小箭头,即只能投赞成票,而Reddit的每个文章标题前会有两个箭头,即一个向上,一个像下.