SEO实践(1)——开展SEO前的数据准备

标签: 搜索优化SEO | 发表时间:2012-02-26 13:13 | 作者:zero
出处:http://semwatch.org

回首发现SEMWATCH已经许久没有更新了,虽然博客流量愈下,但作为一个非盈利性的群博,当它给予真正需要的人一点点切实有用的文章时,那就足够了。作为编辑的一员,我想有必要把这样的精神以自己的微薄之力延续下去。

——————————————————————————————————————-

当我们开始开展一项SEO工作时,第一件要做的事情是要保证我们做的任何事情都可以有数据的支撑——而不是自己的直觉。SEO的主要数据来源来自两块:网站的服务器日志、第三方流量分析工具。

网站服务器日志

Apache,Nginx等常用服务器的内置日志配置格式Combine已经可以满足大多数SEO分析需求。它看上去类似是这样的:

111.111.111.111 – - “[20/Feb/2012:18:09:25 +0800]” “GET / HTTP/1.1″ 200 3121 “http://semwatch.org/” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

必须记录的信息诸如:访问来源IP、访问时间、访问页面、HTTP响应状态码、访问来源及客户端标识等,这些在Combine日志格式里面都有。

在确保服务器日志可以满足其他部门的分析需求下,至少要确保上面提到的几项被记录在服务器日志里面。但也不要将任何可以记录的数据都记录下来,只选择实际需要的部分,不然会使得网站日志体积非常大,不利于分析起来的效率。这些内容可能需要和运维进行沟通解决。

然后关于日志的分析,我认为没太多固定的准备工作可做,因为它的数据来源是原始的(raw似乎听上去会更有感觉?),所以可选择的数据维度几乎是无限的。因此尤其要按实际需求进行相应的处理与分析。

对于一些要求并不是特别高的日志分析需求,可以尝试使用光年日志分析系统。虽然我个人对所有图形界面的实用类程序都不带好感,但它提供了一些很不错的数据维度的思路。

听说有一家大型的旅游网站是采用MongoDB结合Map/Reduce进行日志分析的,我个人也用过MongoDB实现过前面提到的光年日志分析的一部分重要功能。所以感觉MongoDB是个可以考虑的选择。

第三方流量分析工具

Google Analytics的安装

对于免费流量分析工具,Google Analytics绝对是其中的佼佼者(以下简称GA)。不过如果网站的月浏览量大于500W的话,只有Google Adwords的用户,才能继续免费使用GA进行流量的记录与分析。下面都以它为例。

在GA添加需要追踪流量的网站以后,它会提示你添加一段JavaScript代码,到每一个你需要追踪页面的</head>标记之前。代码的添加可能是一件很轻松的工作,但也可能非常麻烦,主要取决于网站的模板层。

先提下常见开源博客程序WordPress的方法,它采用了 包含的模板处理方式,比如网站首页、列表页、文章页等自身的模板,都是只有当中一部分的。而包含网页LOGO等的网页头部,都使用WordPress的get_header方法来加载另一个独立的模板文件(get_header方法本质上是PHP里面的include函数)。简言之,只要在header.php那个文件上面添加代码,包含它的所有网页都会跟着改,很快就可以把GA代码添加好。

但情况并不总是理想的,尤其对于使用网站框架自己进行开发的网站,有时并没有将 包含这样的方式很好的运用。这可能是网站的建设规范不完善的关系,也可能是网站需求导致了确实无法使用和WordPress类似的包含方式。那么,至少要在每个网页的头部,额外包含一小段加载全局JavaScript的区块,以方便的添加全局性的JavaScript代码。

虽然未必在添加GA代码时,对可能糟糕的网站模板结构去进行更改,最多到几十个不同的模板文件里面去分别加下代码就是了(当然也要花些时间去保证没有漏过哪些页面)。但一次性搞定一些本质性的问题会带来很多日后的便利性——比如又要换一套统计代码。

相对最麻烦的事情或许是如何说服程序员为了一些看似小的需求而修改模板结构,这边就略过了。

一些基础的Google Analytics设置

对于SEO而言,一项最基础的设置,就是要把网站上对SEO有价值的页面进行归类。对页面进行区分,并以此掌握了它们的流量现状及趋势以后,才能把握SEO的侧重点,及更好的分析网站上每次SEO修改的成效等等。

如最简单的例子,对于一个网站,如果手头有1000条外链,应该给网站的栏目页还是产品页?这主要取决于哪类页面有更高的转化率与更大的SEO流量提升空间。

对于每个网站而言,都存在不同的情况。比如一个书籍类的电商网站,它列表页不会有太多流量,没多少人搜索什么“计算机书籍”,但会更多人搜索《乔布什自传》之类,因为用户有很明确的需求。而对于一个服饰电商,相应更多人会搜索“衬衫”之类,而非“2012年春季新款白色衬衫”等,因为用户只是想到网站上挑衣服,他们只有需求的意向,但具体需求是模糊的。

以上两个是比较典型的例子,但有更多情况我们无法用自己的直觉做出准确的判断,那就需要用流量数据来收集事实。

尽管博客的流量数据分析起来没太大价值,出色的文章是博客的一切,但这里还是以SEMWATCH为例来简单介绍下方法。假设我们需要把SEMWATCH的栏目页和文章页流量进行区分,它们的URL分别是类似这样的:/category/seo/,/2012/02/post/

首先要到GA的数据页面内,找到高级细分一项,点击右侧新自定义细分。然后进行类似下图的设置:

通常情况下,将页面的URL匹配相应的正则以后,就可以把它们区分开来。 注意,如果网站的初期URL规划不完善,可能会导致无法用URL来区分页面类型的非常非常糟糕的情况,务必保证每一类页面拥有其独立的URL标识。

在该例中,SEMWATCH的栏目页匹配正则表达式是:^/category/.*?/$,文章页是:^/2[0-9]{3}/[0-9]{2}/.*?/$

尽量用最严格的正则表达式写法,这样可能可以在无形中规避很多不必要的错乱。还需要注意的是,老版本的GA默认情况下筛选器的“包含”即使用正则表达式,新版GA一定要选择“匹配正则表达式”这项。

关于正则表达式,篇幅所限不可能进行解释,如果你不懂的话,可以考虑去寻找程序员求助。但我的个人建议是尽可能的要自己掌握它,这是一个比较基础的技术要求,SEO不应该被它所难倒。正则表达式虽然看上去很恶心——至少我从来看不懂自己写出来的正则,但其实挺容易学的。

总之通过上面的步骤,我们就简单的把页面类型区分开来了。回到最初的例子,如果有1000外链给SEMWATCH随便分配,现在应该把外链给予哪些页面呢?可以发现的是栏目页几乎没流量、而文章页天生流量就很高。多数情况下这证明了文章页具有更大的流量发展空间,此时把外链分配给文章页就是最明智的做法。(但也不能武断的说,不能排除栏目页的SEO有巨大问题的可能性,这问题一点都不罕见。所以还要结合我们的常识及其他方面的分析来综合判断。)

限于篇幅就告一段落了。另外关于Google Analytics的各类经验在SEMWATCH上面有过较多的分享,大家可以擅用搜索功能。

最后的总结

实际可能要面临的问题还有很多很多,当然不可能是一篇文章所能涵盖的。前面提到的只是两个主要数据,实际SEO过程中,还或许需要用到的数据如网站级的Google Webmaster Tool,估算流量的爱站、SEMRush、Google Adplanner、HitWise,关键词的Google Keyword Tool、百度司南,链接类的MajesticSEO、Ahrefs等等。

最近我在看《麦肯锡方法》,提到:“以事实为基础,严格的结构化,以假设为导向”,类似的稍总结下SEO的话:“以数据为基础,严格的逻辑化,以效果为目标、技术为手段”。本文是为了作为根基的数据垫下基础而已,它本身是没任何价值的——光看数据的话,它只不过是死板的数字罢了。

如何借由数据的辅助,在最需要的地方进行SEO的更改,使得流量获得大的突破并给网站产生价值,这是我们要真正关注的部分,之后再慢慢分解。

——————————————————————————————————————-

p.s. 我平常写文章比较随便,文风散乱、语句不通、中心不明,但如果认为这样也可以接受的话,不妨也可以看下我的个人博客: http://tech-field.org/。当然该系列文章只在SEMWATCH连载,不能反过来抢它流量嘛。

您可能也喜欢:

SEO 的末日还有多久?

SEO的职责已经被升级了

用Web Developer工具栏发现 SEO 问题的 7 个方法

圣诞节里的 SEO 大战
无觅

相关 [seo 实践 seo] 推荐:

SEO实践(1)——开展SEO前的数据准备

- - SEM WATCH
回首发现SEMWATCH已经许久没有更新了,虽然博客流量愈下,但作为一个非盈利性的群博,当它给予真正需要的人一点点切实有用的文章时,那就足够了. 作为编辑的一员,我想有必要把这样的精神以自己的微薄之力延续下去. 当我们开始开展一项SEO工作时,第一件要做的事情是要保证我们做的任何事情都可以有数据的支撑——而不是自己的直觉.

WordPress SEO 宝典

- luckerme - 我爱水煮鱼
最基本的搜索引擎优化(SEO)是很简单的,而 WordPress 程序本身的一些优势使得 SEO 变得更加容易,比如我爱水煮鱼有超过 70% 的流量来自搜索引擎,所以做好 SEO 就是流量的保证,这篇文章就给大家介绍下在 WordPress 博客中最基本的一些 SEO 要求,希望能够帮助到你. 简单来说 SEO 分为页面优化和链接建设两大部分,页面优化是基础,而链接建设则是重点,两者缺一不可.

SEO已死

- - 网站运营优化
  美国知名财经杂志《福布斯》近日刊登营销专家家肯·克罗格(Ken Krogue)的分析文章称,传统意义上的搜索引擎优化(SEO)的做法已经过时,在SEO产业经过转型后,目前已到社交、实时内容大行其道之时.   今年3月,我曾在犹他州同业界知名SEO专家亚当·托基尔德森(Adam Torkildson)共进午餐.

WordPress SEO 宝典

- - 人人都是产品经理
最基本的搜索引擎优化(SEO)是很简单的,而 WordPress 程序本身的一些优势使得 SEO 变得更加容易,比如我爱水煮鱼有超过 70% 的流量来自搜索引擎,所以做好 SEO 就是流量的保证,这篇文章就给大家介绍下在 WordPress 博客中最基本的一些 SEO 要求,希望能够帮助到你. 简单来说 SEO 分为页面优化和链接建设两大部分,页面优化是基础,而链接建设则是重点,两者缺一不可.

【seo经验分享】seo的思维

- - 人人都是产品经理
思维决定着出路,seo的思维决定着我们优化的最终成败. 用户体验度以及搜索引擎蜘蛛体验,才是我们思维中应放在第一位的内容. 面对着搜索引擎的不断变化,中文搜索引擎优化工作越来越难作. 百度,一个善变的搜索引擎平台,让许多作中文搜索引擎优化的个人或是公司吃尽了苦头. 2012年一年,百度让更多的作搜索引擎营销的人们不再相信seo,认为作seo不稳定,不能很好的给他们带来流量.

HTML5的SEO探索

- Amo - HTML5研究小组
所有现代浏览器对HTML5的支持问题不大. HTML5被智能手机浏览器和越来越多的网站广泛的采用,甚至作为最优的选择. 但是,Googlebot,Bidubot等其他搜索引擎呢. 引擎是否会由于HTML5这任何额外因素,在搜索结果中优先推荐您的网站吗. 另一方面,少数搜索引擎会认为所有这些额外的H1标记的是垃圾网站吗.

SEO实践(2)——让网站对搜索引擎友好

- - SEM WATCH
在该系列文章的第一篇中,提到SEO应该是以数据为基础的,并略为展开写了一些数据方面的准备工作. 数据虽然是非常重要的,但它扮演的角色只能是辅助:发现问题、总结改进、作为决策的参考因素等,但都无法脱离既有的SEO方法而独立存在. 而SEO的方法,应该分为两种或四种: 使网站对搜索引擎友好、使网站对搜索引擎的用户友好.

SEO实践(6)——Yahoo的黑帽小技巧

- - SEM WATCH
一开始没有计划在该系列的文章中写黑帽的SEO技巧,毕竟黑帽并不值得推崇. 但反过来,如果能通过简单的黑帽技巧来拓展思路的话,那也会是一件不错的事情. 因为黑帽领域有时需要对于SEO涉及更深入,或许也能让人更深入的了解到SEO绝不仅限于目前被广泛流传的那些方法. 国内目前我看到的SEO方法多数都很单调.

SEO实践(5)——关键词排名浅析

- - SEM WATCH
在该SEO系列的第三篇文章《 让网站对搜索引擎的用户友好》中,我提到了一句“ 将网站上更多有价值的信息以更好的形式展现给用户”. 这是我将数千小时的精力花在SEO上面后得出的最主要的总结. 近日新出的 百度关于SEO的建议上,也极为类似的将SEO总结为:“ SEO可以帮你将网站中的高质量内容更好的呈现给搜索引擎,获取更多流量”.

SEO实践(3)——让网站对搜索引擎的用户友好

- - SEM WATCH
该系列前的两篇文章提及SEO数据的准备工作、以及如何让网站对搜索引擎友好,难以避免的涉及了不少技术层面上的内容. 这篇总算能进入稍微轻松点的话题,因为让网站对搜索引擎的用户友好,只需要我们从常识出发就可以了——尽管往往越是常识越容易成为盲点. 不知是否有人在疑惑,为什么不是对网站自己的用户友好,而是对搜索引擎的用户友好.