解读百度搜索引擎工作原理

标签： 百度搜索 引擎工作 | 发表时间：2015-03-03 08:00 | 作者：

出处：http://winares.github.com

【文章摘要】以下便是百度搜索引擎决定搜索结果排序时考虑的六大原则，那么六大原则的侧重点是怎样的呢？哪个原则在实际应用时占比最大呢？其实在这里没有一个确切的答案。在百度搜索引擎早期，这些阈值的确是相对固定的，比如“相关性”在整体排序中的重量可以占到七成。但随着互联网的不断发展，检索技术的进步，网页数量的爆发式增长，相关性已经不是难题。于是百度搜索引擎引入了机器学习机制，让程序自动产出计算公式，推进排序策略更加合理。

　　在说这个话题前，我们先了解一下搜索引擎Spider抓取系统的工作机制。

　　上图为spider抓取系统的基本框架图，其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。

　　 那么百度搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢，主要指标有四个：

　　1，网站更新频率：更新快多来，更新慢少来，直接影响Baiduspider的来访频率

　　2，网站更新质量：更新频率提高了，仅仅是吸引了Baiduspier的注意，Baiduspider对质量是有严格要求的，如果网站每天更新出的大量内容都被Baiduspider判定为低质页面，依然没有意义。

　　简单介绍几种百度支持的返回码：

　　最常见的404代表“NOT FOUND”，认为网页已经失效，通常将在库中删除，同时短期内如果spider再次发现这条url也不会抓取；

　　503代表“Service Unavailable”，认为网页临时不可访问，通常网站临时关闭，带宽有限等会产生这种情况。对于网页返回503状态码，百度spider不会把这条url直接删除，同时短期内将会反复访问几次，如果网页已恢复，则正常抓取；如果继续返回503，那么这条url仍会被认为是失效链接，从库中删除。

　　403代表“Forbidden”，认为网页目前禁止访问。如果是新url，spider暂时不抓取，短期内同样会反复访问几次；如果是已收录url，不会直接删除，短期内同样反复访问几次。如果网页正常访问，则正常抓取；如果仍然禁止访问，那么这条url也会被认为是失效链接，从库中删除。

　　301代表是“Moved Permanently”，认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时，我们推荐使用301返回码，同时使用站长平台网站改版工具，以减少改版对网站流量造成的损失。

　　3，连通度：网站应该安全稳定、对Baiduspider保持畅通，经常给Baiduspider吃闭门羹可不是好事情

　　4，站点评价：百度搜索引擎对每个站点都会有一个评价，且这个评价会根据站点情况不断变化，是百度搜索引擎对站点的一个基础打分（绝非外界所说的百度权重），是百度内部一个非常机密的数据。站点评级从不独立使用，会配合其它因子和阈值一起共同影响对网站的抓取和排序。

　　 理论上，Baiduspider会将新页面上所有能“看到”的链接都抓取回来，那么面对众多新链接，Baiduspider根据什么判断哪个更重要呢？两方面：

第一，对用户的价值

　　1，内容独特，百度搜索引擎喜欢唯一的内容

　　2，主体突出，切不要出现网页主体内容不突出而被搜索引擎误判为空短页面不抓取

　　3，内容丰富

　　4，广告适当

第二，链接重要程度

　　1，目录层级——浅层优先

　　2，链接在站内的受欢迎程度

　　 百度优先建重要库的原则

　　众所周知，搜索引擎的索引库是分层级的，优质的网页会被分配到重要索引库，普通网页会待在普通库，再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足，这也就解释了为什么有些网站的收录量超高流量却一直不理想。

　　 那么，哪些网页可以进入优质索引库呢。其实总的原则就是一个：对用户的价值。包括却不仅于：

　　1，有时效性且有价值的页面：在这里，时效性和价值是并列关系，缺一不可。有些站点为了产生时效性内容页面做了大量采集工作，产生了一堆无价值面页，也是百度不愿看到的.

　　2，内容优质的专题页面：专题页面的内容不一定完全是原创的，即可以很好地把各方内容整合在一起，或者增加一些新鲜的内容，比如观点和评论，给用户更丰富全面的内容。

　　3，高价值原创内容页面：百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创。

　　4，重要个人页面：这里仅举一个例子，科比在新浪微博开户了，即使他不经常更新，但对于百度来说，它仍然是一个极重要的页面。

　　搜索引擎抓取排序机制（下图）

　　简单来说这个流程图：网站生成页面，搜索引擎蜘蛛抓取后存储到数据库里面（对应开头的那个流程图），程序对这个页面进行分析，利用切词分词技术建立外部索引。

　　用户输入关键词进行检索，百度搜索引擎在排序环节要做两方面的事情，第一是把相关的网页从索引库中提取出来，第二是把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括：

　　1，相关性：网页内容与用户检索需求的匹配程度，比如网页包含的用户检查关键词的个数，以及这些关键词出现的位置；外部网页指向该页面所用的锚文本等

　　2，权威性：用户喜欢有一定权威性网站提供的内容，相应的，百度搜索引擎也更相信优质权威站点提供的内容。

　　3，时效性：时效性结果指的是新出现的网页，且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。

　　4，重要性：网页内容与用户检查需求匹配的重要程度或受欢迎程度

　　5，丰富度：丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富，可以完全满足用户需求；不仅可以满足用户单一需求，还可以满足用户的延展需求。

　　6，受欢迎程度：指该网页是不是受欢迎。

　　以上便是百度搜索引擎决定搜索结果排序时考虑的六大原则，那么六大原则的侧重点是怎样的呢？哪个原则在实际应用时占比最大呢？其实在这里没有一个确切的答案。在百度搜索引擎早期，这些阈值的确是相对固定的，比如“相关性”在整体排序中的重量可以占到七成。但随着互联网的不断发展，检索技术的进步，网页数量的爆发式增长，相关性已经不是难题。于是百度搜索引擎引入了机器学习机制，让程序自动产出计算公式，推进排序策略更加合理。

　　 外部链接的作用

　　1，吸引蜘蛛抓取：虽然百度在挖掘新好站点方面下了很大工夫，开放了多个数据提交入口，开避了社会化发现渠道，但超链依然是发现收录链接的最重要入口。

　　2，向搜索引擎传递相关性信息：百度除了通过TITLE、页面关键词、H标签等对网页内容进行判断外，还会通过锚文本进行铺助判断。使用图片作为点击入口的超链，也可以通过alt属性和title标签向百度传情达意。

　　3，提升排名：百度搜索引擎虽然降低了对超链的依赖，但对超链的识别力度从未下降，制定出更加严格的优质链接、正常链接、垃圾链接和作弊链接标准。对于作弊链接，除了对链接进行过滤清理外，也对链接的受益站进行一定程度的惩罚。相应的，对优质链接，百度依然持欢迎的态度。

　　4，内容分享，获取口碑：优质内容被广泛传播，网站借此获得的流量可能并不多，但如果内容做得足够，也可以树立自己的品牌效应。

（整理自网络）

解读百度搜索引擎工作原理

第一，对用户的价值

第二，链接重要程度

相关 [百度搜索引擎工作] 推荐：