搜索引擎是如何工作的(第一章)

标签: Blog 搜索引擎 网站优化 | 发表时间:2011-03-22 14:34 | 作者:Gioseo yun
出处:http://gioseo.com

搜索引擎是如何工作的

搜索引擎有4个功能 – 抓取, 收录, 计算相关性和排名结果。

1. 抓取和收录

抓取和收录网络里数以亿计的文件,文档,新闻,音像等。

2.提供答案

对搜索关键词给出相关的页面以及相应的排名。

crawling and indexing
把整个网络想象成一个很大的城市,有许多的地铁站点。

每一个站点就是一个文件(有时候是一个网页,但有时候也可能是一个PDF,JPG或者是其他的文件)。搜索引擎需要通过一个方式来“抓取”整个城市并找到所有的站点,这个方式便是 — 链接。

“网络里的链接使得所有存在的页面关联在一起”

(至少可以说所有搜索引擎能够检索的页面。)搜索引擎的爬虫们,或者说蜘蛛们通过链接发现数以亿计的相互关联的页面。

一旦搜索引擎发现这些页面,他们接下来的任务便是解析页面的代码然后把选择好的页面储存进巨型硬盘,一般有对应的搜索时随时调出。为了不足一秒内完成这种超数量级的任务,搜索引擎的服务器遍布了全世界。

几乎难以用语言来形容这些成千上万台超级服务器处理的数据的庞大。无论如何,人们在搜索时总是希望立即获得搜索结果的,及时是3到4秒的延迟都会带来不满,所以搜索引擎努力让结果更快的呈现。

providing answers

当人们在线搜索某样东西时,他们总是需要搜索引擎做两件事 — 首先,从数以亿计的页面里返回那些与搜索词相关或有用的结果,然后,按页面的价值(或重要程度)来对结果进行排名。搜索引擎优化就在于增加页面的”相关性”和”重要性”。

对搜索引擎来说,相关性并不是说页面里展现并强调了多次搜索词汇。早期,搜索引擎偏向于这种过分简单化的公式,但很快他们便发现搜索结果有很大的问题。经过反复的修改,聪明的工程师们设计了更好的公式来使得搜索结果更加合适。

如今上百种因素影响着相关性,我们将在整个指南里讨论这些因素。

 

重要性是一个很难量化的概念,但搜索引擎必须努力做好这个工作。

如今,大部分搜索引擎把重要性解释为流行程度 — 一个网站或一个页面的受欢迎程度一定是和他包含信息的价值程度成正比的。实践证明这个假设是非常成功的,搜索引擎的这套方法让用户的满意度不断上升。

流行程度和相关性不是由人工来定义的(幸好不是,否则全地球的人都来干这事才行)。相反,搜索引擎设计了一系列精妙的算法来将这些庞大的信息排序。这些算法包含了几百种元素。在搜索营销领域,我们称之为“排名因素”。SEOmoz精心制作了一份相关的材料 — 影响搜索引擎排名的因素

 

搜索营销人员是怎样在搜索排名中获得成功的

搜索引擎极为复杂的算法让人咋一看是完全琢磨不透的,更何况关于如何获得更好的排名以及更多的流量,他们提及的少之又少。他们提供的一些如何优化网站的建议如下:

 

yahoo

Yahoo对网站管理员的建议

许多因素决定一个网页是否会出现在搜索排名中或者排名是上升还是下降,

这些因素包括:

  • 来自其他网站链接的数量
  • 页面的内容
  • 收录页面的更新
  • 新产品版本的测试
  • 新网站的收录
  • 搜索算法的改变以及其他因素的改变

 

bing

Bing对网站管理员的建议

为了使网站获得更好的排名,Bing的工程师有以下一些建议:

  • 在可见的网页文本里包含那些潜在的搜索词汇
  • 页面的大小应该合适。我们建议一个页面对应一个主题。一个没有图片的HTML页面大小不应超过150kb
  • 确保每个页面至少与一个静态文本链接相连
  • 不要把你希望搜索引擎抓取的文本放在图片里。比如,如果你希望搜索引擎收录你公司的名字和地址,请不要把它们放在公司的LOGO里

google

 

Google对网站管理员的建议

下面是Goolge工程师的一些建议:

  • 为用户,而不是为搜索引擎提供内容。不要欺骗性地对用户隐藏一些文字,而把这些文字展示给搜索引擎
  • 网站应该层次分明。每个页面至少与一个静态文本链接相连
  • 网站的信息应该是丰富且有用的。页面的title元素和ALT属性都应该用准确的语言来描述
  • 一个页面的链接不应超过100个。

 

iceberg

上面说的只是搜索营销庞大知识体系中的冰山一角,没关系,热爱搜索引擎营销的我们应该勇往直前!!

在过去的12年间, 搜索营销人员总结了许多搜索引擎的排名规则并用这些规则让他们以及他们客户的网站获得更好的排名

出乎人们的意料,搜索引擎支持其中一些做法。一些搜索营销会议也吸引了许多各大搜索引擎的工程师来参加。

experiment

使用搜索引擎来自由地进行实验,然后验证理论和形成观点,这种方式对于网站管理员来说比任何一个工具都来得有效。只有经历了反复且艰苦的不断实验的过程才能真正了解搜索引擎是如何运作的。

  1. 注册一个网站,域名用一个没有意义的词语(如ishkabibbell.com)
  2. 建立一些页面,这些页面都已同一个荒谬的词语来作为目标,如yoogewgally
  3. 使用多种文字布局,格式,关键词,链接结构等,但保持页面的一致性。
  4. 用这个域名下收录良好的页面做链接指向其他的域名
  5. 记录搜索引擎的活动及页面的排名
  6. 在目标页上做一些小小的改动,看看什么因素可以让排名的结果上升或者下降
  7. 记录任何有效的结果,然后用不同的域名及不同的词语来做相同步骤的测试,如果最后得到的结果一致的话,那说明你很有可能发现了搜索引擎使用的一种模式。

在实验中,我们假设在页面的代码中越靠上的链接能传递的权重越多。我们注册了一个没有任何意义的域名,这个域名指向3个页面,页面都只提及到一次这个没有意思的词。在搜索引擎抓取页面后,我们发现首页最高位的链接链向的页面在这个词上排名第一,第二第三则分别是中位链接和低位链接。

经过多种实验,分析以及纠正,搜索营销人员们发现了搜索引擎的基本运作方式以及让网站获得更高排名和更多流量的关键因素。

以后的章节将清晰且简明地介绍这些通过实践而得出的结果。

英文原文地址:http://guides.seomoz.org/chapter-1-how-search-engines-operate

有99.99%的可能性你也会喜欢:

影响搜索引擎排名的因素

Google analytics增加网站速度监测

短网址对SEO的影响

做外链之前需了解的10个规则
无觅

相关 [搜索引擎 工作] 推荐:

搜索引擎是如何工作的(第一章)

- yun - 就SEO
搜索引擎有4个功能 – 抓取, 收录, 计算相关性和排名结果. 抓取和收录网络里数以亿计的文件,文档,新闻,音像等. 对搜索关键词给出相关的页面以及相应的排名. 把整个网络想象成一个很大的城市,有许多的地铁站点. 每一个站点就是一个文件(有时候是一个网页,但有时候也可能是一个PDF,JPG或者是其他的文件).

解读百度搜索引擎工作原理

- - MyBlog
【文章摘要】以下便是百度搜索引擎决定搜索结果排序时考虑的六大原则,那么六大原则的侧重点是怎样的呢. 哪个原则在实际应用时占比最大呢. 在百度搜索引擎早期,这些阈值的确是相对固定的,比如“相关性”在整体排序中的重量可以占到七成. 但随着互联网的不断发展,检索技术的进步,网页数量的爆发式增长,相关性已经不是难题.

Google发布交互式信息图:搜索引擎是怎样工作的?

- - 雷锋网
每一个人都好奇Google 搜索是怎样工作的,是怎样从一个页面爬行到另一个页面的,当人们搜索时怎样排列这些结果的. 所以Google用一个全新的方式呈现了这个答案,看看下面的 交互式图表,详细解释了搜索过程,包括Google是如何处理垃圾邮件的. Google去年发布了一个互动图谱( The Story Of Send)解释如何处理邮件的.

uSniff:BT种子搜索引擎

- leqoqo - 软件志
一、uSniff相关信息: 1、官方主页:http://www.usniff.com/ 2、简介:uSniff是一个BT种子搜索引擎,简单、易用、实时是其最大的优点,其搜索引擎数据库包含了17个知名种子站点的种子信息,目的是想发展成为世界上最大的BT种子搜索引擎,而且对于每个种子,该搜索引擎都会进行安全认证,以保证用户的正常使用.

资源搜索引擎

- - 不死鸟 - 分享为王官网
易搜 阿里百度夸克网盘搜索. tg中文搜索 电报资源搜索引擎. 千帆搜索 电报资源搜索引擎. 影视搜 影视聚合搜索引擎. 辅助狗 无捆绑软件搜索引擎. 查报告 可查询各行业的分析报告. 学霸盘 课程资料百度网盘. 库问搜索 PDF文献资料搜索.

人眼启发视觉搜索引擎

- feng823 - Solidot
Google上周宣布将支持声音和图片进行搜索,但一家创业公司在图像搜索方面走在了Google前面. 源自伦敦帝国学院研究项目的创业公司Cortexica,开发出视觉搜索工具,通过手机拍摄产品照片,它会自动呈现价格信息. Cortexica已经发布了一个用于比较酒价格的工具WINEfindr. Cortexica的视觉搜索技术是受到了人眼视觉系统的启发,它能识别出一个目标的关键特征,不受方位、大小、光线亮暗的影响.

比较好的学术搜索引擎

- hfut_chen - C++博客-首页原创精华区
     摘要: 1、http://scholar.google.com/. Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数. 略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章.

Blekko 对搜索引擎的新探索

- thinkingit - 知乎的博客
Blekko 这款搜索产品做的如何. 从目前我的使用过程来看,Blekko还是很让人激动的. 在谈Blekko之前就要先问:为何在搜索这个看似已经垄断的行业还会有人想去分一杯羹,这些小团队能与Google或微软这样的巨头抗衡吗. 比如之前的Powerset,后来的Cuil,和现在的Blekko. 在Google之前Yahoo是靠人工收录网页,Google的算法和蜘蛛革了搜索的命,一直垄断搜索业十余年,而现在随着WEB 2.0的发展,让人又看到了搜索业革命的火种,可以说Blekko就是这样的一个产品.

Mr.Icons:图标icon搜索引擎

- 壮壮爱 - 够趣堂
之前Anliu在如何更换更好的icon文章里面推荐了4个icon搜索引擎,目前部分已经不复存在. 不过Mr.Icons倒是又一个不错的选择,可以搜索图标icon进行下载,有PNG、ico格式以及不同大小提供下载. Mr.Icons还提供图标icon集打包下载,比如动物图标等. 和之前的介绍几款搜索引擎一样,依然不支持中文.

迅搜全文搜索引擎 XunSearch

- Le - 开源中国社区最新软件
迅搜(xunsearch)是采用 C/C++ 基于 xapian 和 scws 开发的全文搜索引擎解决方案,提供 PHP 语言的开发接口. 支持海量数据高速检索,功能强大,简单易用. 本项目旨在帮助一般开发者针对既有的海量数据,快速而方便地建立自己的全文搜索引擎. 全文检索可以帮助您降低服务器搜索负荷、极大程度的提高搜索速度和用户体验.