Google发布交互式信息图:搜索引擎是怎样工作的?

标签: 业界 Google 搜索引擎 搜索引擎工作 搜索引擎原理 | 发表时间:2013-03-02 18:11 | 作者:济慈
出处:http://www.leiphone.com

how每一个人都好奇Google 搜索是怎样工作的,是怎样从一个页面爬行到另一个页面的,当人们搜索时怎样排列这些结果的。所以Google用一个全新的方式呈现了这个答案,看看下面的 交互式图表,详细解释了搜索过程,包括Google是如何处理垃圾邮件的。

Google去年发布了一个互动图谱( The Story Of Send)解释如何处理邮件的。

Google搜索的产品经理Jake Hubert表示“我们看着这个网址(The Story Of Send),Matt Cutts [Google首席Web垃圾信息斗士] 和我以及其它人开始思考,搜索是不是也可以用类似的活动幻灯片展示出来呢?” 是的,可以,所以才有了How Search Works幻灯片的由来。

主要为3个部分:

一. 爬行&索引
Google爬行网页后之后就会储存使它能被 搜索到(这些信息像本虚拟的大图书,被称为索引), 总的索引源来自几方面:文本索引库(虚拟的大图书);Google街景(确保搜索时能顾及到现实世界的结果);知识图谱(更好地组织来自人、地点、世界的信息;提供更好的答案)

当你探索到这些字眼的时候,就会有相关链接和隐藏的“复活蛋”,你会发现它透漏着更多信息,就像你拿着鼠标浏览点击的过程。

craw

比如搜索string theory

seach

Google就会迅速在后台寻找与string theory相关的信息:

 

st story

 

二. 依据算法进行网页排名

搜索出来的页面排名全是依据Google算法的,有超过200种排名机制来决定什么应该出现。

比如会根据你搜的发音、自动匹配、同义词、搜索方法、查询了解方向来决定显示结果。网页排名会依据网页品质、新鲜度、安全搜索性、用户内容、可翻译性以及搜索最多的关键字,最后决定显示结果。

algorithms

三. 反垃圾

大部分发垃圾行为都是自动的,然后有些问题文件会手动检查,一旦发现,手动清除。一般你看不到活生生的垃圾被清理的画面,但是一般在声明被取消的1小时内就会移走。

part-3

下面是手动清除的反馈图,都清除些什么东西?

actions-over-time

很感谢Google的这个举动,因为很多人都没法弄明白到底Google是怎么工作的,这个 幻灯片点进去的时候,鼠标移到哪里,就会有相应文字说明,非常直观生动。

Via  searchengineland     附幻灯片 链接

相关:

搜索引擎的大数据时代

 

(若无特别注明, 雷锋网文章皆为原创,转载请注明出处)
原文链接: http://www.leiphone.com/302-keats-google-seach.html

您可能也喜欢:

comScore最新搜索引擎统计数据:Google下,Bing/Yahoo上

搜索引擎工作的基础流程与原理

最新美国搜索引擎市场份额: Google和Bing双双攀升,Yahoo下降

搜索引擎的大数据时代

30个你必须知道的垂直搜索引擎
无觅

相关 [google 信息 搜索引擎] 推荐:

Google发布交互式信息图:搜索引擎是怎样工作的?

- - 雷锋网
每一个人都好奇Google 搜索是怎样工作的,是怎样从一个页面爬行到另一个页面的,当人们搜索时怎样排列这些结果的. 所以Google用一个全新的方式呈现了这个答案,看看下面的 交互式图表,详细解释了搜索过程,包括Google是如何处理垃圾邮件的. Google去年发布了一个互动图谱( The Story Of Send)解释如何处理邮件的.

Google 尝试给你提供搜索内容背景信息,向知识搜索引擎进化

- Felix - 谷奥——探寻谷歌的奥秘
Cyrus Shepard发现了一个全新的Google搜索结果界面,当你搜索Twitter的时候,在传统搜索结果右侧,会展示出一个很醒目的新条目(如上图),告诉你什么是Twitter,其中包括:. 如果你搜索歌手Rihanna的话,Google也会直接告诉你她是谁,她的照片、介绍、音乐试听链接、其他类似歌手等等信息:.

Google式的搜索引擎实现

- - 行业应用 - ITeye博客
Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中.   Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级.

Google搜索引擎架构Caffeine

- - 标点符
什么是 Google Caffeine. Google Caffeine 是 Google 搜索引擎的一次架构重构,旨在满足不断增长的互联网内容和用户实时搜索需求. 它替代了 Google 早期的分层索引系统,转而采用更加实时的索引机制,使搜索结果更加快速和新鲜. 发布时间:Google 于 2009 年 8 月发布 Caffeine 项目 Beta 版本,并于 2010 年 6 月正式启用.

Google Plus 第三方搜索引擎:Google Plus Search

- 老男人 - cnBeta.COM
Google Plus 目前仍在 beta  版状态,而针对 Google Plus 的官方搜索应用至今没有推出. 用户需要搜索 Google+ 上的东西,需要手动在 Google 搜索框里加上 "关键字 site:plus.google.com",不是特别方便. 目前有一些非官方的 Google Plus 搜索应用,例如 Google Plus Search.

第三方 Google+ 搜索引擎 Google Plus Search

- Ivy - 谷奥——探寻谷歌的奥秘
Google Plus 目前仍在 beta  版状态,而针对 Google Plus 的官方搜索应用至今没有推出. 用户需要扫过 Google+ 上的东西,需要手动在 Google 搜索框里加上 "关键字 site:plus.google.com",不是特别方便. Google Plus Search  是一个非官方的 Google Plus 搜索应用,支持中文.

搜索引擎-信息检索实践—网络爬虫

- - CSDN博客互联网推荐文章
网络爬虫有两个任务:下载页面和发现URL. 1.从请求队列中取出URL,下载对应页面,解析页面,找到链接标签. 2.网络爬虫发现了没有遇到过的URL,将其加入请求队列. 网络爬虫使用礼貌策略(politeness policy):. 网络爬虫不会在特定的网络服务器上一次抓取多个页面,在同一个网络服务器的两次请求之间,网络爬虫会等待一定时间.

给浏览器添加SSL加密的Google搜索引擎

- Sam - cnBeta.COM
今天 Google 宣布其搜索引擎也开始支持 SSL 加密传输,以更好地保障用户的数据安全,当然一定程度上也缓解了国内使用Google搜索经常被重置的现象. 下面我介绍一下怎样在主流的浏览器上使用 SSL 加密的Google搜索,包括 IE,Firefox,Chrome,Opera,需要注意的是,如果被转入google.com.hk,请选择主页下的 Go to Google.com ,之后可以正常使用.

Google公布调整搜索引擎算法的细节

- tt5ryan - Solidot
淘宝网女装秋装 写道 "尽管Google拥有很多开放的产品和项目,但搜索引擎算法一直是保密的. 换句话说,搜索是Google的一个黑盒子. Google此前表示,如果Google向外界公布搜索引擎算法,那么将会引起搜索结果排序的混乱. 但Google周五在官方博客上发布了一则视频,视频给出了Google工程师调整搜索引擎算法的细节.

Bing 利用自己的搜索引擎暗讽 Google 邪恶

- HaWk - cnBeta.COM
今天Google软件工程师Andy Arnt爆料称在Bing里输入两个搜索关键字,即可看到暗讽Google的搜索结果OneBox. 两个关键字分别是:more evil than satan himself(比撒旦本人还邪恶,如上图):.