分布式搜索算法

标签： 大数据 | 发表时间：2015-04-05 03:10 | 作者：

出处：http://my.oschina.net/apdplat

对于搜索引擎来说，索引存放在成千上万台机器上，如何进行分布式搜索呢？

假设搜索结果是以分页的方式显示，以PageNumber代表当前页，从1开始，以PageSize代表页面大小，默认为10，以N代表搜索服务器数量。最简单的分布式搜索算法为：有一台 合并服务器负责接受用户的搜索请求，然后分别向N台机器获取前PageNumber*PageSize条结果，得到的结果数为N*PageNumber*PageSize，然后把这些数据重新进行排序，根据所要显示的页面PageNumber，获取从(PageNumber - 1) * PageSize + 1开始的PageSize条结果返回给用户。

这个算法很简单，但有一些问题：

问题一：每次翻页都要向每台搜索服务器搜索一遍

通常情况下，用户在搜索内容时都是顺序翻页的，即从第一页往下顺序翻，这个算法没有设计缓存来减轻搜索服务器的压力。

问题二：越往后翻页，搜索服务器的搜索压力越大

如果我们是查第100页，即第991-1000 条记录，那么这个算法需要从N台搜索服务器分别获取1000条记录才能完成，对于每台搜索服务器的搜索压力很大。

问题三：越往后翻页，合并服务器的排序压力越大

大型搜索引擎往往是由成千上万台机器组成的分布式搜索集群，如果按这个算法来进行翻页，假设N为1000，查询第100页时，合并服务器得到的结果数为N*PageNumber*PageSize = 1000 * 100 * 10 = 1000000，要对这100万条结果进行排序，对合并服务器来说压力很大。对系统的可伸缩性是一种极大的破坏。

相关 [分布搜索算法] 推荐：

分布式搜索算法

- - 杨尚川的个人页面

对于搜索引擎来说，索引存放在成千上万台机器上，如何进行分布式搜索呢. 假设搜索结果是以分页的方式显示，以PageNumber代表当前页，从1开始，以PageSize代表页面大小，默认为10，以N代表搜索服务器数量. 最简单的分布式搜索算法为：有一台合并服务器负责接受用户的搜索请求，然后分别向N台机器获取前PageNumber*PageSize条结果，得到的结果数为N*PageNumber*PageSize，然后把这些数据重新进行排序，根据所要显示的页面PageNumber，获取从(PageNumber - 1) * PageSize + 1开始的PageSize条结果返回给用户.

[Elasticsearch] 分布式搜索

- - 编程语言 - ITeye博客

本文翻译自Elasticsearch官方指南的 Distributed Search Execution一章. 在继续之前，我们将绕一段路来谈谈在分布式环境中，搜索是如何执行的. 和在分布式文档存储(Distributed Document Store)中讨论的基本CRUD操作相比，这个过程会更加复杂一些.

Google Panda 搜索算法全面上线

- David - GeekPark 捕风捉影

Google宣布针对“内容农场”垃圾网站的Panda算法已经在全球全面上线，所有语言的Google搜索都已经部署上了Panda算法，除了日语、韩语和中文，因为这三个语言的Panda算法还需要继续改进. 对于大多数语言来说，Panda算法会影响到6-9%的搜索结果，其影响比针对英文的Panda算法12%的影响率要低一些.

图像搜索(SIFT算法)组件

- - 行业应用 - ITeye博客

前阵子做图像搜索功能, 对比过一些搜索算法, 发现 sift 比较能满足我的需要, 它在图像旋转, 比例缩放, 图像扭曲的情况下也能有很好的识别效果, 在网上找了一些资料, 有些介绍了算法的细节, 有些做了对比评测. 2013计算机视觉代码合集 - Note of Transposition - 博客频道 - CSDN.NET.

淘宝搜索算法现状

- - 互联网分析

淘宝搜索排序的目的是帮助用户快速的找到需要的商品. 从技术上来说，就是在用户输入关键词匹配到的商品中，把最符合用户需求的商品排到第一位，其它的依次排在后续相应的位置. 为了更好的实现这个目标，算法排序系统基本按三个方面来推进：. 当用户输入关键词进行搜索的时候，系统依据算法模型来给匹配到的每个商品进行实时的计算，并按照分数的大小对商品进行排序.

全文搜索Lucene——之倒排算法

- - 互联网 - ITeye博客

关系数据库不适合做全文搜索. like '%xxx%'效率很慢，建的索引将无效，查询的时候会像翻书一样一页一页的翻. 返回的结果没有匹配度的概念，比如在所有文章里索引一篇想要的文章，可能是希望搜索的关键词在文章中出现的次数越多越是我想要的结果. 当搜索live的时候，也想把lives/living搜出来，但是数据库很难做到.

淘宝搜索算法现状

- - 博客园_知识库

　　淘宝搜索排序的目的是帮助用户快速的找到需要的商品. 从技术上来说，就是在用户输入关键词匹配到的商品中，把最符合用户需求的商品排到第一位，其它的依次排在后续相应的位置. 为了更好的实现这个目标，算法排序系统基本按三个方面来推进：. 　　当用户输入关键词进行搜索的时候，系统依据算法模型来给匹配到的每个商品进行实时的计算，并按照分数的大小对商品进行排序.

搜索引擎网页去重算法

- - 醉清风

相关统计数据表明：互联网上近似重复的网页的数量占网页总数量的比例高达29%，完全相同的网页大约占网页总数量的22%.研究表明，在一个大型的信息采集系统中，30%的网页是和另外70%的网页完全重复或近似重复的. 即：互联网的网页中相当高的比例的网页内容是近似相同或完全相同的. 搜索爬虫抓取会产生网页重复的类型：.

搜索引擎链接算法之：HITS算法解析

- - CSDN博客推荐文章

本文节选自《这就是搜索引擎：核心技术详解》第六章. HITS算法也是链接分析中非常基础且重要的算法，目前已被Teoma搜索引擎（www.teoma.com）作为链接分析算法在实际中使用. 6.4.1 Hub页面与Authority页面. Hub页面和Authority页面是HITS算法最基本的两个定义.

[转]排名算法（二）--淘宝搜索排序算法分析

- - 工作笔记

原文：https://blog.csdn.net/u011966339/article/details/78052569 . 淘宝搜索排序的目的是帮助用户快速的找到需要的商品. 从技术上来说，就是在用户输入关键词匹配到的商品中，把最符合用户需求的商品排到第一位，其它的依次排在后续相应的位置. 为了更好的实现这个目标，算法排序系统基本按三个方面来推进：.