分布式向量搜索系统 Vearch

标签： 数据库管理工具 | 发表时间：2019-10-10 16:04 | 作者：

出处：https://www.oschina.net/?from=rss

Vearch 是一个分布式向量搜索系统，可以用来计算向量相似度，或用于机器学习领域，如：图像识别、视频识别或自然语言处理等各个领域。本系统基于 Faiss 实现，提供了快速的向量检索功能。提供类似 Elasticsearch 的 Restful API 可以方便地对数据及表结构进行管理查询等工作。架构

相关 [分布向量搜索] 推荐：

分布式向量搜索系统 Vearch

- - OSCHINA 社区最新软件

Vearch 是一个分布式向量搜索系统，可以用来计算向量相似度，或用于机器学习领域，如：图像识别、视频识别或自然语言处理等各个领域. 本系统基于 Faiss 实现，提供了快速的向量检索功能. 提供类似 Elasticsearch 的 Restful API 可以方便地对数据及表结构进行管理查询等工作.

分布式搜索算法

- - 杨尚川的个人页面

对于搜索引擎来说，索引存放在成千上万台机器上，如何进行分布式搜索呢. 假设搜索结果是以分页的方式显示，以PageNumber代表当前页，从1开始，以PageSize代表页面大小，默认为10，以N代表搜索服务器数量. 最简单的分布式搜索算法为：有一台合并服务器负责接受用户的搜索请求，然后分别向N台机器获取前PageNumber*PageSize条结果，得到的结果数为N*PageNumber*PageSize，然后把这些数据重新进行排序，根据所要显示的页面PageNumber，获取从(PageNumber - 1) * PageSize + 1开始的PageSize条结果返回给用户.

[Elasticsearch] 分布式搜索

- - 编程语言 - ITeye博客

本文翻译自Elasticsearch官方指南的 Distributed Search Execution一章. 在继续之前，我们将绕一段路来谈谈在分布式环境中，搜索是如何执行的. 和在分布式文档存储(Distributed Document Store)中讨论的基本CRUD操作相比，这个过程会更加复杂一些.

LinkedIn的线上搜索 — 分布式搜索相关

- Shell Wang - J2EE企业应用顾问/咨询- H.E.'s Blog

某个项目缘故对分布式搜索的方式和技术的话题开始高度关注，看了不少资料，如 Apache Solr 和 Katta. 好东西大家应该分享，最近看到LinkedIn 推出的新产品 LinkedIn Signal ，该产品在架构设计上和分布式搜索有着紧密的联系，LinkedIn搜索引擎架构师王坚 (John Wang) 在团队的blog上公布了一些产品内幕，这一资料让我得到了很多启发.

faiss相似性搜索和向量聚类库 faiss: A library for efficient similarity search and clustering of dense vectors.

- -

Faiss是一个有效的相似性搜索和密集向量聚类的库. 它包含搜索任意大小的向量集的算法，包括不适合放入RAM的数据集. 它还包含用于评估和参数调整的支持代码. Faiss是用C ++编写的，包含Python / numpy的完整包装. 一些最有用的算法是在GPU上实现的. 它由 Facebook AI Research开发.

分布式实时搜索方案介绍-senseidb

- - 五四陈科学院-坚信科学，分享技术

以下内容由 [五四陈科学院]提供. zoie：由linkedin开源的建立在lucene之上提供实时索引的系统. 它利用两个内存索引一个硬盘索引来实现实时搜索. bobo-browse：由linkedin开源的基于lucene的分类浏览搜索系统. zookeeper：一个分布式的，开放源码的分布式应用程序协调服务，常用来做配置服务.

分布式搜索引擎Elasticsearch的架构分析

- - 掘金后端

ES（Elasticsearch下文统一称为ES）越来越多的企业在业务场景是使用ES存储自己的非结构化数据，例如电商业务实现商品站内搜索，数据指标分析，日志分析等，ES作为传统关系型数据库的补充，提供了关系型数据库不具备的一些能力. ES最先进入大众视野的是其能够实现全文搜索的能力，也是由于基于Lucene的实现，内部有一种倒排索引的数据结构.

开源分布式搜索平台ELK(Elasticsearch+Logstash+Kibana)+Redis+Syslog-ng实现日志实时搜索

- - C1G军火库

ElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎. 设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便. 支持通过HTTP使用JSON进行数据索引. logstash是一个应用程序日志、事件的传输、处理、管理和搜索的平台. 你可以用它来统一对应用程序日志进行收集管理，提供 Web 接口用于查询和统计.

Elasticsearch分布式搜索架构原理 | Elasticsearch权威指南（中文版）

- -

在继续之前，我们将绕道讲一下搜索是如何在分布式环境中执行的. 它比我们之前讲的基础的增删改查(create-read-update-delete，CRUD)请求要复杂一些. 本章的信息只是出于兴趣阅读，使用Elasticsearch并不需要理解和记住这里的所有细节. 阅读这一章只是增加对系统如何工作的了解，并让你知道这些信息以备以后参考，所以别淹没在细节里.

Word2vec之情感语义分析实战（part3）--利用分布式词向量完成监督学习任务

- - CSDN博客推荐文章

这篇博客将基于前面一篇博客 Part2做进一步的探索与实战. demo代码与数据：传送门. 前面我们训练了单词的语义理解模型. 如果我们深入研究就会发现，Part2中训练好的模型是由词汇表中单词的特征向量所组成的. 这些特征向量存储在叫做syn0的numpy数组中：. 很明显这个numpy数组大小为（16490，300）分别代表词汇表单词数目及每个单词对应的特征数.