FAISS + SBERT实现的十亿级语义相似性搜索

- - 雷锋网

译者：AI研习社（ FIONAbiubiu）. 双语原文链接： Billion-scale semantic similarity search with FAISS+SBERT. 语义搜索是一种关注句子意义而不是传统的关键词匹配的信息检索系统. 尽管有许多文本嵌入可用于此目的，但将其扩展到构建低延迟api以从大量数据集合中获取数据是很少讨论的.

facebook-faiss库 - YiLiang - CSDN博客

- -

三月初，Facebook AI Research（FAIR）开源了一个名为 Faiss 的库，Faiss 主要用于有效的相似性搜索（Similarity Search）和稠密矢量聚类（Clustering of dense vectors），包含了在任何大小的矢量集合里进行搜索的算法. Faiss 上矢量集合的大小甚至可以大到装不进 RAM.

《向量数据库，LLM生态的核心组件》介绍了vector index和vector databases，这篇文章介绍 Faiss，它是一个非常流行的vector index，通过这篇文章能大概理解如何应用 Faiss. Faiss 是Facebook开源的一个Python包，它的目标：. It contains algorithms that search in sets of vectors of any size, up to ones that possibly do not fit in RAM..

faiss相似性搜索和向量聚类库 faiss: A library for efficient similarity search and clustering of dense vectors.

- -

Faiss是一个有效的相似性搜索和密集向量聚类的库. 它包含搜索任意大小的向量集的算法，包括不适合放入RAM的数据集. 它还包含用于评估和参数调整的支持代码. Faiss是用C ++编写的，包含Python / numpy的完整包装. 一些最有用的算法是在GPU上实现的. 它由 Facebook AI Research开发.

Google独立访问人数五月破十亿

- 康爷 - Solidot

在五月份全世界有10亿人访问了Google，这是有史以来的第一次. 根据ComScore和Google的数据，五月访问Google的人数是1,009,699,000，其中印度占14.3%，南非占13.5%，中国和韩国访问比例最低，分别只占到0.8%和0.7%. 微软第二，独立访问人数为9.05亿；Facebook有7.14亿访问者；雅虎是6.89亿.

百度与腾讯：站在十亿消费者身后

- longman - cnBeta.COM

你能想像一个汽车网站付给百度的广告费会有多少. 一个截至2012年底的合同显示，可能要6000万元. 当百度最新一季财报公布的时候，它的收入达到34.15亿，同比增长了78%，净利更增长了95%. 所有人都会感到惊讶：增长太快了，它们怎么那么赚钱. 这个6000万的数字可能会解答一部分疑问.

微软近期或收购Flickr 收购价逾十亿美元

- Leo - cnBeta.COM

据《华盛顿邮报》报道，微软目前正与银湖及其投资方之一加拿大退休金计划投资局（Canada Pension Plan Investment Board，简称CPPIB）计划联合向雅虎提交一份收购计划. 若此收购成功，则微软将成为全球最大图片分享网站Flickr的拥有者.

从百万到十亿PV：Reddit的25条宝贵经验

- - IT经理网

自2005年至今，知名社交新闻网站Reddit的月页面浏览量完成了百万到十亿的转变，流量每15月翻一番，而Reddit的员工数量仍不满30，平均每位员工负责2400万PV. Reddit的高效率运营有两个支点：数以万计的志愿者以及失败中不断积累的宝贵经验. 前不久，Reddit前雇员Jeremy Edberg在RAMP会议上通过主题为“Scaling Reddit from 1 Million to 1 Billion–Pitfalls and Lessons”的演讲与人们分享了Reddit的宝贵经验.

如何应对单日十亿计Web请求

- - 极客521 | 极客521

就在不久之前，AppLovin移动广告平台的单一广告请求数量突破了200亿大关——相当于每一秒钟处理50万项事务——其如火如荼的发展态势帮助众多品牌在激励现有客户的同时、从市场中拉拢到了新的买家. 那么AppLovin是如何打造出这样一套有能力应对数百亿请求、但又无需对硬件及运维人员进行显著扩张的基础设施的呢.

十亿级视频播放技术优化揭密

- - IT瘾-dev

QCon是由InfoQ主办的全球顶级技术盛会，每年在伦敦、北京、东京、纽约、圣保罗、上海、旧金山召开. 自 2007年 3月份首次举办以来，已经有超万名高级技术人员参加过QCon大会. QCon内容源于实践并面向社区，演讲嘉宾依据热点话题，面向 5年以上工作经验的技术团队负责人、架构师、工程总监、高级开发人员分享技术创新和最佳实践.

FAISS + SBERT实现的十亿级语义相似性搜索

介绍

句子Transformers

图片来源：句子 transformers

FAISS

加载模型并对数据集执行推理

为数据集编制索引

执行语义相似性搜索

CPU中的结果

GPU中的结果

但是为什么我不能仅仅序列化编码数据的NumPy数组而不是索引它们呢？如果我能等几秒钟的话，使用余弦相似性呢？

最后的想法

参考文献

相关 [faiss sbert 十亿] 推荐：