Embedding - 另一种站内搜索方案

标签: | 发表时间:2023-05-06 07:42 | 作者:
出处:https://m.weibo.cn
最近在考虑站内搜索的技术方案时,首先考虑的是Embedding的方案而不是全文索引。

对于普通网站,数据量不算大,上全文检索很麻烦,需要专门的服务,第三方服务贵,自己搭需要额外服务器。

现在借助Embedding方案搭配向量数据,就可以简单很多,每次新增或者更新内容,同时生成向量数据存到数据库,搜索时,将搜索的关键词生成向量再去向量数据库搜索。

Embedding有不少开源方案,即使用OpenAI的成本也不高。

但我还没实际试过,不知道有没有已经用过这套方案的欢迎分享经验教训。

补充一下这分词和Embedding的区别 http://t.cn/A6NYugbE :
分词是将原文的文本分词,搜索的时候关键字和分词结果匹配就能搜到结果,如果文本匹配。

比如你有段文字:“老鼠爱大米”,会分词成“老鼠”、“爱”、“大米”、“爱大米”、“老鼠爱大米”等,你搜任意个分词例如“老鼠”,就能找到,但是你搜“🐭”“mouse”“老鼠爱食物”是搜不到的。

Embedding是将文本变成多维数字向量,按照文本之间的相似度搜索的,语言无关,不需要精确匹配关键字只要意思相近也能匹配到。
同样你有段文字:“老鼠爱大米”,会变成数字向量,例如
[.., 0.3, 0.5, ....],那么用户搜索“老鼠”,也先变成数字向量[.., 0.2, 0.3, ....],然后去向量数据库搜索,会搜索到“老鼠爱大米”这个项对应的匹配度最高,并且超过一定阈值,那就返回它作为匹配的结果。类似的,你搜“🐭”,也是先变成向量[.., 0.21, 0.3, ....]再搜索,这个向量和之前“老鼠”的向量只有细微的差别,所以你一样能得到跟“老鼠”或“mouse”差不多的搜索结果。

另外OpenAI介绍Embedding的文档写的非常好👍🏻
http://t.cn/A6NYmQXQ

相关 [embedding 搜索] 推荐:

Embedding - 另一种站内搜索方案

- -
最近在考虑站内搜索的技术方案时,首先考虑的是Embedding的方案而不是全文索引. 对于普通网站,数据量不算大,上全文检索很麻烦,需要专门的服务,第三方服务贵,自己搭需要额外服务器. 现在借助Embedding方案搭配向量数据,就可以简单很多,每次新增或者更新内容,同时生成向量数据存到数据库,搜索时,将搜索的关键词生成向量再去向量数据库搜索.

深度搜索

- - 译言最新精选
译者: HorseHour 原文地址: streamhacker.com. 当我们准备发布 Weotta时,我们已经为如何描述它犯了难. 我们使用了机器学习和自然语言处理吗. 我们最终觉得“深度搜索”是对我们工作最贴切的描述,它是一个超越了基本文本搜索的复杂搜索系统的简洁描述. 无需赘言,不管怎么看,我们都不是这个领域唯一的一家公司;谷歌和很多其他公司都在对深度搜索的各个方面进行研究.

搜索的未来

- Levi - 月光博客
笔者认为,未来的搜索有两个趋势:个性化,社会化. (注:本文给出的很多链接需要特殊方式才可以访问,请自行解决).   从google诞生的那一天起,google的搜索本质上并没有什么变化,依旧是:一个大大的搜索框,你敲进去几个词,google给出一些相关的网页. 不同的人对于同一个关键词所期待的搜索结果可能有很大差别啊.

google搜索技巧

- - ITeye博客
搜索的词语是网页中链接内包含的关键词(可使用多个关键词). 搜索的词语是网页标题中包含的关键词(可使用多个关键词). 所搜索的文件一个特定的格式. 搜索的词语是网页中链接内包含的关键词. 搜索的词语是网页内文包含的关键词. inurl:google.com 开源. 所进行的搜索在指定的域名或网站内.

oracle全文搜索

- - Oracle - 数据库 - ITeye博客
不使用Oracle text功能,当然也有很多方法可以在Oracle数据库中搜索文本,比如INSTR函数和LIKE操作:. 有很多时候,使用instr和like是很理想的, 特别是搜索仅跨越很小的表的时候. 然而通过这些文本定位的方法将导致全表扫描,对资源来说消耗比较昂贵,而且实现的搜索功能也非常有限,因此对海量的文本数据进行搜索时,建议使用oralce提供的全文检索功能.

个性化搜索

- - CSDN博客云计算推荐文章
         随着大数据日益成为IT领域的主流,如何利用大数据为业务提供支持以及来扩展市场成为当今众多公司追逐的目标. 目前,比较热门的领域有两块:recommendation(推荐系统)和personalization search(个性化搜索).        这两者有着很大的关联性和相似性,都是在大数据的环境得到了充分的发展,特别是recommendation,在Netflix公司举办的一个比赛---奖金一百万美元.

Google高级搜索技巧

- yun - 就SEO
今天给大家介绍一些非常实用的Google高级搜索技巧,不管是平时搜索网页还是做SEO,这些高级搜索语法都帮了我很大的忙. 语法 实际操作 搜索结果 “ ” “就SEO” 精确匹配包含“就SEO”的网页 - 美洲虎 -汽车 包含美洲虎,不包含汽车的网页 * 中国 * 现状 让Google自动补全,如中国教育现状 define: define:seo 查询seo的定义结果 site: site:gioseo.com.

如何搜索flickr图片?

- Penny - 让PPT设计NEW一NEW
    首先恭祝大家国庆节快乐. 好久没与大家交流了,也有很多朋友一直很期待Lonely Fish快点更新,所以我在放假第一天就奉上好东东给大家. 今天与大家交流的是关于flickr图片搜索的,虽然我自己很少制作全图型PPT,但我知道有很多朋友对图片需求量还是挺大的,所以我觉得今天的议题应该对大家有帮助.

uSniff:BT种子搜索引擎

- leqoqo - 软件志
一、uSniff相关信息: 1、官方主页:http://www.usniff.com/ 2、简介:uSniff是一个BT种子搜索引擎,简单、易用、实时是其最大的优点,其搜索引擎数据库包含了17个知名种子站点的种子信息,目的是想发展成为世界上最大的BT种子搜索引擎,而且对于每个种子,该搜索引擎都会进行安全认证,以保证用户的正常使用.

Google推出航班搜索

- xing - cnBeta.COM
Google去年以7亿美元价格收购了提供旅行搜索服务的公司ITA Software,现在利用ITA Software的数据和算法,它正式宣布了“飞行搜索”.