更新于:04-06 09:44

有关[搜索]分类推荐

阿里一面,给了几条SQL,问需要执行几次树搜索操作?

于01-31 05:20 - 捡田螺的小男孩 -
有位朋友去阿里面试,他说面试官给了几条查询SQL,问:需要执行几次树搜索操作. 我朋友当时是有点懵的,后来冷静思考,才发现就是考索引的几个基础知识点~~ 本文我们分九个索引知识点,一起来探讨一下. 如果有不正确的话,欢迎指出哈,一起学习~. github地址,感谢每颗star. 面试官考点之为什么选择B+树作为索引结构.

搜索系统中的纠错问题

于02-12 23:59 - -
纠错是搜索引擎中一个非常有特色的模块,对用户输入的内容进行改写从而让用户得到正确的结果,有的时候也会带有一些惊喜度,所以纠错技术是一个搜索体验的加分项,近期突然对这块有兴趣,所以就了解了一下. (学习周报本周停,学习内容都在这了). 人非圣贤,孰能无过,别说是搜索的时候,哪怕是我们打字、写作文的时候,都会出现错字,一般的错别字不会对最终目标带来很大影响,且出现频率很低,不拘小节的我们常常会忽略这样的小问题,但是,在搜索场景下,错别字意味着可能就搜不到内容了,对于用户而言,就是需求无法满足,造成了很差的体验,因此在搜索场景中,就很有必要去纠错.

大幅降低存储成本,Elasticsearch可搜索快照是如何办到的?

于12-16 19:26 - 云加社区 -
Elasticsearch 7.10 版本最近发布,该版本有一个重磅特性:Searchable snapshots (可搜索快照功能),可以大幅度地降低存储成本. 那么 Searchable snapshots 的使用方式和实现效果是怎样的呢,下面就让我们来一探究竟吧. 在 Searchable snapshots 可搜索快照功能发布之前,通过调用 _snapshot API 对索引打的快照,不管是存储在 S3 还是 HDFS 或者是腾讯云的对象存储 COS上,都是不能够直接进行查询的.

分布式搜索引擎Elasticsearch的架构分析

于12-08 01:51 - vivo互联网技术 -
ES(Elasticsearch下文统一称为ES)越来越多的企业在业务场景是使用ES存储自己的非结构化数据,例如电商业务实现商品站内搜索,数据指标分析,日志分析等,ES作为传统关系型数据库的补充,提供了关系型数据库不具备的一些能力. ES最先进入大众视野的是其能够实现全文搜索的能力,也是由于基于Lucene的实现,内部有一种倒排索引的数据结构.

FAISS + SBERT实现的十亿级语义相似性搜索

于11-14 10:30 - - 人工智能开发者
译者:AI研习社( FIONAbiubiu). 双语原文链接: Billion-scale semantic similarity search with FAISS+SBERT. 语义搜索是一种关注句子意义而不是传统的关键词匹配的信息检索系统. 尽管有许多文本嵌入可用于此目的,但将其扩展到构建低延迟api以从大量数据集合中获取数据是很少讨论的.

网盘资源搜索网站合集

于10-26 11:41 - -
小马盘搜索: https://www.xiaomapan.com/. 酷搜: https://www.kolsou.com/. 轻舟网: https://www.qzhou.com.cn/. 大圣盘: https://www.dashengpan.com/. 使用要求:扫码关注公众号.

磁力链接BT种子电驴搜索下载网站合集 | 合集网

于10-26 11:39 - -
https://www.cilipa.com(被墙). https://xiongmaocl.fun(被墙). https://u3c3.com/ (被墙). http://m.pushbt.top/ 只有用手机浏览器才显示网站内容. 网址防丢失邮箱[email protected] 发邮件到[email protected]获取最新地址.

如何使用 Everything 同时搜索文件夹名和文件名[技巧]

于09-20 19:59 - 青小蛙 - 电脑技巧 Everything
我有一个资料的路径如下: E:\工作\工作资料\台账&花名册\02.人员花名册.xlsx. 目前我只记得住在一个 【 台账】文件夹下有 一个叫【 人员】的东西,请问如何搜索. 虽然,直接搜索 人员也肯定可以得到结果,但如果文件数量很多,能缩小搜索范围岂不是更好. 最后 @ Zakary 自己找到了解决方案.

ElasticSearch实现基于经纬度的附近搜索

于08-04 12:43 - 标点符 - 分享
ElasticSearch除了支持文本检索外,还支持地理信息检索. 它主要支持两种类型的地理查询:一种是地理点(geo_point),即经纬度查询,另一种是地理形状查询(geo_shape),即支持点、线、圈、多边形查询等. ElasticSearch实现经纬度附近搜索. 1、创建映射(mapping).

Trendyol 搜索团队的CI/CD流水线结构

于07-28 22:26 - frankinbj -
本文将描述在Trendyol的搜索团队中,我们的流水线(pipeline)是如何设计的,以及我们的CI/CD都有哪些特点:. • 为QA和开发团队创建同步分支. • 用Sonar分析构建项目. • Sonar质量门状态检查. • QA同步功能流水线. • 为测试部署一个基于特性的容器.

ES既是搜索引擎又是数据库?真的有那么全能吗? - 更多 - dbaplus社群:围绕Data、Blockchain、AiOps的企业级专业社群。技术大咖、原创干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙。

于06-30 11:04 - -
经常遇到很多朋友询问,如何学好Elasticsearch. 这个问题本质上很不好回答,但我一直又很想好好回答,所以本文就以我个人的经验视角,跟大家探讨一下如何正确的拥抱Elasticsearch. Elasticsearch是什么,不同的人有不同的理解定位,之前写过Elasticsearch对比其它数据产品的文章.

Elasticsearch搜索中文分词优化 - 简书

于06-22 15:18 - -
Elasticsearch 中文搜索时遇到几个问题:. 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?.

Elasticsearch项目实战,商品搜索功能设计与实现!

于04-14 01:08 - MacroZheng -
SpringBoot实战电商项目mall(30k+star)地址: github.com/macrozheng/…. 上次写了一篇 《Elasticsearch快速入门,掌握这些刚刚好. 》,带大家学习了下Elasticsearch的基本用法,这次我们来篇实战教程,以 mall项目中的商品搜索为例,把Elasticsearch用起来.

一个用于搜索电子书的 Telegram-bot

于12-22 22:33 - - 计算机 软件 Free i-book.in 电子书
其实这篇文章应该很早之前就写的,但是我太懒了,一直拖到现在. TG-bot还是蛮好玩的,可以做到很多意想不到的功能. 因为i-Book.in页面的后端是algolia的,他们对于免费用户最大的数据存储量只有1W条. 而经过多次扩容,我目前的数据量已经有超过了很多了,但是我还是没有将它整改,因为Flask实在是太难了.

Airbnb深度学习搜索引擎实践-模型发展历程 – Semocean

于12-08 07:56 - -
该文章是KDD 2019上发表的Airbnb的搜索引擎主要算法的文章,主要介绍了Airbnb算法的演进历程. 还是Airbnb一贯的朴实无华的风格:不在乎有多少创新,更多是工业界结合业务上的算法工程,该文章很难的是文章中不仅介绍了Airbnb的算法,以及使用该算法的出发点和考虑,同时还记录了中间的各种坑,甚至一些失败的实验,真的是经验的无私分享,写作手法更像各大厂内网的技术总结分享文章.

分布式向量搜索系统 Vearch

于10-10 16:04 - - 数据库管理工具
Vearch 是一个分布式向量搜索系统,可以用来计算向量相似度,或用于机器学习领域,如:图像识别、视频识别或自然语言处理等各个领域. 本系统基于 Faiss 实现, 提供了快速的向量检索功能. 提供类似 Elasticsearch 的 Restful API 可以方便地对数据及表结构进行管理查询等工作.

LinkedIn公司实现的实时搜索引擎Zoie

于11-29 21:19 - -
Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为:. Zoie是一个实时的搜索引擎系统,其需要逻辑上独立的索引和搜索子系统相对紧密的结合在一起,从而使得一篇文档一经索引,就能够立刻被搜索的到. ZoieSystem是Zoie的重要组成部分,其一方面通过实现DataConsumer接口而完成了索引功能,一方面通过实现IndexReaderFactory>而完成了搜索功能,并将二者紧密的结合在一起.

CVPR 2019 神经网络架构搜索进展综述

于07-29 10:59 - - 人工智能
来源:https://pixabay.com/. 本文将介绍今年于美国长滩举办的CVPR2019会议上展示的神经网络架构搜索(NAS)领域的研究成果. 原标题:Neural Architecture Search at CVPR 2019. 作者 | Vladimir Nekrasov. 编译 | 林肯二百一十三(西安交通大学).

写了个磁力搜索的网页 - 收录最近热门分享的资源

于05-11 05:16 - Xiaoxia - Internet 我的分享
好吧,又很疯狂地做了一个东西: http://bt.shousibaocai.com/. 平常我们高端用户都会用到BT工具来分享一些好玩的资源,例如ubuntu 13.04的ISO安装盘,一些好听的音乐等. 这个时候我们会进入一个叫做P2P的网络,大家都在这个网络里互相传递数据,这种分布式的数据传输解决了HTTP、FTP等单一服务器的带宽压力.

es近实时搜索原理

于05-08 09:56 - dwj147258 -
 随着按段(per-segment)搜索的发展, 一个新的文档从索引到可被搜索的延迟显著降低了. 新文档在几分钟之内即可被检索,但这样还是不够快.  提交(Commiting)一个新的段到磁盘需要一个 . fsync 来确保段被物理性地写入磁盘,这样在断电的时候就不会丢失数据. 但是  fsync 操作代价很大; 如果每次索引一个文档都去执行一次的话会造成很大的性能问题.

大众点评搜索基于知识图谱的深度学习排序实践

于01-18 18:38 - 美团技术团队 -
搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带. 而用户搜索的方式和场景非常多样,并且由于对接业务种类多,流量差异大,为大众点评搜索(下文简称点评搜索)带来了巨大的挑战,具体体现在如下几个方面:. 意图多样:用户查找的信息类型和方式多样. 信息类型包括POI、榜单、UGC、攻略、达人等.

深度学习在搜索业务中的探索与实践

于01-11 04:00 - 美团点评技术团队 -
本文根据美团高级技术专家翟艺涛在2018 QCon全球软件开发大会上的演讲内容整理而成,内容有修改. 2018年12月31日,美团酒店单日入住间夜突破200万,再次创下行业的新纪录,而酒店搜索在其中起到了非常重要的作用. 本文会首先介绍一下酒店搜索的业务特点,作为O2O搜索的一种,酒店搜索和传统的搜索排序相比存在很大的不同.

[转]排名算法(二)--淘宝搜索排序算法分析

于12-31 16:36 - App_12062011 -
原文:https://blog.csdn.net/u011966339/article/details/78052569 . 淘宝搜索排序的目的是帮助用户快速的找到需要的商品. 从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置. 为了更好的实现这个目标,算法排序系统基本按三个方面来推进:.

4个步骤,小结搜索系统

于12-19 22:04 - World - 产品设计 2年 初级 搜索系统
搜索系统作为用户自行使用的引导工具,重要程度不言而喻;本文主要从4步:需求识别、检索、排序、展现来总结搜索系统的工作机制. 搜索是一个比较有年份的功能,他不是一个简单的搜索框,毕竟搜索造就了一个百度帝国. 搜索系统在产品架构中是帮助用户搜索到他们想要的内容,当用户不知道如何通过其他路径直接获取特定内容的时候才会使用,也就是说搜索是用户自行使用最后的一个引导工具,重要程度不言而喻.

LinkedIn公司实现的实时搜索引擎Zoie

于11-29 21:19 - -
Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为:. Zoie是一个实时的搜索引擎系统,其需要逻辑上独立的索引和搜索子系统相对紧密的结合在一起,从而使得一篇文档一经索引,就能够立刻被搜索的到. ZoieSystem是Zoie的重要组成部分,其一方面通过实现DataConsumer接口而完成了索引功能,一方面通过实现IndexReaderFactory>而完成了搜索功能,并将二者紧密的结合在一起.

ElasticSearch位置搜索 - Spring , Hadoop, Spark , BI , ML - CSDN博客

于11-09 10:33 - -
在ElasticSearch中,地理位置通过. geo_point这个数据类型来支持. 地理位置的数据需要提供经纬度信息,当经纬度不合法时,ES会拒绝新增文档. 这种类型的数据支持距离计算,范围查询等. mapping为city:. geo_point类型必须显示指定,ES无法从数据中推断. 在ES中,位置数据可以通过对象,字符串,数组三种形式表示,分别如下:.

faiss相似性搜索和向量聚类库 faiss: A library for efficient similarity search and clustering of dense vectors.

于10-12 11:31 - -
Faiss是一个有效的相似性搜索和密集向量聚类的库. 它包含搜索任意大小的向量集的算法,包括不适合放入RAM的数据集. 它还包含用于评估和参数调整的支持代码. Faiss是用C ++编写的,包含Python / numpy的完整包装. 一些最有用的算法是在GPU上实现的. 它由 Facebook AI Research开发.

电商搜索算法技术的演进

于10-02 15:13 - -
阿里妹导读:2018年9月28日,阿里电商搜索事业部迎来了一场以“搜·荐未来”为主题的技术峰会. 搜索与推荐算法经过多年的发展,从最初简单的统计模型,机器学习到形成完整的离线在线与实时的深度学习与智能决策体系,每年都有新的算法突破,帮助搜索与推荐的体验与效果取得大幅提升,成为驱动电商商业创新与发展的新引擎.

有赞搜索系统的技术内幕

于09-18 15:37 - 有赞技术 - 程序员 工具 后端
上文说到有赞搜索系统的架构演进,为了支撑不断演进的技术架构,除了 Elasticsearch 的维护优化之外,我们也开发了上层的中间件来应对不断提高的稳定性和性能要求. Elasticsearch 的检索执行效率可以表示为:. 其中 num_of_files 表示索引文件段的个数,N 表示需要遍历的数据量,从这里我们可以总结出提升查询性能可以考虑的两点:.

阿里如何实现秒级百万TPS?搜索离线大数据平台架构解读

于09-17 20:32 - -
阿里妹导读:搜索离线数据处理是一个典型的海量数据批次/实时计算结合的场景,阿里搜索中台团队立足内部技术结合开源大数据存储和计算系统,针对自身业务和技术特点构建了搜索离线平台,提供复杂业务场景下单日批次处理千亿级数据,秒级实时百万TPS吞吐的计算能力. 一个典型的商品搜索架构如下图所示,本文将要重点介绍的就是下图中的离线数据处理系统(Offline System).