更新于:10-28 22:23

有关[搜索]分类推荐

LinkedIn公司实现的实时搜索引擎Zoie

于11-29 21:19 - -
Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为:. Zoie是一个实时的搜索引擎系统,其需要逻辑上独立的索引和搜索子系统相对紧密的结合在一起,从而使得一篇文档一经索引,就能够立刻被搜索的到. ZoieSystem是Zoie的重要组成部分,其一方面通过实现DataConsumer接口而完成了索引功能,一方面通过实现IndexReaderFactory>而完成了搜索功能,并将二者紧密的结合在一起.

ElasticSearch位置搜索 - Spring , Hadoop, Spark , BI , ML - CSDN博客

于11-09 10:33 - -
在ElasticSearch中,地理位置通过. geo_point这个数据类型来支持. 地理位置的数据需要提供经纬度信息,当经纬度不合法时,ES会拒绝新增文档. 这种类型的数据支持距离计算,范围查询等. mapping为city:. geo_point类型必须显示指定,ES无法从数据中推断. 在ES中,位置数据可以通过对象,字符串,数组三种形式表示,分别如下:.

faiss相似性搜索和向量聚类库 faiss: A library for efficient similarity search and clustering of dense vectors.

于10-12 11:31 - -
Faiss是一个有效的相似性搜索和密集向量聚类的库. 它包含搜索任意大小的向量集的算法,包括不适合放入RAM的数据集. 它还包含用于评估和参数调整的支持代码. Faiss是用C ++编写的,包含Python / numpy的完整包装. 一些最有用的算法是在GPU上实现的. 它由 Facebook AI Research开发.

电商搜索算法技术的演进

于10-02 15:13 - -
阿里妹导读:2018年9月28日,阿里电商搜索事业部迎来了一场以“搜·荐未来”为主题的技术峰会. 搜索与推荐算法经过多年的发展,从最初简单的统计模型,机器学习到形成完整的离线在线与实时的深度学习与智能决策体系,每年都有新的算法突破,帮助搜索与推荐的体验与效果取得大幅提升,成为驱动电商商业创新与发展的新引擎.

有赞搜索系统的技术内幕

于09-18 15:37 - 有赞技术 - 程序员 工具 后端
上文说到有赞搜索系统的架构演进,为了支撑不断演进的技术架构,除了 Elasticsearch 的维护优化之外,我们也开发了上层的中间件来应对不断提高的稳定性和性能要求. Elasticsearch 的检索执行效率可以表示为:. 其中 num_of_files 表示索引文件段的个数,N 表示需要遍历的数据量,从这里我们可以总结出提升查询性能可以考虑的两点:.

阿里如何实现秒级百万TPS?搜索离线大数据平台架构解读

于09-17 20:32 - -
阿里妹导读:搜索离线数据处理是一个典型的海量数据批次/实时计算结合的场景,阿里搜索中台团队立足内部技术结合开源大数据存储和计算系统,针对自身业务和技术特点构建了搜索离线平台,提供复杂业务场景下单日批次处理千亿级数据,秒级实时百万TPS吞吐的计算能力. 一个典型的商品搜索架构如下图所示,本文将要重点介绍的就是下图中的离线数据处理系统(Offline System).

掌握 3 个搜索技巧,在 GitHub 快速上找到实用软件资源

于08-11 14:40 - Eric_hong -
GitHub 作为目前广大程序猿最大的游乐场,在今年 6 月被  微软 以 75 亿美元价值的微软股票收购,GitHub 再次成为业界讨论的焦点. GitHub 以自由开放的定位吸引了相当多的个人开发者和企业,不断发布和更新相当好用的软件和工具. 之前少数派曾经为大家整理和推荐了 GitHub 上免费好用的 Windows、macOS 平台的软件:.

亚马逊与 Google 竞争愈演愈烈,这次它停止了在搜索引擎购买广告

于05-12 13:07 - -
据 彭博社的报道,亚马逊已经停止购买 Google 的商品陈列广告. 这是亚马逊和 Google 的又一次对抗,也是电商与搜索引擎争夺流量的标志性事件. 此前,亚马逊购买的是 Google 的商品陈列广告服务. 与普通的文字广告相比,这种广告能够展示商品照片与简介,更利于用户在搜索引擎上查看到商品信息后连接到电商.

Google 发布了一个全新的搜索引擎和两个文字游戏

于04-15 18:25 - 沈星佑 - 新创 AI Google tensorflow 搜索引擎
为了让你体验人工智能在语义理解和自然语言处理有多强大,Google 近日发布了一个新的搜索引擎,以及两个“文字游戏”. 在 Google 新发布的语义体验网站“ Semantic Experience”里,有一个全新的书籍搜索“Talk to Books”,以及基于机器学习的单词关联游戏. 相比平常我们搜索一本书,主要是通过书名、作者等关键词进行检索,在 Talk to Books 里,我们可以像平常讲话一样输入一句话,随后搜索引擎就会对这句话进行解读和预判,从而给出搜索结果.

阿里妈妈资深技术专家刘凯鹏解读基于深度学习的智能搜索营销

于04-10 14:43 - 机器之心 -
本文结合阿里电商业务场景的特点,介绍了阿里在匹配端和排序端的基于深度学习的一些工作. 搜索营销(sponsored search)是目前广告主在互联网上进行数字化营销的主要手段之一,也是机器学习技术在工业界最成功的应用场景之一. 在搜索营销的场景下,广告主可以通过出价的方式参与流量分配,平台的主要任务是优化流量分配和计价,实现效率的最大化和生态的健康发展.

[译] 使用 Docker 和 Elasticsearch 搭建全文本搜索引擎应用

于02-21 00:00 - - dev
作者简介:Patrick Triest是一位全栈工程师,数据爱好者,持续学习者,洁癖编程者. 作者github地址为 https://github.com/triestpa,本文地址参见 https://blog.patricktriest.com. 本文源码可以在GitHub repository 中找到 - https://github.com/triestpa/guttenberg-search.

阿里搜索技术,在AI路上走了多远?

于12-30 09:51 - -
阿里妹导读:以深度学习为代表的人工智能在图像、语音和NLP领域带来了突破性的进展,在信息检索和个性化领域近几年也有不少公开文献,比如wide& deep实现了深度模型和浅层模型的结合,dssm用于计算语义相关性,deepfm增加了特征组合的能力,deep CF用深度学习实现协同过滤,rnn recommender 采用行为序列预估实现个性化推荐等.

45种网盘搜索引擎资料汇总(资源福利)

于12-17 11:56 - -
(非调用google、百度接口,有自己的爬虫,另外分享功能更是十分强大). 百度网盘搜索-网盘搜索下载. 这里已经有很多热门资源,分享达人,排行什么的. 很容易利用达人分享空间收集资源. 严格意义上这不属于网盘搜索引擎,但是宝贝实在太多,不放上可惜了. 页面很简洁,支持原本的百度搜索. 百度云搜索 - 百度云盘资源搜索下载.

如何用redis实现“搜索历史”和“自动补全”搜索框

于11-16 19:31 - -
在日常的web开发中,经常有搜索框功--在一批数据中检索自己需要的数据. 现在的百度以及各大电商的搜索框都做得很人性化,主要体现在两个方面:. 一、搜索框的“搜索历史”:为了方便用户下次搜索,搜索框通常会提供“搜索历史”功能 即:记录下用户的搜索历史,用户下次点击搜索框就会立即展示你最近的搜索记录列表.

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

于09-17 22:42 - admin - 产品 推荐系统 搜索引擎 数据挖掘 机器学习
在之前一篇博文中, 有同学在评论中问了个问题: 如何解决因式分解带来的推荐冷门,热门关键词的问题. 在回答这个问题的时候, 想到了近几年在做搜索推荐系统的过程中, 学术界和工业界的一些区别. 正好最近正在做技术规划, 于是写偏文章说下工业界完整推荐系统的设计. 结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求.

Elasticsearch分布式搜索架构原理 | Elasticsearch权威指南(中文版)

于11-02 08:49 - -
在继续之前,我们将绕道讲一下搜索是如何在分布式环境中执行的. 它比我们之前讲的基础的增删改查(create-read-update-delete,CRUD)请求要复杂一些. 本章的信息只是出于兴趣阅读,使用Elasticsearch并不需要理解和记住这里的所有细节. 阅读这一章只是增加对系统如何工作的了解,并让你知道这些信息以备以后参考,所以别淹没在细节里.

ElasticSearch 2 (18) - 深入搜索系列之控制相关度 - Richaaaard - 博客园

于10-19 21:25 - -
ElasticSearch 2 (18) - 深入搜索系列之控制相关度. 处理结构化数据(比如:时间、数字、字符串、枚举)的数据库只需要检查一个文档(或行,在关系数据库)是否与查询匹配. 布尔是/非匹配是全文搜索的基础部分,但不止这些,我们也同样需要知道每个文档与查询的相关度,在全文搜索引擎中我们不仅需要找到匹配的文档,还需要根据他们相关度的高低,对他们进行排序.

[原]基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

于12-20 00:17 - u011239443 -
转载请注明:转载 from. from CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛. “用户画像”是近几年诞生的名词. 很多营销项目或很多广告主,在打算投放广告前,都要求媒体提供其用户画像. 在以前,大多媒体会针对自身用户做一个分类,但是有了大数据后,企业及消费者行为带来一系列改变与重塑,通过用户画像可以更加拟人化的描述用户特点.

Go 在百万亿级搜索引擎中的应用

于09-12 08:00 - - dev
Poseidon 系统是由 360 开源的日志搜索平台,目前已经用到了生产环节中,可以在数百万亿条、数百 PB 大小的日志数据中快速分析和检索特定字符串. 因为 Golang 得天独厚的支持并发编程,Poseidon 的核心搜索引擎、发报器、查询代理是用 Golang 开发的,在核心引擎查询、多天查询、多天数据异步下载中大量使用了 goroutine+channel.

如何为技术博客设计一个推荐系统(中):基于 Google 搜索的半自动推荐

于09-05 20:55 - Phodal Huang - 杂谈
与统计学相比,基于内容来向用户推荐相似的内容,往往更容易获得. 在技术领域,作者通常比大多数读者更专业,他们往往知道什么是读者需要的. 如,你看了一个 React 相关的文章,你可能会需要 Redux 相关的内容. 需要一些前提条件:融合现有系统的数据信息,获取一些用户的信息. 随后,再计算出相关的内容,最后返回给读者.

一半的付费学术论文可搜索到免费版本

于08-08 23:56 - pigsrollaroundinthem -
根据发表在《PeerJ Preprints》预印本网站上的一项研究,一半的付费学术论文可以搜索到合法的免费版本. 研究人员检查了浏览器扩展 Unpaywall 的用户数据,该扩展支持 Google Chrome 和 Mozilla Firefox, 通过查询 5300 多个论文库寻找付费论文的免费版本.

沪江搜索平台化之路

于06-29 21:27 - shendao - 极客互联
本文为原创文章,转载请注明作者及出处. 随着沪江业务的高速发展以及数据爆炸式的增长,当前公司各产线都有关于搜索方面的需求,但是目前的搜索服务系统由于架构与业务上的设计,不能很好的满足各个业务线的期望,主要体现下面三个问题:. 不能支持对语句级别的搜索,大量业务相关的属性根本无法实现. 没有任何搜索相关的指标评价体系.

Google和必应都无法替代的10大深网搜索引擎

于06-26 15:00 - secist - 资讯 安全资讯 深网
当我们想要搜索某些内容时,我们第一个想到的就是打开Google、百度或必应这类的搜索引擎. 但针对有些内容,却是这些常规搜索引擎无法获取到的,那就是隐藏在深网的内容. 据不完全统计,深网的信息量为表层网络的500倍. 那么,深网主要都包含了些什么内容呢. 其实,深网主要包括的都是些,例如需要某些条件如注册、付费,才能访问的内容,如数据库和某些服务等.

通过Function Score Query优化Elasticsearch搜索结果

于04-06 08:33 - -
在使用 Elasticsearch 进行全文搜索时,搜索结果默认会以文档的相关度进行排序,如果想要改变默认的排序规则,也可以通过 sort指定一个或多个排序字段. 但是使用 sort排序过于绝对,它会直接忽略掉文档本身的相关度(根本不会去计算). 在很多时候这样做的效果并不好,这时候就需要对多个字段进行综合评估,得出一个最终的排序.

基于Elasticsearch实现搜索建议

于01-23 17:14 - - Elasticsearch Elasticsearch 搜索建议
搜索建议是搜索的一个重要组成部分,一个搜索建议的实现通常需要考虑建议词的来源、匹配、排序、聚合、关联的文档数和拼写纠错等,本文介绍一个基于Elasticsearch实现的搜索建议. 电商网站的搜索是最基础最重要的功能之一,搜索框上面的良好体验能为电商带来更高的收益,我们先来看看淘宝、京东、亚马逊网站的搜索建议.

基于Elasticsearch实现搜索推荐

于03-21 17:18 - - Elasticsearch Elasticsearch 搜索 推荐 拼写纠错
在 基于Elasticsearch实现搜索建议一文中我们曾经介绍过如何基于Elasticsearch来实现搜索建议,而本文是在此基础上进一步优化搜索体验,在当搜索无结果或结果过少时提供推荐搜索词给用户. 在根据用户输入和筛选条件进行搜索后,有时返回的是无结果或者结果很少的情况,为了提升用户搜索体验,需要能够给用户推荐一些相关的搜索词,比如用户搜索【迪奥】时没有找到相关的商品,可以推荐搜索【香水】、【眼镜】等关键词.

基于word2vec和Elasticsearch实现个性化搜索

于03-28 15:51 - - Elasticsearch Elasticsearch word2vec 个性化 搜索
在 word2vec学习小记一文中我们曾经学习了word2vec这个工具,它基于神经网络语言模型并在其基础上进行优化,最终能获取词向量和语言模型. 在我们的商品搜索系统里,采用了word2vec的方式来计算用户向量和商品向量,并通过Elasticsearch的function_score评分机制和自定义的脚本插件来实现个性化搜索.

知乎的站内搜索还有救吗? - 知乎

于06-18 15:34 - -
第一次在知乎上得到这么多赞,有点担忧,生怕自己说的不好,误人子弟. 其实,我是一个从事互联网搜索引擎开发5年的码侬,当然也不是造轮子,就是Java方向的利用Solr来进行二次开发. 所以,从事的都是垂直领域特定搜索引擎开发:电子商务领域和招聘行业. 针对知乎搜索,我提出的几点可优化的方案,只是我在从业经历中碰到的变态需求中的一部分.

为什么知乎的搜索功能如此之烂? - 知乎

于06-18 15:33 - -
(潜水员终于有可以专业回答的问题了). 利益相关:搜狗搜索工程师,对搜索技术「略懂」. 搜索是技术方向辐射相当广的一个复杂系统,其技术门槛之高,在众多的互联网产品中能与搜索比肩的是少之又少. 要想玩转这套系统,拥有一批最优秀且懂搜索的工程师和研究员是必不可少的. 我看到之前@熊辰炎同学也提到说想解决的话,知乎可能需要5个熟练工干大半年.

近实时搜索SearcherManager和NRTManager的使用 - 学习笔记 - 博客频道 - CSDN.NET

于06-18 15:32 - -
lucene通过NRTManager这个类来实现近实时搜索,所谓近实时搜索即在索引发生改变时,通. 过线程跟踪,在相对很短的时间反映给给用户程序的调用. NRTManager通过管理IndexWriter对象,并将IndexWriter的一些方法(增删改)例如. addDocument,deleteDocument等方法暴露给客户调用,它的操作全部在内存里面,所以如果.