更新于:09-21 09:10

有关[搜索]分类推荐

有赞搜索系统的技术内幕

于09-18 15:37 - 有赞技术 - 程序员 工具 后端
上文说到有赞搜索系统的架构演进,为了支撑不断演进的技术架构,除了 Elasticsearch 的维护优化之外,我们也开发了上层的中间件来应对不断提高的稳定性和性能要求. Elasticsearch 的检索执行效率可以表示为:. 其中 num_of_files 表示索引文件段的个数,N 表示需要遍历的数据量,从这里我们可以总结出提升查询性能可以考虑的两点:.

阿里如何实现秒级百万TPS?搜索离线大数据平台架构解读

于09-17 20:32 - -
阿里妹导读:搜索离线数据处理是一个典型的海量数据批次/实时计算结合的场景,阿里搜索中台团队立足内部技术结合开源大数据存储和计算系统,针对自身业务和技术特点构建了搜索离线平台,提供复杂业务场景下单日批次处理千亿级数据,秒级实时百万TPS吞吐的计算能力. 一个典型的商品搜索架构如下图所示,本文将要重点介绍的就是下图中的离线数据处理系统(Offline System).

掌握 3 个搜索技巧,在 GitHub 快速上找到实用软件资源

于08-11 14:40 - Eric_hong -
GitHub 作为目前广大程序猿最大的游乐场,在今年 6 月被  微软 以 75 亿美元价值的微软股票收购,GitHub 再次成为业界讨论的焦点. GitHub 以自由开放的定位吸引了相当多的个人开发者和企业,不断发布和更新相当好用的软件和工具. 之前少数派曾经为大家整理和推荐了 GitHub 上免费好用的 Windows、macOS 平台的软件:.

亚马逊与 Google 竞争愈演愈烈,这次它停止了在搜索引擎购买广告

于05-12 13:07 - -
据 彭博社的报道,亚马逊已经停止购买 Google 的商品陈列广告. 这是亚马逊和 Google 的又一次对抗,也是电商与搜索引擎争夺流量的标志性事件. 此前,亚马逊购买的是 Google 的商品陈列广告服务. 与普通的文字广告相比,这种广告能够展示商品照片与简介,更利于用户在搜索引擎上查看到商品信息后连接到电商.

Google 发布了一个全新的搜索引擎和两个文字游戏

于04-15 18:25 - 沈星佑 - 新创 AI Google tensorflow 搜索引擎
为了让你体验人工智能在语义理解和自然语言处理有多强大,Google 近日发布了一个新的搜索引擎,以及两个“文字游戏”. 在 Google 新发布的语义体验网站“ Semantic Experience”里,有一个全新的书籍搜索“Talk to Books”,以及基于机器学习的单词关联游戏. 相比平常我们搜索一本书,主要是通过书名、作者等关键词进行检索,在 Talk to Books 里,我们可以像平常讲话一样输入一句话,随后搜索引擎就会对这句话进行解读和预判,从而给出搜索结果.

阿里妈妈资深技术专家刘凯鹏解读基于深度学习的智能搜索营销

于04-10 14:43 - 机器之心 -
本文结合阿里电商业务场景的特点,介绍了阿里在匹配端和排序端的基于深度学习的一些工作. 搜索营销(sponsored search)是目前广告主在互联网上进行数字化营销的主要手段之一,也是机器学习技术在工业界最成功的应用场景之一. 在搜索营销的场景下,广告主可以通过出价的方式参与流量分配,平台的主要任务是优化流量分配和计价,实现效率的最大化和生态的健康发展.

[译] 使用 Docker 和 Elasticsearch 搭建全文本搜索引擎应用

于02-21 00:00 - - dev
作者简介:Patrick Triest是一位全栈工程师,数据爱好者,持续学习者,洁癖编程者. 作者github地址为 https://github.com/triestpa,本文地址参见 https://blog.patricktriest.com. 本文源码可以在GitHub repository 中找到 - https://github.com/triestpa/guttenberg-search.

阿里搜索技术,在AI路上走了多远?

于12-30 09:51 - -
阿里妹导读:以深度学习为代表的人工智能在图像、语音和NLP领域带来了突破性的进展,在信息检索和个性化领域近几年也有不少公开文献,比如wide& deep实现了深度模型和浅层模型的结合,dssm用于计算语义相关性,deepfm增加了特征组合的能力,deep CF用深度学习实现协同过滤,rnn recommender 采用行为序列预估实现个性化推荐等.

45种网盘搜索引擎资料汇总(资源福利)

于12-17 11:56 - -
(非调用google、百度接口,有自己的爬虫,另外分享功能更是十分强大). 百度网盘搜索-网盘搜索下载. 这里已经有很多热门资源,分享达人,排行什么的. 很容易利用达人分享空间收集资源. 严格意义上这不属于网盘搜索引擎,但是宝贝实在太多,不放上可惜了. 页面很简洁,支持原本的百度搜索. 百度云搜索 - 百度云盘资源搜索下载.

如何用redis实现“搜索历史”和“自动补全”搜索框

于11-16 19:31 - -
在日常的web开发中,经常有搜索框功--在一批数据中检索自己需要的数据. 现在的百度以及各大电商的搜索框都做得很人性化,主要体现在两个方面:. 一、搜索框的“搜索历史”:为了方便用户下次搜索,搜索框通常会提供“搜索历史”功能 即:记录下用户的搜索历史,用户下次点击搜索框就会立即展示你最近的搜索记录列表.

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

于09-17 22:42 - admin - 产品 推荐系统 搜索引擎 数据挖掘 机器学习
在之前一篇博文中, 有同学在评论中问了个问题: 如何解决因式分解带来的推荐冷门,热门关键词的问题. 在回答这个问题的时候, 想到了近几年在做搜索推荐系统的过程中, 学术界和工业界的一些区别. 正好最近正在做技术规划, 于是写偏文章说下工业界完整推荐系统的设计. 结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求.

Elasticsearch分布式搜索架构原理 | Elasticsearch权威指南(中文版)

于11-02 08:49 - -
在继续之前,我们将绕道讲一下搜索是如何在分布式环境中执行的. 它比我们之前讲的基础的增删改查(create-read-update-delete,CRUD)请求要复杂一些. 本章的信息只是出于兴趣阅读,使用Elasticsearch并不需要理解和记住这里的所有细节. 阅读这一章只是增加对系统如何工作的了解,并让你知道这些信息以备以后参考,所以别淹没在细节里.

ElasticSearch 2 (18) - 深入搜索系列之控制相关度 - Richaaaard - 博客园

于10-19 21:25 - -
ElasticSearch 2 (18) - 深入搜索系列之控制相关度. 处理结构化数据(比如:时间、数字、字符串、枚举)的数据库只需要检查一个文档(或行,在关系数据库)是否与查询匹配. 布尔是/非匹配是全文搜索的基础部分,但不止这些,我们也同样需要知道每个文档与查询的相关度,在全文搜索引擎中我们不仅需要找到匹配的文档,还需要根据他们相关度的高低,对他们进行排序.

[原]基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

于12-20 00:17 - u011239443 -
转载请注明:转载 from. from CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛. “用户画像”是近几年诞生的名词. 很多营销项目或很多广告主,在打算投放广告前,都要求媒体提供其用户画像. 在以前,大多媒体会针对自身用户做一个分类,但是有了大数据后,企业及消费者行为带来一系列改变与重塑,通过用户画像可以更加拟人化的描述用户特点.

Go 在百万亿级搜索引擎中的应用

于09-12 08:00 - - dev
Poseidon 系统是由 360 开源的日志搜索平台,目前已经用到了生产环节中,可以在数百万亿条、数百 PB 大小的日志数据中快速分析和检索特定字符串. 因为 Golang 得天独厚的支持并发编程,Poseidon 的核心搜索引擎、发报器、查询代理是用 Golang 开发的,在核心引擎查询、多天查询、多天数据异步下载中大量使用了 goroutine+channel.

如何为技术博客设计一个推荐系统(中):基于 Google 搜索的半自动推荐

于09-05 20:55 - Phodal Huang - 杂谈
与统计学相比,基于内容来向用户推荐相似的内容,往往更容易获得. 在技术领域,作者通常比大多数读者更专业,他们往往知道什么是读者需要的. 如,你看了一个 React 相关的文章,你可能会需要 Redux 相关的内容. 需要一些前提条件:融合现有系统的数据信息,获取一些用户的信息. 随后,再计算出相关的内容,最后返回给读者.

一半的付费学术论文可搜索到免费版本

于08-08 23:56 - pigsrollaroundinthem -
根据发表在《PeerJ Preprints》预印本网站上的一项研究,一半的付费学术论文可以搜索到合法的免费版本. 研究人员检查了浏览器扩展 Unpaywall 的用户数据,该扩展支持 Google Chrome 和 Mozilla Firefox, 通过查询 5300 多个论文库寻找付费论文的免费版本.

沪江搜索平台化之路

于06-29 21:27 - shendao - 极客互联
本文为原创文章,转载请注明作者及出处. 随着沪江业务的高速发展以及数据爆炸式的增长,当前公司各产线都有关于搜索方面的需求,但是目前的搜索服务系统由于架构与业务上的设计,不能很好的满足各个业务线的期望,主要体现下面三个问题:. 不能支持对语句级别的搜索,大量业务相关的属性根本无法实现. 没有任何搜索相关的指标评价体系.

Google和必应都无法替代的10大深网搜索引擎

于06-26 15:00 - secist - 资讯 安全资讯 深网
当我们想要搜索某些内容时,我们第一个想到的就是打开Google、百度或必应这类的搜索引擎. 但针对有些内容,却是这些常规搜索引擎无法获取到的,那就是隐藏在深网的内容. 据不完全统计,深网的信息量为表层网络的500倍. 那么,深网主要都包含了些什么内容呢. 其实,深网主要包括的都是些,例如需要某些条件如注册、付费,才能访问的内容,如数据库和某些服务等.

通过Function Score Query优化Elasticsearch搜索结果

于04-06 08:33 - -
在使用 Elasticsearch 进行全文搜索时,搜索结果默认会以文档的相关度进行排序,如果想要改变默认的排序规则,也可以通过 sort指定一个或多个排序字段. 但是使用 sort排序过于绝对,它会直接忽略掉文档本身的相关度(根本不会去计算). 在很多时候这样做的效果并不好,这时候就需要对多个字段进行综合评估,得出一个最终的排序.

基于Elasticsearch实现搜索建议

于01-23 17:14 - - Elasticsearch Elasticsearch 搜索建议
搜索建议是搜索的一个重要组成部分,一个搜索建议的实现通常需要考虑建议词的来源、匹配、排序、聚合、关联的文档数和拼写纠错等,本文介绍一个基于Elasticsearch实现的搜索建议. 电商网站的搜索是最基础最重要的功能之一,搜索框上面的良好体验能为电商带来更高的收益,我们先来看看淘宝、京东、亚马逊网站的搜索建议.

基于Elasticsearch实现搜索推荐

于03-21 17:18 - - Elasticsearch Elasticsearch 搜索 推荐 拼写纠错
在 基于Elasticsearch实现搜索建议一文中我们曾经介绍过如何基于Elasticsearch来实现搜索建议,而本文是在此基础上进一步优化搜索体验,在当搜索无结果或结果过少时提供推荐搜索词给用户. 在根据用户输入和筛选条件进行搜索后,有时返回的是无结果或者结果很少的情况,为了提升用户搜索体验,需要能够给用户推荐一些相关的搜索词,比如用户搜索【迪奥】时没有找到相关的商品,可以推荐搜索【香水】、【眼镜】等关键词.

基于word2vec和Elasticsearch实现个性化搜索

于03-28 15:51 - - Elasticsearch Elasticsearch word2vec 个性化 搜索
在 word2vec学习小记一文中我们曾经学习了word2vec这个工具,它基于神经网络语言模型并在其基础上进行优化,最终能获取词向量和语言模型. 在我们的商品搜索系统里,采用了word2vec的方式来计算用户向量和商品向量,并通过Elasticsearch的function_score评分机制和自定义的脚本插件来实现个性化搜索.

知乎的站内搜索还有救吗? - 知乎

于06-18 15:34 - -
第一次在知乎上得到这么多赞,有点担忧,生怕自己说的不好,误人子弟. 其实,我是一个从事互联网搜索引擎开发5年的码侬,当然也不是造轮子,就是Java方向的利用Solr来进行二次开发. 所以,从事的都是垂直领域特定搜索引擎开发:电子商务领域和招聘行业. 针对知乎搜索,我提出的几点可优化的方案,只是我在从业经历中碰到的变态需求中的一部分.

为什么知乎的搜索功能如此之烂? - 知乎

于06-18 15:33 - -
(潜水员终于有可以专业回答的问题了). 利益相关:搜狗搜索工程师,对搜索技术「略懂」. 搜索是技术方向辐射相当广的一个复杂系统,其技术门槛之高,在众多的互联网产品中能与搜索比肩的是少之又少. 要想玩转这套系统,拥有一批最优秀且懂搜索的工程师和研究员是必不可少的. 我看到之前@熊辰炎同学也提到说想解决的话,知乎可能需要5个熟练工干大半年.

近实时搜索SearcherManager和NRTManager的使用 - 学习笔记 - 博客频道 - CSDN.NET

于06-18 15:32 - -
lucene通过NRTManager这个类来实现近实时搜索,所谓近实时搜索即在索引发生改变时,通. 过线程跟踪,在相对很短的时间反映给给用户程序的调用. NRTManager通过管理IndexWriter对象,并将IndexWriter的一些方法(增删改)例如. addDocument,deleteDocument等方法暴露给客户调用,它的操作全部在内存里面,所以如果.

美团点评旅游搜索召回策略的演进

于06-17 00:54 - 美团点评技术团队 -
本文内容与6月22日第22期美团点评技术沙龙“美团点评AI实践”主题演讲一致,欢迎大家去 现场和作者交流. 关注“美团点评技术团队”微信公众号,第一时间获取沙龙最新信息,还可以查阅往期沙龙PPT/视频. 美团点评作为最大的生活服务平台,有丰富的品类可供用户选择,因此搜索这个入口对各业务的重要性不言而喻,除了平台搜索外,业务搜索系统的质量和效果对用户体验、商家曝光、平台交易也有着关键作用.

在线AI技术在搜索与推荐场景的应用

于06-02 15:55 - pub@cyzone.cn(http://www.cyzone.cn创业邦) -
  12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)成功在线举办. 在本次分享中,来自阿里巴巴集团的研究员徐盈辉带了题为《在线AI技术在搜索与推荐场景的应用》的精彩演讲,他结合本届双11搜索和推荐场景详细介绍了电商搜索推荐的技术演变、阿里搜索推荐的新技术体系以及未来的发展方向.

从0到1再到100 蘑菇街搜索与推荐架构的探索之路

于05-24 08:00 - - tuicool
【51CTO.com原创稿件】丁小明,花名小宝,蘑菇街搜索技术团队负责人. 2011年底加入蘑菇街,2013年开始负责搜索团队,见证了蘑菇街一路蓬勃发展的历程,也和团队一起从零起步摸爬滚打,打造了蘑菇街的搜索推荐体系,包括自主研发的C++主搜引擎和广告引擎、实时个性化推荐系统、基于开源Solr/ES深度定制的实时搜索平台等.

谷歌公布新竞争对手名单 不再局限于搜索业务

于02-04 08:00 - - tuicool
腾讯科技讯谷歌(微博)母公司Alphabet正不断扩展其业务范畴,其主要业务也不再局限于搜索领域,为此面临的竞争也日益激烈. Alphabet日前公布了最新竞争对手名单,并向投资者发出警告. 在向美国证券交易委员会提交的最新年度报告中,Alphabet列出许多新竞争者名单,包括苹果、Netflix以及Hulu等,以此突出其新业务(比如消费硬件制造)面临的竞争风险.