更新于:06-21 18:04

有关[搜索]标签推荐

基于Elasticsearch实现建议

于01-23 09:14 - - Elasticsearch Elasticsearch 搜索建议
搜索建议是搜索的一个重要组成部分,一个搜索建议的实现通常需要考虑建议词的来源、匹配、排序、聚合、关联的文档数和拼写纠错等,本文介绍一个基于Elasticsearch实现的搜索建议. 电商网站的搜索是最基础最重要的功能之一,搜索框上面的良好体验能为电商带来更高的收益,我们先来看看淘宝、京东、亚马逊网站的搜索建议.

基于Elasticsearch实现推荐

于03-21 09:18 - - Elasticsearch Elasticsearch 搜索 推荐 拼写纠错
在 基于Elasticsearch实现搜索建议一文中我们曾经介绍过如何基于Elasticsearch来实现搜索建议,而本文是在此基础上进一步优化搜索体验,在当搜索无结果或结果过少时提供推荐搜索词给用户. 在根据用户输入和筛选条件进行搜索后,有时返回的是无结果或者结果很少的情况,为了提升用户搜索体验,需要能够给用户推荐一些相关的搜索词,比如用户搜索【迪奥】时没有找到相关的商品,可以推荐搜索【香水】、【眼镜】等关键词.

基于word2vec和Elasticsearch实现个性化

于03-28 07:51 - - Elasticsearch Elasticsearch word2vec 个性化 搜索
在 word2vec学习小记一文中我们曾经学习了word2vec这个工具,它基于神经网络语言模型并在其基础上进行优化,最终能获取词向量和语言模型. 在我们的商品搜索系统里,采用了word2vec的方式来计算用户向量和商品向量,并通过Elasticsearch的function_score评分机制和自定义的脚本插件来实现个性化搜索.

微信做:未来是「微信网」还是「万维网

于04-26 08:15 - PMCAFF - 投稿 搜索 微信
看到微信要做搜索的新闻其实并不惊讶,毕竟近几个月来微信一直「小动作」不断,3月份微信指数推出之后,广告主在微信平台投放广告时就会问「你们有没有基于微信热词的广告报价啊」,似乎预示着一些零碎的出招结束之后,微信还是会踏入移动搜索领域. 动作很快,4月24日,搜狗发布公布2017年Q1财报的同一天,腾讯的微信事业群内部架构作了一些调整,微信事业群下成立搜索应用部.

ElasticSearch聚合分析API

于04-11 03:18 - migrant620 - 搜索 Elasticsearch 分析 聚合
说完了ES的索引与检索,接着再介绍一个ES高级功能API – 聚合(Aggregations),聚合功能为ES注入了统计分析的血统,使用户在面对大数据提取统计指标时变得游刃有余. 同样的工作,你在hadoop中可能需要写mapreduce或hive,在mongo中你必须得用大段的mapreduce脚本,而在ES中仅仅调用一个API就能实现了.

从相似度算法谈起 - Effective similarity search in PostgreSQL

于12-22 12:41 - 德哥 - 数据存储与数据库 算法 PostgreSQL 图像搜索 索引
标签 PostgreSQL , 数组 , 相似度 背景 相似度分析是一个非常普遍的需求,例如根据用户提供的线索,从一堆文本数据、图片数据、视频数据中筛选一段与用户的描述相近的. 我之前写过一系列的文章来介绍,文本、图片相似度搜索的技术和使用场景. 《PostgreSQL 在视频、图片去重,图像搜.

京东亿级商品核心技术解密

于11-30 02:20 - 小码哥 - 运维经验 京东 搜索核心技术
作者:王春明,现任京东搜索平台部负责人,2011年加入京东搜索团队,期间一直负责京东搜索引擎研发工作,主导了多次搜索架构升级工作保障其满足京东发展需求,擅长搜索引擎、高性能服务开发、分布式系统架构. 招聘: 京东搜索平台部木有有高级/资深搜索引擎研发工程师(C/C++)  、高级/资深算法工程师(C/C++)、高级/资深数据系统工程师(java)等职位,期待您的加入,一起打造弹性搜索平台.

冯大辉正式宣布创业:做医疗,跟百度干一架

于10-11 14:07 - 蒋鸿昌 - 新闻 丁香园 互联网医疗 冯大辉 搜索引擎
7 月,从丁香园的内部邮件里,我们得知丁香园 CTO 冯大辉已经决定离职. 离职期间,冯大辉还与丁香园发生了期权纠纷. 作为知名的技术人员和医疗布道者,冯大辉离职后的去向一直备受关注,今天, 他通过微信公众号正式宣布,接下来将开始创业. 从 2010 年加入丁香园算起,冯大辉在医疗行业工作超过 6 年,在此期间,他也不遗余力地通过个人影响力普及医疗知识,向公众推广丁香园.

404错误处理:重定向还是直接404?

于08-03 00:00 - Harttle - AJAX HTML HTTP JavaScript 搜索引擎
小型网站开发通常会使用某种Web应用框架,比如类似Spring、Express、Django等框架. 这些框架会给出自定义错误页面的方式. 当404发生时Web框架会渲染并返回对应的错误页面. 这是最自然和直接的错误处理方式,但有时我们希望错误页面可以单独Serve,比如放到CDN上. 本文档依据RFC 2616(HTTP 1.1)比较几种常见的404错误处理方法:.

商品引擎—推荐系统设计

于05-23 04:10 - liuchi1993 - 基础技术 推荐系统 搜索
结合目前已存在的商品推荐设计(如淘宝、京东等),推荐系统主要包含系统推荐和个性化推荐两个模块. 系统推荐: 根据大众行为的推荐引擎,对每个用户都给出同样的推荐,这些推荐可以是静态的由系统管理员人工设定的,或者基于系统所有用户的反馈统计计算出的当下比较流行的物品. 个性化推荐:对不同的用户,根据他们的口味和喜好给出更加精确的推荐,这时,系统需要了解需推荐内容和用户的特质,或者基于社会化网络,通过找到与当前用户相同喜好的用户,实现推荐.

厦门分享会及百度之夜干货全解析

于04-22 08:03 - DinK - 行业资讯 搜索分享会
2016年4月15日,百度搜索分享会及百度之夜在厦门成功举办. 会议上,百度表示移动搜索量延续了2013、2014年高速增长的趋势,且在2015年移动搜索日导出量增加了50%,移动化的站点从百度获取流量激增. 从大方向上可以看出有个移动化的网站是从百度获取流量的先决条件. 『移动友好度——搜索排序的重要参考』.

同样基于应用内,“一览”才上线半年多,豌豆荚为什么又发布了“轻桌面

于01-30 09:32 - 欧狄 - 访谈 应用内搜索 应用商店 豌豆荚 豌豆荚一览
没有安装 app,却能在 Android 手机桌面看到该 app 的图标,点击进去可以阅读内容. 不同 app 还能按主题“合体”在一起,在一个有时间线的信息流页面里阅读“合体” app 的内容. 联翩科技出品、 1 月 29 日晚刚刚发布的 豌豆荚轻桌面,就能做到上面说的这些“神奇的”事情. 今年 1 月,豌豆荚将 豌豆荚一览、Snap 效率锁屏(现已更名豌豆荚 Smart 锁屏)两款产品拆分了出来,成立一间新公司——联翩科技.

360:2015年医疗行业行为研究报告

于01-02 02:29 - DinK - 搜索引擎 互联网医疗 研究报告 360 医疗行业
360:2015年Q2化妆品行业研究报告. 360:2015年Q3汽车行业研究报告. 360:2015年Q3度海淘行业研究报告. 360:2015年第二季度P2P行业研究报告. 360:2014年Q3汽车行业搜索研究.

百度竞价从入门到精通

于09-15 15:29 - 投稿 (guest) - 搜索引擎
  对于网上有太多关于竞价的一些文章,但是没有一套属于系统化,完整化的文章来讲解,让一些步入竞价这个行业的新手来说学起来确实挺费劲,该篇为你详解百度竞价从入门到精通实战操作系列之全过程.   如果你要将一个项目进行推广,那么你要做好以下充分准备工作,从而为准备进行下一阶段搭建账户进行推广.   首先市场分析,人群定位,整理出有关这个项目所需的所有关键词进行分类,.

6月全球引擎市场:百度被Bing取代 排名跌至第四

于07-05 04:01 - windowsun - 搜索引擎 Net Applications
根据市场研究公司Net Applications最新数据显示,在6月份,全球搜索引擎市场份额冠军依然是Google – Global,占据70.80%的市场份额,环比上月,增加2.26%. Bing与Yahoo – Global分获亚季军,排名各上升1位. 相比上月,全球搜索引擎市场份额排名变化较为明显.

读paper:腾讯实时推荐实践

于06-16 09:38 - bicloud - 个性化推荐与搜索
阅读TencentRec: Real-time Stream Recommendation inPractice. 大数据环境下的实时推荐需求,克服三大难题:大数据,实时性,准确度;. 大数据,用户数据,业务数据;实时基于storm处理;算法主要基于item-based,content-based,demographic,并且.

redis超时问题分析

于02-26 14:11 - 德言 - 性能优化 搜索引擎
Redis在分布式应用中占据着越来越重要的地位,短短的几万行代码,实现了一个高性能的数据存储服务. 最近dump中心的cm8集群出现过几次redis超时的情况,但是查看redis机器的相关内存都没有发现内存不够,或者内存发生交换的情况,查看redis源码之后,发现在某些情况下redis会出现超时的状况,相关细节如下.

SEM经验谈之数据呈现小技巧

于03-22 16:23 - 蓝鲸 - SEM经验分享 搜索引擎营销
本篇文章来自我的朋友王硕,他在SEM领域沉浸多年. 他将通过一系列文章与大家分享自己在SEM工作中获得的经验. 如果你对他的文章感兴趣,或希望了解更多SEM的知识,又或对文章内容有任何疑问,请在本篇文章后留言. 王硕 2009年入行,有5年以上SEM从业经验,第一批通过百度中级认证的从业者. 曾在多家知名大型互联网公司任SEM负责人,包括链家地产,百合网,搜狐畅游等.

技术预测可穿戴设备将成为15年科技头条

于12-19 09:36 - iLoveI - 搜索引擎 网络服务 apple watch Bing 可穿戴设备
在分析完2014年的头部搜索后,Bing给出了他们对2015年的预测. 通过利用Bing的预测计算,Bing声称可穿戴设备将是来年最流行的科技产品,苹果手表,三星Gear,fitbit是其中最耀眼的三颗星星. 除了给出科技行业的趋势外,Bing也给出了设计,时尚,食品,足球,旅游等行业的趋势. 包括北美,欧洲,南美,亚太等地区,有兴趣的199IT小伙伴可以点击这里浏览:  Bing Predicts 2015..

从未降级的技术-实时之刃

于12-09 09:00 - 桂南 - 其他 分布式技术 搜索引擎 实时流量调控 实时计算
流量是互联网变现的基石,而流量的资源是有限的,如何实现资源的最大化利用(买家-商品的最高效的匹配)是此次双11搜索技术深度切入的使命,也是第一次在双11通过实时把握资源流动的脉搏来控制资源的收和放. 天猫的业务团队同学,通过针对去年双11细致认真的数据分析,发现了去年双11暴露的一些问题. 小部分商品预热过度,预热期吸引的加购量远超出商品库存能支撑的量,大部分用户虽然加了购物车但当天也抢不到,购物车转化率低;而大部分商品预热不足,没有充分曝光;.

从未降级的技术-天猫SKU

于11-25 02:29 - 七伤 - 搜索引擎
前些天,五福老大的文章《 从未降级的搜索技术》介绍了搜索双11的5件新式武器,其中就包括天猫SKU搜索. 本文就对此做一些更详细的介绍:. SKU,Stock Keeping Unit,库存单元,是商品库存的最小单位. 通俗的讲,一种商品可能有各种规格的货,每一种货就是一个SKU. 比如,iphone6有白色16G、金色16G、白色64G、金色64G、等多种SKU;再比如商家售卖的某款T恤有白色S码、黑色S码、白色M码、黑色S码、等等SKU.

从未降级的技术

于11-21 03:16 - 五福 - 搜索引擎
在搜索我经历过全部的双11,12年和13年这2次大促,GN是开发总指挥,我是在礼台上看各种新武器实弹表演. 过去6年里,我们的引擎体系每年做到100%的性能提升,以淘系搜索为例,从最初3000台机器翻倍到现在区区6000台,但搜索服务却从6千qps增长了40倍到现在的32万qps,同时还填补了算法欲壑(算法数据占用内存从最初的10%到了现在的50%),转化率持续攀升,目前大搜索GMV已经是全网的主体了.

Yahoo网站性能优化指南之内容篇

于10-29 00:50 - 氪星人 - WordPress SEO 搜索引擎
Yahoo的Exceptional Performance团队为改善Web性能,总结出了一系列可以提高网站速度的方法,包括内容、服务器、cookie、CSS、JavaScript、图片、移动应用等七部分,核心旨在提高网站性能. Yahoo网站性能优化指南之内容篇. 其中内容部分一共十条建议:. 1、尽量减少HTTP请求次数.

一个完整推荐系统的设计实现-以百度关键词推荐为例

于09-17 12:39 - semo2524 - 互联网 大数据 推荐系统 搜索引擎 数据挖掘
在之前一篇博文中, 有同学在评论中问了个问题: 如何解决因式分解带来的推荐冷门关键词的问题. 在回答这个问题的时候, 想到了近几年在做搜索推荐系统的过程中, 学术界和工业界的一些区别. 正好最近正在做技术规划, 于是写偏文章说下工业界完整推荐系统的设计. 结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求.

基于Item的时序协同过滤算法

于08-06 07:14 - bicloud - 个性化推荐与搜索
基于Item的时序协同过滤算法技术方案包括两个步骤:. (1)提取用户商品点击日志、搜索点击日志和商品基本信息等基本数据. 然后,去除噪音数据(譬如每天点击商品数达到数以万计的用户)和缺失值数据,构建时序点击流数据,即记录用户每天按照点击时间先后顺序排序的商品行为数据. 从而得到如下数据结构:<用户id,商品id,点击时间,点击日期>;.

Python写爬虫与网页解析

于08-19 07:57 - 互联网实践 - 搜索引擎
Python写个简单爬虫,并作网页解析,还是非常高效的. urllib2是urllib得增强版,httplib更为底层,可以理解为urllib是对httplib的抽象. httplib是一个相对底层的http请求模块,其上有专门的包装模块,如urllib内建模块,goto等第三方模块,但是封装的越高就越不灵活,比如urllib模块里请求错误时就不会返回结果页的内容,只有头信息,对于某些需要检测错误请求返回值的场景就不适用,所以就得用这个模块了.

引擎变现策略指标体系

于06-29 10:44 - semo2524 - Uncategorized 推荐系统 搜索引擎 管理 经济学
下文就百度商业变现的指标体系进行概要描述,并针对一个类似于百度LBS系统的变现思路,阐述一个商业系统变现策略指标体系的建立过程. 为什么需要商业变现策略指标体系. 一般情况下,一个互联网产品,或是一个移动端产品在发展前期,主要会关注流量及用户量的增长. 当流量,用户量做到一定程度时,就会考虑商业变现.

开源Python网络爬虫框架Scrapy

于06-20 11:17 - 互联网实践 - 搜索引擎
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据. 不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了. 一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样.

开源爬虫软件汇总

于06-20 11:26 - 互联网实践 - 搜索引擎
     世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示. 虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎. 微型爬虫框架,含有一个小型HTML解析器. 由守护进程执行,使用数据库存储网页信息.

为什么移动产品都那么糟糕

于06-17 00:00 - 童滨 - 前沿 Facebook Google 移动搜索 豌豆荚
即使放到现在来看,我们依然可以说,移动搜索还不算是太成功的那一类产品. 一方面,用户的搜索习惯正在从PC向移动设备延伸,高达90.4%的用户会在手机上使用搜索功能;另一方面,用户并不喜欢移动搜索产品,高达61.4%的用户觉得在手机上搜索比在PC上困难得多. (数据出自: Serch Engine Land).