4个步骤,小结搜索系统

标签: 产品设计 2年 初级 搜索系统 | 发表时间:2018-12-19 22:04 | 作者:World
出处:http://www.woshipm.com

搜索系统作为用户自行使用的引导工具,重要程度不言而喻;本文主要从4步:需求识别、检索、排序、展现来总结搜索系统的工作机制。

搜索是一个比较有年份的功能,他不是一个简单的搜索框,毕竟搜索造就了一个百度帝国。

搜索系统在产品架构中是帮助用户搜索到他们想要的内容,当用户不知道如何通过其他路径直接获取特定内容的时候才会使用,也就是说搜索是用户自行使用最后的一个引导工具,重要程度不言而喻。

首先对搜索建立一个整体大概的认知,搜索工作机制如上图,主要分为4步:需求识别、检索、排序、展现。

一、需求识别

用户在搜索框中输入的关键词即用户想要查询的内容,首先需要机器去识别出用户想要的是什么,才能把用户想要的东西递给用户,首先介入工作就是分词系统,通过对关键词的整分词匹配或通过语义解析尽可能的了解当前用户的需求。

  • 检索:了解用户想要什么东西了后,就去仓库里面把不同区存在的货物提取出来,准备交付。
  • 排序:为了卖出更多的货物,会对自己的仓库定一系列的规则,如:近期要卖的优先、信誉好的供应商优先等进行排序,保证给到用户我们最好的货物。
  • 展现:知道用户想要什么、也从仓库提取了后,按照排序规则展现给用户就可以了。

接下来落实到具体的产品方案,坚持一个底层原则:从业务中来,到业务中去。

明确本次搜素策略优化目标,围绕目标高举高打:

如:能够准确识别用户query背后对商品的需求,并根据排序规则在页面反馈结果集。

关键衡量指标:

  • 商品需求识别准确率:已识别出的query中真正带有商品需求的query占比,越高越好;
  • 商品需求识别召回率:已识别query中真正带有商品需求数量的query在所有带有商品需求query中占比,越高越好。

检验策略效果计算方式:

  1. 正确率 = 提取出的正确信息条数 / 提取出的信息条数
  2. 召回率 = 提取出的正确信息条数 / 样本中的信息条数

想要更好的优化方案,可以对现有的搜索关键词和模块数据进行分析,从某交易产品月上万个搜索关键词中,随机抽取了1000条搜索关键词字数分布如下图:

通过对用户输入的关键词进行分析,结论:

  1. 用户输入关键词数量:2、3、4占据总字数的80%,所以:我们需要做一个搜索联想提升用户搜索效率。
  2. 用户关键词主要分布在:品牌、商品名、品类名、其他特殊字词等,所以:我们要根据各种场景细化出不同的排序方案。
  3. 用户有较多次出现搜索为空的情况,引起这种结果有两种可能:① 搜索现有的准确率较低。 ② 现在平台商品SKU 较少。

二、用户搜索输入分析

该部分需要考虑到用户在使用搜索时有什么使用场景,在不同场景下有怎样的行为反应:

三、排序计算方式

排序是整个搜素平台最为关键的一环,此处需要权衡商家、用户、平台的综合利益考虑,如商品搜索可以将特征维度分为:商品维度、卖家维度、平台维度、个性化、反作弊等维度,通过落地到自身业务的当前状态,可得出关键参考点有:

  • 商品名称:商品的全称匹配率。
  • 副标题:副标题与关键词的匹配率。
  • 销量:商品销售数据权重较高。
  • 标签:有标签的商品比没有标签的商品权重更高,标签排名:促销(满减、N元任选)>秒杀>包邮 >其他。
  • 权重参考值排序:商品名称 > 副标题 > 销量 > 标签

四、展现

最后根据用户搜索不同的关键词,使用特定的排序方案,输入机器得出的结果集 :

本文由 @World 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议。

相关 [搜索 系统] 推荐:

Twitter实时搜索系统EarlyBird

- - CSDN博客互联网推荐文章
twitter对存档的tweet使用lucene做全量索引,新发的推文则是实时索引,实时检索(10秒之内索引). 实时索引和检索系统叫EarlyBird. 感觉写得比较清楚简洁,只要这些信息足够真实可信,完全可以做实现参考. 1)基于lucene + java,michael busch是lucene committer.

4个步骤,小结搜索系统

- - 人人都是产品经理
搜索系统作为用户自行使用的引导工具,重要程度不言而喻;本文主要从4步:需求识别、检索、排序、展现来总结搜索系统的工作机制. 搜索是一个比较有年份的功能,他不是一个简单的搜索框,毕竟搜索造就了一个百度帝国. 搜索系统在产品架构中是帮助用户搜索到他们想要的内容,当用户不知道如何通过其他路径直接获取特定内容的时候才会使用,也就是说搜索是用户自行使用最后的一个引导工具,重要程度不言而喻.

分布式向量搜索系统 Vearch

- - OSCHINA 社区最新软件
Vearch 是一个分布式向量搜索系统,可以用来计算向量相似度,或用于机器学习领域,如:图像识别、视频识别或自然语言处理等各个领域. 本系统基于 Faiss 实现, 提供了快速的向量检索功能. 提供类似 Elasticsearch 的 Restful API 可以方便地对数据及表结构进行管理查询等工作.

使用elasticsearch+simple_flow搭建实时日志搜索系统

- - ITeye博客
    在实际的系统中,我们经常会进行分布式的系统部署,但是这样会导致一个问题,系统日志也被分散开了,导致根据日志进行错误定位不太方便,所以,利用simple_flow实时流的特点,再配合elasticsearch建立索引,搭配构建一个实时日志搜索系统.具体流程图如下:. 1.启动elasticsearch, 这个参考官方文档  http://www.elasticsearch.org/.

百度关键词搜索推荐系统交互流程

- - Dustinsea
如果把百度凤巢系统比作商场,那这个商场的主要商品是什么. 答案就是‘流量’,而关键词,就是流量对广告主最直观的表现载体. 客户想要在百度上做搜索广告,就需要找到能够准确描述自己推广意图的关键词集合;但另一方面,目前百度凤巢系统拍卖词接近10亿,百度每天有PV关键词约数十亿. 从这些词海中淘出优质关键词,无论对于客户本身,还是为客户打理账户的客服而言都是一大挑战.

商品搜索引擎—推荐系统设计

- - ImportNew
结合目前已存在的商品推荐设计(如淘宝、京东等),推荐系统主要包含系统推荐和个性化推荐两个模块. 系统推荐: 根据大众行为的推荐引擎,对每个用户都给出同样的推荐,这些推荐可以是静态的由系统管理员人工设定的,或者基于系统所有用户的反馈统计计算出的当下比较流行的物品. 个性化推荐:对不同的用户,根据他们的口味和喜好给出更加精确的推荐,这时,系统需要了解需推荐内容和用户的特质,或者基于社会化网络,通过找到与当前用户相同喜好的用户,实现推荐.

有赞搜索系统的技术内幕

- - SegmentFault 最新的文章
上文说到有赞搜索系统的架构演进,为了支撑不断演进的技术架构,除了 Elasticsearch 的维护优化之外,我们也开发了上层的中间件来应对不断提高的稳定性和性能要求. Elasticsearch 的检索执行效率可以表示为:. 其中 num_of_files 表示索引文件段的个数,N 表示需要遍历的数据量,从这里我们可以总结出提升查询性能可以考虑的两点:.

盛大创新院发布光速搜索 称不消耗系统资源

- 小宇 - 互联网的那点事...
盛大创新院发布了一款桌面文件查找工具:光速搜索,可快速搜索本机文件系统工具,相较于windows自带的搜索工具及传统系统查找工具,其最大亮点是轻巧高效. 据了解,随着个人电脑的硬盘空间越来越大,外接移动存储设备使用越来越频繁的情况下,管理个人文件变得越来越烦琐,而通过常规的Windows文件搜索,通常需要几十秒甚至N分钟的等待.

谷歌调整搜索排名系统 涉嫌侵权网站将遭降级

- - TechWeb 今日焦点 RSS阅读
腾讯科技讯(瑞杰)北京时间8月11日消息,据国外媒体报道,谷歌一直对外宣称,自己的搜索服务如何将准确信息传达给受众,不过谷歌将于下周开始对其搜索服务作出重大调整:部分受到过多版权方有关版权质疑的网站会在谷歌搜索结果中排名中遭到“降级”. 谷歌表示这一改变的目的是帮助用户更容易地找到合法、高质量的内容来源.