[原]阿里巴巴B2B搜索学习

标签: | 发表时间:2015-07-31 22:26 | 作者:whuqin
出处:http://blog.csdn.net/whuqin

1.搜索业务

主搜索:商品搜索、商家搜索、采购搜索、app搜索
行业搜索:淘货源、淘工厂、聚好货、主题市场、品牌馆等

2.优势

由于用户多,需求强烈,收益大,所以功能、场景、架构做到极致高效。
  • 代码复用性强:基础通用功能进行组件抽象化
  • 组件通用性好:一些组件或者组件进行组合的服务,适用更多场景,支持更多功能
  • 转化效果好:算法做的比较深入、细致

3.搜索技术架构

架构分为三部分:离线、实时、在线。

离线

  • NLP文本分析:Natural Language Processing,基于自然语言处理进行文本分析,提取特征
  • ODPS-MPI:Open Data Processing Service,阿里自己开发的开发数据处理服务,也就是基于Hadoop/MapReduce来跑大数据量的任务,进行机器学习、数据挖掘等工作
  • ODPS-UNIV:理解应该是一个web平台,来管理复用计算模块、计算任务,如任务调度,输入输出的设置,模块复用等
  • Dump平台:Universe数据中心生成的离线索引,通过dump平台传到线上搜索引擎

实时

实时部分针对用户行为进行处理反馈,实现个性化
  • Pora平台用户实时分析:基于Storm的流式计算平台,通过用户行为进行实时收集和分析,及时更新用户特征
  • Antispam平台内容分析:更新offer特征(offer就是一条返回内容,可以是一个商家、或者一个商品),像标题、交易状态发生变化时重新计算offer的特征,通过dump平台的增量流程,将数据更新到线上搜索引擎
  • TT实时数据源:淘宝研发的日志收集和分发系统–TimeTunnel

在线

在线搜索引擎接收线上请求,返回排序结果。
  • SP查询计划:search plane,将查询请求分发给各个平台,对各平台返回结果进行拼串
  • QP平台:Query Parse
  • Ups平台:猜测是User parse service,获取用户特征
  • Isearch平台:搜索引擎,维护索引,接收query,匹配文档,返回结果


4.Query分析

query分析很重要,能更精确的返回用户需要的结果。流程有:
  • 拼写纠错
  • 分词、属性标注
  • 语义归一:同义词标准化
  • 分类:query意图分类,如是搜商家的、或者是泛查询、或者是搜商品
  • 聚类:我理解是用于query扩展,对长尾query给出与其相关更精确的query,扩大召回,提高准确率
  • 个性化:用户历史行为的使用
用到query分析的产品很多,开发就使用了上文提到的代码组件化、功能通用化的思想,如下图,基本小功能模块化,小模块组合成较大的模块,支持不同的应用。



后面的应用场景就不再记录了。

学习资料

http://www.infoq.com/cn/presentations/b2b-search-field-algorithm-challenges
http://www.aliyun.com/product/odps/
http://www.searchtb.com/2012/11/pora.html
作者:whuqin 发表于2015/7/31 14:26:09 原文链接
阅读:4 评论:0 查看评论

相关 [阿里巴巴 b2b 搜索] 推荐:

[原]阿里巴巴B2B搜索学习

- - 文武天下
主搜索:商品搜索、商家搜索、采购搜索、app搜索. 行业搜索:淘货源、淘工厂、聚好货、主题市场、品牌馆等. 由于用户多,需求强烈,收益大,所以功能、场景、架构做到极致高效. 代码复用性强:基础通用功能进行组件抽象化. 组件通用性好:一些组件或者组件进行组合的服务,适用更多场景,支持更多功能. 转化效果好:算法做的比较深入、细致.

从腾讯、奇虎 360 到阿里巴巴,想抢百度搜索市场的它们最后都挤到了一条路上

- - PingWest品玩
搜索市场是一块大蛋糕,而且有着成熟的商业模式,Google 每个季度 100 多亿美元的净利润大多数都来自搜索引擎这个印钞机. 现在,由于 Google 在中国市场不给力,国内的搜索引擎市场基本是被百度垄断,但即便这样,还是有一些资源雄厚的大公司想把百度手里的这块大蛋糕切一块自己来享用. 2012 年,奇虎 360 的 360 搜索上线不久后就拿下了 10 % 的市场份额.

阿里巴巴的零知识证明

- 见涛 - 科学松鼠会
战争中你被俘了,敌人拷问你情报. 你是这么想的:如果我把情报都告诉他们,他们就会认为我没有价值了,就会杀了我省粮食,但如果我死活不说,他们也会认为我没有价值而杀了我. 怎样才能做到既让他们确信我知道情报,但又一丁点情报也不泄露呢. 这的确是一个令人纠结的问题,但阿里巴巴想了一个好办法,当强盗向他拷问打开山洞石门的咒语时,他对强盗说:“你们离我一箭之地,用弓箭指着我,你们举起右手我就念咒语打开石门,举起左手我就念咒语关上石门,如果我做不到或逃跑,你们就用弓箭射死我.

来阿里巴巴一年有感(中)

- - Shining Ray
阿里巴巴现有有3万名员工,工号已经排到了12万. 如此庞大的组织,如此多的部门、单元,能朝着同样的愿景去一致行动,仿佛一个有机的整体,可见其管理体系的完备. 当我加入这样一个庞然大物,心情颇像《海上钢琴师》中的主角 1900 要踏足陆地进入城市,担心自己能不能适应好这个组织,发挥出自己的能力. 而经过一年的学习,跟随着其他同事做事,耳濡目染也学到了不少技巧.

专访阿里巴巴研究员赵海平:从Facebook到阿里巴巴

- - 博客园_新闻
赵海平,2007 年加入只有不到 50 个软件工程师的 Facebook,致力于软件性能和架构分析,在此期间创建了 HipHop 项目,重新编写和实现 PHP 语言,使其速度提高 5 到 6 倍,为公司节约数十亿美元. HipHop 项目之后,致力于“用异步处理来优化分布式系统”的设计理念中,并为此做了多项分布式数据库的优化研究,在 PHP 语言中加入了 yield 和 generator 的新功能,来帮助日趋复杂的 Facebook 网页设计.

阿里巴巴开源项目: 阿里巴巴去Oracle数据迁移同步工具

- - agapple
   08年左右,阿里巴巴开始尝试MySQL的相关研究,并开发了基于MySQL分库分表技术的相关产品,Cobar/TDDL(目前为阿里云DRDS产品),解决了单机Oracle无法满足的扩展性问题,当时也掀起一股去IOE项目的浪潮,愚公这项目因此而诞生,其要解决的目标就是帮助用户完成从Oracle数据迁移到MySQL上,完成去IOE的第一步. .

阿里巴巴高层震动的扯淡

- chenqj - It Talks--上海魏武挥的博客
这是真扯淡了,完全就是写博客,没有什么中心思想,想扯哪里扯哪里. 国内外有两家公司,遥相呼应地都非常强调所谓“价值观”,外有谷歌,内有阿里. 谷歌上市时,可以挑战华尔街的规矩,阿里上市时,则创下当时一批IPO的新高. 故而,这两家公司都是一时的翘楚,属于“从优秀到卓越”的公司. 公司是非常象一个宗教组织的——或者这么说,“好”公司都得象宗教组织.

阿里巴巴集团股权结构图

- telefan - Finacial Planet China 中国投资专家博客集
雅虎SEC文件原文是:“为了尽快获得一个重要牌照,阿里巴巴集团旗下在线支付公司支付宝已经被重组,其100%流通股现由阿里巴巴集团CEO马云控股的一家中国公司持有. 阿里巴巴集团管理层、主要股东雅虎和软银参与了有关支付宝重组条款的详细讨论. 收起 | 查看大图 | 向左转 向右转.

TradeSparq:阿里巴巴+Linkedin的采购网站

- anger - 互联网的那点事...
为什么人们会在Linkedin注册. 其中一个原因在于,他们想和他们的同伴(卖家或者买家)保持联络. 那么阿里巴巴这些年又是为什么这么流行呢,是因为它让国外用户很容易的找到数以千计的中国商品. 但是,你在Linkedin上,通常并不知道你联系的公司实际销售的是什么产品;而在阿里巴巴,如果你是一个制造商,想要推广自己的产品通常需要支付高昂的会员费(供应商会费一年3012美元).