提高排序效果,Twitter搜索相关架构解析

标签: geek | 发表时间:2016-09-02 00:00 | 作者:
出处:http://itindex.net/admin/pagedetail

原文: Search Relevance Infrastructure at Twitter
翻译:KK4SBB
责编:周建丁

每天,全世界几百万的用户都在Twitter上搜索着发生的新鲜事。在重大事件期间,比如刚刚过去不久的 2016欧洲杯,我们观察到在用户前来Twitter查看最新战况时,搜索服务会出现流量的尖峰,并且整体流量随着此事件的推移而稳步上升。Twitter的搜索质量组就是负责给用户返回质量最好的结果。

相比于传统的信息检索产品,Twitter的搜索面临的挑战是绝无仅有的,原因如下:

  • 时效性:我们大部分的搜索请求都对信息的话题性和实时性有着强烈的需求。世界局势瞬息万变,在某些情况下,甚至几分钟前的搜索结果就会显得过时和不相关。推荐的搜索词条,拼写纠正和相关搜索词等,都需要保证新鲜和及时。

  • 文档集合庞大:搜索的候选文档集合非常巨大,每天有几十亿条各种语言的新的Twitter生成。

  • 文档格式:Twitter的文档有其特殊的属性:140个字符的非结构文本文字,但是包含了丰富的实体类别,有“#”符合、“@”符合、图像、视频和站外链接。不同于网站页面,Twitter之间没有超链接,因此类似PageRank的基于链接的算法不能直接拿来用于Twitter的排序。

  • 多种结果类型:搜索的结果页是多种搜索结果的聚合,包括Twitter、其它用户账号、图像、视频、新闻、相关搜索和拼写候选词等。各种类型的结果需要一起参与排序,使得最后聚合的结果页满足用户的搜索意图。

  • 个性化:每一位搜索用户都有自己的社交网络、兴趣爱好、地理位置和语言偏好,因此搜索结果需要个性化定制以满足相关性。

为了在很短的延迟内返回相关的、高质量的搜索结果,我们需要在多个领域解决技术挑战:信息检索、自然语言处理、机器学习、分布式系统、数据科学等等。

在过去几个月中,我们投入了大量精力在搜索相关性的基础框架建设,目的是提高排序效果和实验的效率。这篇博文介绍了一些重点工作。注意,这与我们的召回Twitter的 核心索引和检索平台(没有排序)有所区别。

实时信号消化

我们排序模型中用到的信号的变化性和时效性对最终的搜索结果质量有着巨大的影响。而且,当Twitter被建索引之后许多信号都会迅速改变,因此我们需要及时更新它们。我们基于 Heron写了一套新的信号消化器来处理原始信号流,为我们产品的排序模块提供特征。我们添加了灵活的模式动态地对新特征编码和解码,而尽可能少的修改代码。随着Twitter应用的升级,我们可以快速地添加和测试在离线实验中表现出色的新的排序信号。

快速、轻量级实验

我们实现从想法->验证->迭代这个周期的速度越快、代价越小,我们可以验证的想法就越多,产生的创新也越多。我们重度依赖传统的 A/B测试,同时也建立了一个互补的离线实验系统,使得测试效率更高。Twitter的搜索结果和搜索词变化迅速。因此,为了将信号从噪音中分割开来,我们冻结特定的时间节点的世界状态,构建了一个沙盒环境,以至于我们可以根据想要完成的测试来产生稳定的、可重复的结果。为了更好的理解,我们开发了工具来分析和显示的结果之间的差异,并且可以从内部评委处容易地获得他们根据我们的搜索质量判断准则给出的打分标签。一个特别好的优势是,这使我们能够验证庞大的指数级变化,如给检索增加新的索引字段和标识的更新等等,还可以在部署产品之前对结果精细地打磨。

训练和部署机器学习模型

机器学习的模型常用于搜索排名,因为他们提供了一个原则性和自动化的方式来优化特征的权重和整合新的排序特征。为了使它们效果最好,重要的是要正确识别需优化的目标函数,使其与用户最终的满意度相关联。我们建立了一个管道,它可以无缝地收集训练数据集用于模型的训练和验证,并将训练完成的模型部署到生产服务器。数据规模带来了额外的挑战,如搜索排名第一阶段发生在索引碎片,大量与查询词匹配的文档在CPU资源、内存和延迟约束很严格的情况下进行打分。我们与 Twitter Cortex团队创建了一个轻量级的运行系统,它可以支持在这些约束条件下运行模型,并且用我们内部的机器学习平台工具训练得到的排序模型部署到线上使用,如 whetlab

这些都是支持我们测试的关键模块,并且能够提升搜索的相关性,使搜索更好地为我们的用户服务。在未来的文章中,我们将深入介绍近期正在进行的搜索质量和项目的具体方面。敬请关注!

感谢

搜索质量组的成员有 Tian Wang, Juan Caicedo, Zhezhe Chen, jinliang Fan, Lisa Huang, Gianna Badiali, Yan XiaYatharth Saraf。我们还要感谢搜索架构组、Heron和Cortex团队在各阶段给予的大力帮助。

相关 [高排 twitter 搜索] 推荐:

提高排序效果,Twitter搜索相关架构解析

- - IT瘾-geek
每天,全世界几百万的用户都在Twitter上搜索着发生的新鲜事. 在重大事件期间,比如刚刚过去不久的 2016欧洲杯,我们观察到在用户前来Twitter查看最新战况时,搜索服务会出现流量的尖峰,并且整体流量随着此事件的推移而稳步上升. Twitter的搜索质量组就是负责给用户返回质量最好的结果.

Twitter的搜索服务快了3倍!

- nAODI - 黑客志
坊间传闻, 在2010年的春季, Twitter的搜索服务团队在越来越大的流量压力下, 同时也为了搜索功能的增强, 放弃了原来MySQL+Ruby的方案,采用了Lucene+Blender的解决方案. 最近得到的结果是喜人的, 目前Twitter的搜索服务速度提高了3倍, 同时也为未来的继续增强打下了良好的技术基础,原文在这里:http://engineering.twitter.com/2011/04/twitter-search-is-now-3x-faster_1656.html.

Twitter实时搜索系统EarlyBird

- - CSDN博客互联网推荐文章
twitter对存档的tweet使用lucene做全量索引,新发的推文则是实时索引,实时检索(10秒之内索引). 实时索引和检索系统叫EarlyBird. 感觉写得比较清楚简洁,只要这些信息足够真实可信,完全可以做实现参考. 1)基于lucene + java,michael busch是lucene committer.

Twitter 发布官方图片分享及新搜索服务

- ifyousee - 爱范儿 · Beats of Bits
6 月1日,Twitter 官方博客发布了两则重要信息:官方图片分享功能以及新的搜索服务. 和 PhotoBucket 合作的图片上传功能. 以往要在 Twitter 上分享图片需要先把图片上传到其他空间,然后进行转载. 虽然很多客户端整合了这个功能,但比起国内用户使用的 新浪微博 来说,官方支持要方便的多.

缺少了 Twitter 实时搜索的 Google 确实是伤不起

- 珣子 - 谷奥——探寻谷歌的奥秘
Google+发布第二天,Google实时搜索突然不见让人感到很诧异,尽管Google开始说他们是想办法把Google+也整合进去,但那用不着整个关闭实时搜索吧. 后来才真相大白,是因为Google与Twitter的合作协议到期,所以Google无法获得实时Twitter接口“firehose”才无法继续提供实时搜索了.

三个技巧,活用 Twitter 搜索的高级功能

- 邮筒 - 爱范儿 · Beats of Bits
Twitter 是信息的洪流,世界的脉搏. 大家都关注 Twitter 上“现在发生了什么”,可惜在协议到期后, Google 的实时搜索服务终止了对 Twitter 的支持. 那么,就好好挖掘 Twitter 自己的搜索功能吧,下面几个技巧会帮助你. 1.在搜索结果中去掉链接:“xxx -filter:links”.

Google 和 Twitter 的搜索协议还是谈不拢

- 安得米 - 谷奥——探寻谷歌的奥秘
今年7月Google被迫关闭Google Real Time Search,因为是Twitter不再允许Google利用特殊的API来获得最新Twitter信息的索引. 昨天举办的Web 2.0大会上,Twitter的CEO Dick Costolo对无法跟Google续签搜索合作协议发表评论说:.

Twitter新搜索架构和功能的实现方案

- - 互联网旁观者
今天(2011年5月31日),Twitter 发布了能够帮助我们的用户找到最相关的推文、图片和视频的 个人化搜索体验. 要创造这个产品,我们的基础架构需要支持两项主要的功能:搜索结果的相关性过滤和对于相关图片以及视频的识别. 两项功能都需要我们完全重写我们搜索架构,他们的核心就是 Blender 和 Earlybird.

苹果收购Twitter数据搜索与分析公司Topsy

- - PingWest
据《华尔街日报》的报道,苹果以2亿美元的价格,收购了一家名为Topsy的Twitter数据搜索和分析公司,它也是Twitter最大的合作伙伴之一. 目前尚不清楚,苹果收购Topsy的意图究竟是什么,但根据《华尔街日报》的推测,苹果可能要利用Topsy技术,改善它的广告业务,比如提高苹果在iAd平台上广告投放的精准度.