提高排序效果,Twitter搜索相关架构解析
原文: Search Relevance Infrastructure at Twitter
翻译:KK4SBB
责编:周建丁
每天,全世界几百万的用户都在Twitter上搜索着发生的新鲜事。在重大事件期间,比如刚刚过去不久的 2016欧洲杯,我们观察到在用户前来Twitter查看最新战况时,搜索服务会出现流量的尖峰,并且整体流量随着此事件的推移而稳步上升。Twitter的搜索质量组就是负责给用户返回质量最好的结果。
相比于传统的信息检索产品,Twitter的搜索面临的挑战是绝无仅有的,原因如下:
-
时效性:我们大部分的搜索请求都对信息的话题性和实时性有着强烈的需求。世界局势瞬息万变,在某些情况下,甚至几分钟前的搜索结果就会显得过时和不相关。推荐的搜索词条,拼写纠正和相关搜索词等,都需要保证新鲜和及时。
-
文档集合庞大:搜索的候选文档集合非常巨大,每天有几十亿条各种语言的新的Twitter生成。
-
文档格式:Twitter的文档有其特殊的属性:140个字符的非结构文本文字,但是包含了丰富的实体类别,有“#”符合、“@”符合、图像、视频和站外链接。不同于网站页面,Twitter之间没有超链接,因此类似PageRank的基于链接的算法不能直接拿来用于Twitter的排序。
-
多种结果类型:搜索的结果页是多种搜索结果的聚合,包括Twitter、其它用户账号、图像、视频、新闻、相关搜索和拼写候选词等。各种类型的结果需要一起参与排序,使得最后聚合的结果页满足用户的搜索意图。
-
个性化:每一位搜索用户都有自己的社交网络、兴趣爱好、地理位置和语言偏好,因此搜索结果需要个性化定制以满足相关性。
为了在很短的延迟内返回相关的、高质量的搜索结果,我们需要在多个领域解决技术挑战:信息检索、自然语言处理、机器学习、分布式系统、数据科学等等。
在过去几个月中,我们投入了大量精力在搜索相关性的基础框架建设,目的是提高排序效果和实验的效率。这篇博文介绍了一些重点工作。注意,这与我们的召回Twitter的 核心索引和检索平台(没有排序)有所区别。
实时信号消化
我们排序模型中用到的信号的变化性和时效性对最终的搜索结果质量有着巨大的影响。而且,当Twitter被建索引之后许多信号都会迅速改变,因此我们需要及时更新它们。我们基于 Heron写了一套新的信号消化器来处理原始信号流,为我们产品的排序模块提供特征。我们添加了灵活的模式动态地对新特征编码和解码,而尽可能少的修改代码。随着Twitter应用的升级,我们可以快速地添加和测试在离线实验中表现出色的新的排序信号。
快速、轻量级实验
我们实现从想法->验证->迭代这个周期的速度越快、代价越小,我们可以验证的想法就越多,产生的创新也越多。我们重度依赖传统的 A/B测试,同时也建立了一个互补的离线实验系统,使得测试效率更高。Twitter的搜索结果和搜索词变化迅速。因此,为了将信号从噪音中分割开来,我们冻结特定的时间节点的世界状态,构建了一个沙盒环境,以至于我们可以根据想要完成的测试来产生稳定的、可重复的结果。为了更好的理解,我们开发了工具来分析和显示的结果之间的差异,并且可以从内部评委处容易地获得他们根据我们的搜索质量判断准则给出的打分标签。一个特别好的优势是,这使我们能够验证庞大的指数级变化,如给检索增加新的索引字段和标识的更新等等,还可以在部署产品之前对结果精细地打磨。
训练和部署机器学习模型
机器学习的模型常用于搜索排名,因为他们提供了一个原则性和自动化的方式来优化特征的权重和整合新的排序特征。为了使它们效果最好,重要的是要正确识别需优化的目标函数,使其与用户最终的满意度相关联。我们建立了一个管道,它可以无缝地收集训练数据集用于模型的训练和验证,并将训练完成的模型部署到生产服务器。数据规模带来了额外的挑战,如搜索排名第一阶段发生在索引碎片,大量与查询词匹配的文档在CPU资源、内存和延迟约束很严格的情况下进行打分。我们与 Twitter Cortex团队创建了一个轻量级的运行系统,它可以支持在这些约束条件下运行模型,并且用我们内部的机器学习平台工具训练得到的排序模型部署到线上使用,如 whetlab。
这些都是支持我们测试的关键模块,并且能够提升搜索的相关性,使搜索更好地为我们的用户服务。在未来的文章中,我们将深入介绍近期正在进行的搜索质量和项目的具体方面。敬请关注!
感谢
搜索质量组的成员有 Tian Wang, Juan Caicedo, Zhezhe Chen, jinliang Fan, Lisa Huang, Gianna Badiali, Yan Xia和 Yatharth Saraf。我们还要感谢搜索架构组、Heron和Cortex团队在各阶段给予的大力帮助。