提高排序效果,Twitter搜索相关架构解析

标签: geek | 发表时间:2016-09-02 08:00 | 作者:
出处:http://itindex.net/admin/pagedetail

原文: Search Relevance Infrastructure at Twitter
翻译:KK4SBB
责编:周建丁

每天,全世界几百万的用户都在Twitter上搜索着发生的新鲜事。在重大事件期间,比如刚刚过去不久的 2016欧洲杯,我们观察到在用户前来Twitter查看最新战况时,搜索服务会出现流量的尖峰,并且整体流量随着此事件的推移而稳步上升。Twitter的搜索质量组就是负责给用户返回质量最好的结果。

相比于传统的信息检索产品,Twitter的搜索面临的挑战是绝无仅有的,原因如下:

  • 时效性:我们大部分的搜索请求都对信息的话题性和实时性有着强烈的需求。世界局势瞬息万变,在某些情况下,甚至几分钟前的搜索结果就会显得过时和不相关。推荐的搜索词条,拼写纠正和相关搜索词等,都需要保证新鲜和及时。

  • 文档集合庞大:搜索的候选文档集合非常巨大,每天有几十亿条各种语言的新的Twitter生成。

  • 文档格式:Twitter的文档有其特殊的属性:140个字符的非结构文本文字,但是包含了丰富的实体类别,有“#”符合、“@”符合、图像、视频和站外链接。不同于网站页面,Twitter之间没有超链接,因此类似PageRank的基于链接的算法不能直接拿来用于Twitter的排序。

  • 多种结果类型:搜索的结果页是多种搜索结果的聚合,包括Twitter、其它用户账号、图像、视频、新闻、相关搜索和拼写候选词等。各种类型的结果需要一起参与排序,使得最后聚合的结果页满足用户的搜索意图。

  • 个性化:每一位搜索用户都有自己的社交网络、兴趣爱好、地理位置和语言偏好,因此搜索结果需要个性化定制以满足相关性。

为了在很短的延迟内返回相关的、高质量的搜索结果,我们需要在多个领域解决技术挑战:信息检索、自然语言处理、机器学习、分布式系统、数据科学等等。

在过去几个月中,我们投入了大量精力在搜索相关性的基础框架建设,目的是提高排序效果和实验的效率。这篇博文介绍了一些重点工作。注意,这与我们的召回Twitter的 核心索引和检索平台(没有排序)有所区别。

实时信号消化

我们排序模型中用到的信号的变化性和时效性对最终的搜索结果质量有着巨大的影响。而且,当Twitter被建索引之后许多信号都会迅速改变,因此我们需要及时更新它们。我们基于 Heron写了一套新的信号消化器来处理原始信号流,为我们产品的排序模块提供特征。我们添加了灵活的模式动态地对新特征编码和解码,而尽可能少的修改代码。随着Twitter应用的升级,我们可以快速地添加和测试在离线实验中表现出色的新的排序信号。

快速、轻量级实验

我们实现从想法->验证->迭代这个周期的速度越快、代价越小,我们可以验证的想法就越多,产生的创新也越多。我们重度依赖传统的 A/B测试,同时也建立了一个互补的离线实验系统,使得测试效率更高。Twitter的搜索结果和搜索词变化迅速。因此,为了将信号从噪音中分割开来,我们冻结特定的时间节点的世界状态,构建了一个沙盒环境,以至于我们可以根据想要完成的测试来产生稳定的、可重复的结果。为了更好的理解,我们开发了工具来分析和显示的结果之间的差异,并且可以从内部评委处容易地获得他们根据我们的搜索质量判断准则给出的打分标签。一个特别好的优势是,这使我们能够验证庞大的指数级变化,如给检索增加新的索引字段和标识的更新等等,还可以在部署产品之前对结果精细地打磨。

训练和部署机器学习模型

机器学习的模型常用于搜索排名,因为他们提供了一个原则性和自动化的方式来优化特征的权重和整合新的排序特征。为了使它们效果最好,重要的是要正确识别需优化的目标函数,使其与用户最终的满意度相关联。我们建立了一个管道,它可以无缝地收集训练数据集用于模型的训练和验证,并将训练完成的模型部署到生产服务器。数据规模带来了额外的挑战,如搜索排名第一阶段发生在索引碎片,大量与查询词匹配的文档在CPU资源、内存和延迟约束很严格的情况下进行打分。我们与 Twitter Cortex团队创建了一个轻量级的运行系统,它可以支持在这些约束条件下运行模型,并且用我们内部的机器学习平台工具训练得到的排序模型部署到线上使用,如 whetlab

这些都是支持我们测试的关键模块,并且能够提升搜索的相关性,使搜索更好地为我们的用户服务。在未来的文章中,我们将深入介绍近期正在进行的搜索质量和项目的具体方面。敬请关注!

感谢

搜索质量组的成员有 Tian Wang, Juan Caicedo, Zhezhe Chen, jinliang Fan, Lisa Huang, Gianna Badiali, Yan XiaYatharth Saraf。我们还要感谢搜索架构组、Heron和Cortex团队在各阶段给予的大力帮助。

相关 [排序 效果 twitter] 推荐:

提高排序效果,Twitter搜索相关架构解析

- - IT瘾-geek
每天,全世界几百万的用户都在Twitter上搜索着发生的新鲜事. 在重大事件期间,比如刚刚过去不久的 2016欧洲杯,我们观察到在用户前来Twitter查看最新战况时,搜索服务会出现流量的尖峰,并且整体流量随着此事件的推移而稳步上升. Twitter的搜索质量组就是负责给用户返回质量最好的结果.

Twitter 中文版

- 幻幽 or A書 - Gea-Suan Lin's BLOG
前幾天 Twitter 推出了中文版 (包括繁體與簡體):「Five new languages」. 對岸的市場可能還是進不去,但在台灣會加速 Plurk 的死亡… 從 Google+ 的出現以後就愈來愈明顯了,現在 Microblogging 的大魔頭再加入戰局,應該會更快….

Twitter和Facebook合作

- Woooon - cnBeta.COM
很重磅的新闻,两大社交网络巨头开始有合作了. Twitter 今天在用户的个人档案页面添加「Post Tweets to Facebook」按钮,让用户快速将自己的 Tweets 同步到 Facebook 状态中去.

twitter-mysql改进点

- - CSDN博客推荐文章
目前最新的twitter-mysql版本基于mysql5.5.22,以下总结了一些比较明显的改进点,大部分已经亲自证实,其他一些诸如修复的比较次要的问题(例如编译问题)这里暂不列出,可以详细参阅 https://github.com/twitter/mysql/wiki/Change-History .

Tribalfish = Twitter + 博客 + 论坛

- Kofai - 36氪
在网络上讨论流行话题有多重选择,你可以在Twitter上追踪话题或名人,也可以在博客上分享经验,更可以在论坛上你来我往,不过,Twitter上的讨论不够深入,博客讨论足够深入又不够及时,Tribalfish 就是集以上讨论工具的大成. 注册登陆后,你会看到好像论坛的界面,只是,不同于一般的论坛界面必须前后查找不同的话题,开启一页又一页的分布,Tribalfish让你可以仪在原页,直接点选感兴趣的内容,并在右方预览,也可以点选分享人的名字后追踪该使用者,这些设计也很像Twitter.

回顾 Twitter 的演变史

- tiansiyuan - 爱范儿 · Beats of Bits
2011 年 3 月后,Twitter 度过了五岁生日. 这只小鸟的飞行速度没有减缓,事实上,Twitter 在 4 月份的动作还挺多. Twitter  推出了新的网页版本,更加时尚的设计,主动推荐潜在关注对象;. “本地趋势”功能拓展到了 70 多个城市和国家;. 新的搜索工具,帮助人们更方便地去寻找新用户.

修改Hosts访问Twitter/Facebook

- cheng - 启光博客
  以前没感觉Facebook多么特别,最近又玩了一些日子,感觉还不错. 因为关注Facebook所以对最新Hosts比较关注,今天发现一个网友整理的,测试可直接使用. 虽然一直在文章中说以后不再发布类似的文章,不过没忍住,网友低调点使用吧,希望对经常访问Twitter与Facebook的网友有此帮助.

Twitter API中文文档

- Jacob - 月光博客
  目前的国内的微博客很多,不少微博客都提供Open API,然而,很多微博提供的API和Twitter的API有一些或多或少的差别,调用格式上并不完全相同.   我建议所有提供API的微博客系统,都将各自的API统一为Twitter的API调用格式,例如目前较有影响的开源微博系统StatusNet(Laconica)的API格式就完全兼容Twitter,这种统一API对于开发者和用户都有很大的好处.

Twitter估值84亿美元

- vieplivee - Solidot
《华尔街日报》报导(中文),Twitter宣布获得俄罗斯风投公司Digital Sky Technologies牵头的一笔融资,这笔约8亿美元的投资将Twitter估值推高至84亿美元. 报导引用消息人士的话称,此轮融资将部分用于收购现有股东的持股:一半的投资将用于Twitter,而另一半4亿美元将被用来收购现有股东持有的股份.

向Twitter Bootstrap 学习什么?

- junyu - 知乎的博客
什么是 Twitter Bootstrap. Twitter 有一位风格清新的设计师 Mark Otto(此人之前在 Zurb)[1],他负责了很多 Twitter 非前台的页面设计,比如 Dev、Support 和 Promoted Products 的设计. 去年,Mark 在自己网站发布了一套基于 Less [2] 框架的工具合集(mixins)—— Bootstrap.less [3],方便前端开发(静态部分).