Twitter实时搜索系统EarlyBird

标签: twitter 实时 搜索 | 发表时间:2014-06-07 19:05 | 作者:jollyjumper
出处:http://blog.csdn.net
twitter对存档的tweet使用lucene做全量索引,新发的推文则是实时索引,实时检索(10秒之内索引)。实时索引和检索系统叫EarlyBird。
感觉写得比较清楚简洁,只要这些信息足够真实可信,完全可以做实现参考。
我简单做了几个记录: 
1)基于lucene + java,michael busch是lucene committer
2)词典直接用哈希表,因此不支持term的prefix,偏序查询,哈希表使用开放链址法实现,避免大量小对象gc开销
3)postings列表在optimize之前直接用数组,按照docid生序不压缩,因此查找可以直接二分查找不需要跳跃表结构.posting增长时分配空间以block为单位,分配空间按指数预留空间
4)12个segment11个是read-only,只有一个是可读可写的,一个segment中tweet数量超过8.4m时,segment经过optimize(不是lucene中的段合并,而是做压缩)变为read only.
5)11个只读段并发读不需要锁,唯一的可读可写段使用volatile关键字实现高效同步(jvm memory barrier)


论文地址: 
http://www-users.cs.umn.edu/~gade/earlybird.pdf
作者:jollyjumper 发表于2014-6-7 19:05:25 原文链接
阅读:100 评论:0 查看评论

相关 [twitter 实时 搜索] 推荐:

Twitter实时搜索系统EarlyBird

- - CSDN博客互联网推荐文章
twitter对存档的tweet使用lucene做全量索引,新发的推文则是实时索引,实时检索(10秒之内索引). 实时索引和检索系统叫EarlyBird. 感觉写得比较清楚简洁,只要这些信息足够真实可信,完全可以做实现参考. 1)基于lucene + java,michael busch是lucene committer.

缺少了 Twitter 实时搜索的 Google 确实是伤不起

- 珣子 - 谷奥——探寻谷歌的奥秘
Google+发布第二天,Google实时搜索突然不见让人感到很诧异,尽管Google开始说他们是想办法把Google+也整合进去,但那用不着整个关闭实时搜索吧. 后来才真相大白,是因为Google与Twitter的合作协议到期,所以Google无法获得实时Twitter接口“firehose”才无法继续提供实时搜索了.

谷奥: 阴谋论胜利,果然是 Twitter 不再允许 Google 实时搜索的索引

- nkce - 谷奥聚合——谷奥主站+谷安 aggregator
在《Google做那事关闭Realtime实时搜索》的帖子最后,我阴谋论的猜测可能是Twitter在Google+上线之后反目成仇不允许Google索引他们了,结果被我不幸言中. Google刚刚给SEL发来了最新的解释说是因为合约到期了:. 2009年10月,Twitter与我们签署协议允许我们利用特殊的接口获取最新的tweets,该协议在7月2日到期,所以我们无法再利用特殊的接口从获取Twitter信息,但Twitter里的公开信息还是可以通过我们的爬虫索引,并在Google.com搜索到.

Twitter的搜索服务快了3倍!

- nAODI - 黑客志
坊间传闻, 在2010年的春季, Twitter的搜索服务团队在越来越大的流量压力下, 同时也为了搜索功能的增强, 放弃了原来MySQL+Ruby的方案,采用了Lucene+Blender的解决方案. 最近得到的结果是喜人的, 目前Twitter的搜索服务速度提高了3倍, 同时也为未来的继续增强打下了良好的技术基础,原文在这里:http://engineering.twitter.com/2011/04/twitter-search-is-now-3x-faster_1656.html.

Twitter实时同步Google Buzz的方法

- Gene - 月光博客
  Google Buzz和FriendFeed一样支持导入Twitter的信息,不过Buzz和FriendFeed不同的是,它对于Twitter的同步是单向的,你可以看到别人的Twitter,却无法回复到Twitter中,另一个重要的问题是延时,Twitter同步信息到Buzz的延时非常严重,和Friendfeed的实时性同步形成鲜明对比.

Twitter的实时通知架构

- -
Twitter工程经理Sarrabh Pathak在伦敦QCon 2017大会上介绍了Twitter网站的通知系统架构. 他主要介绍了Twitter所面临的独特挑战,比如社交网络的双峰(bimodal)性、如何应付尖刺流量以及如何实现实时的通知机制. Pathak解释说,与一般的社交网络不同,Twitter的用户数据具有不对称性.

Twitter 发布官方图片分享及新搜索服务

- ifyousee - 爱范儿 · Beats of Bits
6 月1日,Twitter 官方博客发布了两则重要信息:官方图片分享功能以及新的搜索服务. 和 PhotoBucket 合作的图片上传功能. 以往要在 Twitter 上分享图片需要先把图片上传到其他空间,然后进行转载. 虽然很多客户端整合了这个功能,但比起国内用户使用的 新浪微博 来说,官方支持要方便的多.

三个技巧,活用 Twitter 搜索的高级功能

- 邮筒 - 爱范儿 · Beats of Bits
Twitter 是信息的洪流,世界的脉搏. 大家都关注 Twitter 上“现在发生了什么”,可惜在协议到期后, Google 的实时搜索服务终止了对 Twitter 的支持. 那么,就好好挖掘 Twitter 自己的搜索功能吧,下面几个技巧会帮助你. 1.在搜索结果中去掉链接:“xxx -filter:links”.

Google 和 Twitter 的搜索协议还是谈不拢

- 安得米 - 谷奥——探寻谷歌的奥秘
今年7月Google被迫关闭Google Real Time Search,因为是Twitter不再允许Google利用特殊的API来获得最新Twitter信息的索引. 昨天举办的Web 2.0大会上,Twitter的CEO Dick Costolo对无法跟Google续签搜索合作协议发表评论说:.