Twitter的海量数据实时系统实现

标签: NoSQL杂谈 twitter 实时 实时数据 | 发表时间:2011-08-05 13:52 | 作者:nosqlfan rockmaple
出处:http://blog.nosqlfan.com/

作为世界上最大的微博客网站,Twitter也有着世界上最大的数据压力,在七月份的一份数据显示,Twitter的日发送量已经突破2亿条,其日独立访问用户早在5月份就达到1.39亿。

下面是Twitter在Qcon London的一个演讲PPT,描述了Twitter最重要的四块实时数据(Tweets,Timelines,Social graphs,实时搜索)的存储实现及架构变迁。在文中可能你会惊叹像Twitter这么大的公司,在其最初也就是用的一些非常土鳖的技术。

演讲视频:www.infoq.com

技术传播,需要你我共同努力!    

相关文章:

用Solr和Hadoop搭建大规模数据下的实时搜索服务

foursquare 的数据分析系统(Hadoop+Hive+Redis+MongoDB)

twitter发布开源存储框架Gizzard

论文:Hadoop在Facebook的实时应用

快速构建实时抓取集群
无觅

相关 [twitter 量数 实时] 推荐:

Twitter的海量数据实时系统实现

- vento - NoSQLFan
作为世界上最大的微博客网站,Twitter也有着世界上最大的数据压力,在七月份的一份数据显示,Twitter的日发送量已经突破2亿条,其日独立访问用户早在5月份就达到1.39亿. 下面是Twitter在Qcon London的一个演讲PPT,描述了Twitter最重要的四块实时数据(Tweets,Timelines,Social graphs,实时搜索)的存储实现及架构变迁.

Twitter实时同步Google Buzz的方法

- Gene - 月光博客
  Google Buzz和FriendFeed一样支持导入Twitter的信息,不过Buzz和FriendFeed不同的是,它对于Twitter的同步是单向的,你可以看到别人的Twitter,却无法回复到Twitter中,另一个重要的问题是延时,Twitter同步信息到Buzz的延时非常严重,和Friendfeed的实时性同步形成鲜明对比.

Twitter实时搜索系统EarlyBird

- - CSDN博客互联网推荐文章
twitter对存档的tweet使用lucene做全量索引,新发的推文则是实时索引,实时检索(10秒之内索引). 实时索引和检索系统叫EarlyBird. 感觉写得比较清楚简洁,只要这些信息足够真实可信,完全可以做实现参考. 1)基于lucene + java,michael busch是lucene committer.

Twitter的实时通知架构

- -
Twitter工程经理Sarrabh Pathak在伦敦QCon 2017大会上介绍了Twitter网站的通知系统架构. 他主要介绍了Twitter所面临的独特挑战,比如社交网络的双峰(bimodal)性、如何应付尖刺流量以及如何实现实时的通知机制. Pathak解释说,与一般的社交网络不同,Twitter的用户数据具有不对称性.

twitter海量数据机器学习解决方案

- - 冰火岛
技术关键点:hadoop, pig, stochastic gradient descent, online learning, ensembles, logistic regression. Twitter分析框架建立在hadoop集群之上,通过实时处理和批处理将数据写入到HDFS. twitter分析除了通过java写mapreduce代码实现以外,大部分是通过Pig来实现.

缺少了 Twitter 实时搜索的 Google 确实是伤不起

- 珣子 - 谷奥——探寻谷歌的奥秘
Google+发布第二天,Google实时搜索突然不见让人感到很诧异,尽管Google开始说他们是想办法把Google+也整合进去,但那用不着整个关闭实时搜索吧. 后来才真相大白,是因为Google与Twitter的合作协议到期,所以Google无法获得实时Twitter接口“firehose”才无法继续提供实时搜索了.

Storm :twitter的实时数据处理工具

- d0ngd0ng - yiihsia[互联网后端技术]_yiihsia[互联网后端技术]
昨天在家里一直发不出文章,于是干脆先发到了iteye上. Twitter在9月19日的Strange Loop大会上公布Storm的代码. 这个类似于Hadoop的即时数据处理工具是BackType开发的,后来被Twitter收购用于Twitter. Twitter列举了Storm的三大类应用:. 1. 信息流处理{Stream processing}.

开放实时数据处理平台 Twitter Storm

- We_Get - 开源中国社区最新软件
Storm 代码来自于Twitter上月收购的BackType,似乎是Twitter为方便用户解析数据的努力. 现在Storm的势头相当强劲,Twitter开发的使其完美的工具,已经变得非常强大. 类似于Hadoop,另一个开源数据操作平台,Storm也可能成为一项大业务. 据报道,雅虎正在考虑分拆Hadoop,打造一个规模达数十亿美元的业务.

真正的将 Google+ 信息流实时自动同步到 Twitter 和 Facebook

- jejer - 谷奥——探寻谷歌的奥秘
虽然我们不能把 Twitter / Facebook 的信息同步到 Google+ 来,但是我们可以反过来在 Google+ 写东西然后分享到别的地方去. 以前我们介绍过一个Chrome扩展可以实现这个,但它只是在你发Google+信息流的时候加一个发送到Twitter的按钮,你还是要点一下手动发消息过去.