Netflix开源数据流管理器Suro

标签: 动态 大数据 Netflix suro 大数据工具 | 发表时间:2013-12-11 13:43 | 作者:Cashcow
出处:http://www.ctocio.com

Netflix近日开源了一个叫做Suro的工具,可以收集来自多个应用服务器的事件数据,并实时定向发送到目标数据平台如Hadoop和Elasticsearch。Netfix的这项创新有望成为大数据主流技术。

Netflix用Suro进行数据源到目标主机的实时导向,Suro不但在Netflix的数据管道中扮演关键角色,而且也是脱胎大型互联网公司的众多开源数据分析工具中的佼佼者。

Netflix各种应用程序每天生成数百亿的事件,Suro可以在数据被发送之前收集到它们,然后部分经过Amazon S3给Hadoop批处理,另一部分经过Apache Kafka给Druid 和 ElasticSearch做实时分析。从Netflix 博客了解到,公司也在考虑如何让Suro支持Storm或Samza这样的实时处理引擎去执行事件数据的机器学习。

suro-realtime-flow-example

熟悉大数据领域的人们都知道,很多技术都与公司挂钩,例如Netflix 创建了Suro, LinkedIn 创建了Kafka Samza , Twitter创建了Storm,Metamarkets 创建了 Druid 。Suro博客也承认它是基于Apache Chukwa项目,类似 Apache的Flume Facebook的Scribe 。诚然,这些项目中最显著的无疑是Hadoop。

公司为什么要建立自己的技术一直是争议的热点,因为他们的需求,一般都会被创建,就像在生活中的很多东西,不过,这个问题的答案还得具体问题具体分 析。例如Storm,正在成为一个非常受欢迎的流处理工具,但LinkedIn觉得它需要不同的东西,因此创建Samza。取代使用一些已有的技 术,Netflix创建了Suro,主要因为该公司虽然是一个重度的云服务用户(主要基于AWS),但也有一些非AWS业务,包括Apache Cassandra数据库。

netflix suro

这场技术创新最终赢家必然归结于采用这些主流技术的用户,无需在公司内部招聘专业人士,就可让公司从这些开源技术中获益。例如,我们已经看到 Hadoop供应商试图让Storm和Spark框架用于其企业客户。同时,我们也相信Hadoop绝对不是最后一个这样的技术。AWS有非常多的用户, 毕竟他们希望Suro这样技术提供的能力,而不是被AWS推出的服务绑定。

Via: Gigaom  编译:CSDN

相关 [netflix 开源 数据] 推荐:

Netflix开源数据流管理器Suro

- - IT经理网
Netflix近日开源了一个叫做Suro的工具,可以收集来自多个应用服务器的事件数据,并实时定向发送到目标数据平台如Hadoop和Elasticsearch. Netfix的这项创新有望成为大数据主流技术. Netflix用Suro进行数据源到目标主机的实时导向,Suro不但在Netflix的数据管道中扮演关键角色,而且也是脱胎大型互联网公司的众多开源数据分析工具中的佼佼者.

Netflix发布云中间层服务开源项目Ribbon

- - InfoQ cn
1月28日,全球最大的互联网视频提供商Netflix在自己的技术团队博客上 发布文章,对外公布了他们的开源项目Ribbon,其主要功能是将Netflix的中间层服务连接在一起. 文章开头说到Ribbon项目的背景:. Netflix使用了细粒度的SOA架构,这是我们基于云的部署模式的根基. 目前,我们运行着上百个细粒度服务,使用诸如Netflix API Services这样的“边缘服务(Edge Service)”,共同负责处理面向客户的请求.

技术 in Netflix

- - 后端技术杂谈 | 飒然Hang
综合市面上的公开资料总结了Netflix在技术上面的一些实践和创新,从中能够得到不少启发和提示.

聊聊 API Gateway 和 Netflix Zuul

- - ScienJus's Blog
最近参与了公司 API Gateway 的搭建工作,技术选型是 Netflix Zuul,主要聊一聊其中的一些心得和体会. 本文主要是介绍使用 Zuul 且在不强制使用其他 Neflix OSS 组件时,如何搭建生产环境的 Gateway,以及能使用 Gateway 做哪些事. 不打算介绍任何关于如何快速搭建 Zuul,或是一些轻易集成 Eureka 之类的的方法,这些在官方文档上已经介绍的很明确了.

Netflix的网站优化经验

- - 程序师
Netflix团队首先要做的一件事是改进他们的整体前端架构. 改版前的netflix.com网站对于服务端生成html标记与客户端的增强这两个过程进行了严格的分离,采用这一设计的主要原因在于前后端所使用的编程语言不同. 服务端主要使用Java的技术栈以生成基本的html页面,而在浏览器端的工作则主要是通过jQuery等JavaScript库的使用为服务端生成的html添加一些客户端的行为.

Netflix异常检测工具Surus初探

- - 标点符
Surus是NetFlix开源的UDFs,是基于pig和hive的数据分析工具. Surus中的功能能够解决多种多样的问题,例如评分预测模型、异常检测与模式匹配等. 目前开源的UDF功能主要包括两个,包括ScorePMML和Robust Anomaly Detection (RAD). 预测模型的应用随处可见,然而这些应用都不相同,唯独相同的是模型的创建和部署是相同的.

Netflix系统架构设计方案

- - DockOne.io
【编者的话】Netflix是全球最大的在线视频网站之一,它是怎么设计的呢. 这篇文章介绍了Netflix系统架构的设计方案. 原文: Netflix System Architecture. 我们来讨论一下如何设计Netflix. 相信每个人都会通过某些网站或应用在线追剧或者看电影,而Netflix是我最喜欢的在线视频网站,不过今天我不推荐任何电影,相反,我想展示的是Netflix背后令人惊艳的系统逻辑.

网络营销行为经济学分析: Amazon Apple Netflix Groupon Facebook

- zementary - 互联网营销|Internet Marketing
7月1日,Wired杂志,中文名为连线,最近杜克大学 行为经济学家 丹•艾瑞里(Dan Ariely)撰文在线公司如何让我们共享更多,消费更多. Ariely经济学家用行为经济学理论分别对亚马逊Amazon、Netflix、团购Groupon、 Zynga、Facebook和苹果的网络营销做了分析.

TiVo和微软媒体中心的倒下和Netflix的崛起

- Zhang Qiwei - 36氪
十年前TiVo定义了DVR(数字视频录像机)这个行业. 现在 TiVo已经变成一个动词,如果你想在有限电视公司提供的DVR上录制电视节目,你可以直接说“TiVo一段电视节目”. 但知名度也无法挽救TiVo产品线的颓势,数字媒体科技已经发生彻底变革. 也正是这种变革可以解释为什么微软会在Windows 8中淡化Windows媒体中心(Media Center)的概念.

Netflix推荐系统(第二部分)—— 排序

- - xlvector - Recommender System
Netflix最近发表了第二篇关于他们推荐系统的技术blog,相比第一篇,这篇blog透露了不少技术细节. 因此这里我准备翻译并分析一下这篇博客. 这篇blog很长,这里首先分析第一部分:排序. We will discuss some of our current models, data, and the approaches we follow to lead innovation and research in this space..