Linkedin 大数据生态系统

标签: 数据挖掘 | 发表时间:2013-06-28 11:56 | 作者:bicloud
出处:http://blog.sina.com.cn/bicloud

随着hadoop及其生态系统技术的应用,海量数据挖掘和机器学习算法在实际项目中的作用不断增加。Linkedin的大数据生态系统主要基于hadoop,hive,pig等,从而帮助数据科学家和机器学习研究人员从海量数据中抽取知识,构建新的数据产品特征。实际上,主要是为了解决最后一公里,提出一套丰富的开发生态系统。它包括从在线系统输出和输入数据,管理生产流程中的工作流。这种解决方案的主要特点是,对于研究人员来说,不用关心分布式系统的问题,它们被完全抽象出来。例如,部署数据回流到在线系统,数据科学家只需要一句简单的Pig命令就可以完成。

 

1相关工作

Twitter: 基于Pig搭建的机器学习平台

Facebook,hive数据分析,目前关于fb的生产环境的机器学习的资料还比较少

 

2Linkedin大数据生态系统

 


UGC数据从在线系统回流到离线系统,构建数据仓库。同时,对离线数据进行分析和挖掘,回流到在线系统。

 

3数据输入

数据加载到hadoop主要是两种形式:数据库和事件数据。数据库主要包括用户信息,公司信息,链接关系和其他网站数据。事件数据主要包括,实时活动数据流,譬如实时浏览,搜索等等。

3.1数据进化

数据来源较多,管理数据模式

在独立的模式注册表中,为每个主题topic维护一个数据模式

Linkedin采用apache avro作为序列化格式

3.2 hadoop加载

Kafka上的活动数据每10分钟通过hadoop map-only job回流到hadoop中。

Kafka中维护了超过100T压缩后的大约300个主题数据。每天处理15billion消息,峰值20万每秒。

3.3监控

参考K. Goodhope, J. Koshy, J. Kreps, N. Narkhede, R. Park, J. Rao,  and V.Y. Ye,   "Building LinkedIn's Real-time Activity Data Pipeline",  ;presented at IEEE Data Eng. Bull., 2012, pp.33-45.

 

4工作流

Azkaban工作流平台

Linkedin维护三种Azkaban实例,每个和hadoop环境相对应。Hadoop ETL对于用户来说完全隐藏。在开发环境和生产环境中,研究人员首先将工作流部署到开发者实例中,测试算法的输出。一旦在开发环境经过测试,每个工作流进入生产环境进行测试。通过测试后,工作流就可以被部署到生产环境实例中。数据集和工具在各个环境中进行同步处理。

5数据输出

工作流的结果数据需要回流到其他存储系统,用于服务线上应用。

根据实际应用,主要有三种主要机制:

(1)       kv存储

(2)       流数据

(3)       OLAP在线分析平台

5.1key-value

Linkedin主要使用voldemort进行kv数据存储

Kv存储是linkedin主要数据输出系统,即将模型算法结果数据存储到voldemort中。

5.2 流数据

Kafka处理实时数据

Sessions = foreach pageviews generate sessionize(*);

Store sessions into ‘kafka://kafka-url’ using

Streams(‘topic=pageviews’);

5.3 OLAP

多维数据处理,离线计算数据,主要是ETL构建物化视图,服务前台产品。

产品:avatara

 

6 应用

6.1 key-value

People you may know

协同过滤

技能推荐

相关搜索

6.2流数据

新闻实时更新

Email实时处理

关系强度计算

6.3OLAP

Who has viewed my profile

Who has viewed this job

 

参考: http://www.slideshare.net/s_shah/the-big-data-ecosystem-at-linkedin-23512853
  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [linkedin 大数据 生态系统] 推荐:

Linkedin 大数据生态系统

- - 冰火岛
随着hadoop及其生态系统技术的应用,海量数据挖掘和机器学习算法在实际项目中的作用不断增加. Linkedin的大数据生态系统主要基于hadoop,hive,pig等,从而帮助数据科学家和机器学习研究人员从海量数据中抽取知识,构建新的数据产品特征. 实际上,主要是为了解决最后一公里,提出一套丰富的开发生态系统.

首席工程师揭秘:LinkedIn大数据后台是如何运作的

- - 博客园_知识库
   英文原文: The Log: What every software engineer should know about real-time data's unifying abstraction.   我在六年前的一个令人兴奋的时刻加入到LinkedIn公司. 从那个时候开始我们就破解单一的、集中式数据库的限制,并且启动到特殊的分布式系统套件的转换.

中国的LinkedIn们

- - It Talks-魏武挥的blog
我倒并不想完全断言中国BSNS没有一点点的未来,但做生意是真金白银的消耗,非常讲究一个timing问题. 中国BSNS,要想走出中国的LinkedIn的道路,恐怕得花上比LinkedIn自身发展更长的时间. 与目前股价一路扶摇直上的LinkedIn相比,中国的BSNS(商务社交,也有自称PSNS专业社交的)显得有些不愠不火,差强人意.

向LinkedIn学习什么

- 车东 - 《商业价值》杂志
准确的定位和极优的数据整理能力,是LinkedIn最终成功的原因. 中国模仿者们需要模仿到基因层面才会有希望. 2010年12月,美国非上市公司股票交易平台SecondMarket评选出五大估值超10亿美元的非上市公司,LinkedIn挤掉Youtube等大热门而上榜. LinkedIn这家比Facebook还早的老牌社交网站,在将近10年的互联网大潮中,一直以低调稳健但内容乏味的姿态潜行.

中国会不会有Linkedin?

- zhangv - It Talks--上海魏武挥的博客
本周根据外电,Linkedin已经为自己的IPO做了定价,区间大致在32-35美元,预期募集资金2.71亿,估值在30-33亿美元. 这个主打所谓高端人群,74%会员受过高等教育,被誉为“职场SNS”的网络公司,拥有1亿用户,2010年营收2.43亿美元,利润1500多万. 据公司声称,在linkedin上,有200万个公司页面,73%的财富100强公司用过它的招聘解决方案,世界500强则全数成为它的会员.

[原]LinkedIn Cubert安装指南

- - OopsOutOfMemory盛利的博客
最近工作需要,调研了一下LinkedIn开源的用于复杂大数据分析的高性能计算引擎Cubert. 自己测了下,感觉比较适合做报表统计中的Cube计算和Join计算,效率往往比Hive高很多倍,节省资源和时间. 下面看下这个框架的介绍:. Cubert完全用Java开发,并提供一种脚本语言. 它是针对报表领域里经常出现的复杂连接和聚合而设计的.

LinkedIn架构这十年

- - 鸟窝
原文: A Brief History of Scaling LinkedIn. Josh Clemm是LinkedIn的高级工程经理,自2011年加入LinkedIn. 他最近(2015/07/20)写了一篇文章,介绍了LinkedIn针对用户规模急速扩大带来的架构方面的变革. 文章有点像子柳写的 淘宝技术这十年.

Twitter Bootstrap生态系统持续增长

- - InfoQ cn
Bootstrap Hero最近针对 Twitter Bootstrap发布了 一个超过200多个资源的列表. 文章列出了各种UI部件,从 accordions到 address pickers再到 pagination tools和一些 更强大的模型窗口. 当然,它同时也列出了很多其他的资源,展示了整个生态系统目前的丰富程度.

用户到底如何使用 LinkedIn?

- jl1987 - 爱范儿 · Beats of Bits
作为最热门的职业社交网络,LinkedIn 正以每秒增加一位新注册用户的速度快速扩张. 近日,由互联网调研公司 Lab42 根据500位LinkedIn用户的调查反馈,制作了一张名为 “The LinkedIn Profile”的信息图. 调查问卷就用户使用LinkedIn 网站的目的和效果进行了分析和归总.

LinkedIn CEO:人们没空玩Google+

- Ice - cnBeta.COM
据国外媒体报道,LinkedIn CEO 杰夫・威纳(Jeff Weiner)认为,人们没空去玩Google+. 当被问及社交网络是否有共存的数量限制时,威纳表示,谷歌必须变得更社交化,但他质疑在这点上谷歌能走多远.