揭秘LInkedin数据科学家如何工作

标签: 分析视角 | 发表时间:2013-03-20 20:59 | 作者:admin
出处:http://www.datakong.cn

data scientist

在互联网企业中,LinkedIn是一家出了名的“慢公司”,但LinkedIn也是最成功的社交网络,用户品质、广告价值都是行业翘楚,秘密在于LinkedIn有一个高效的数据科学家团队。

作为社交网络, LinkedIn并不是最大的,也不是生长最快的。 成立于2003年的LinkedIn, 花了500天, 才达到了100万用户。 然而, 作为全球最大的职业社交网络,LinkedIn的后劲十足。今天, LinkedIn每6天就新增100万用户。 平均每秒有两个新增用户。 每年, LinkedIn的用户搜索量达到了42亿。 LinkedIn的数据分析团队每天要分析200TB的数据来更好地了解用户。

为什么人们现在如此的关心统计和数据,为什么数据科学家成了最性感的工作, 最近,在TiE的峰会上, LinkedIn的首席数据科学家Manu Sharma 接受了采访, 揭秘了LinkedIn的数据分析的工作。 IT经理网编译整理如下:

问: 能介绍一下LinkedIn的数据科学吗?

答: LinkedIn就是用户的职业社交网络, 在这个网络上, 如果人们想找你却找不到那么你就可能失去一个机会。 因此, 对用户来说,保持状态和资料的时时更新非常重要。 LinkedIn的业务, 就是建立在对这些数据进行分析的基础上的。 为了达到对数据实时快速处理的目的,我们开发了自己独特的算法, 叫Metropolis。它可以每天实时处理10亿条数据。 具备开源的解决方案 Voldemort, Kafka,和 Zoie那样的功能。

数据科学家需要具备好奇心和直觉。 他们需要想的问题是:我能用这些数据来做什么呢? 我需要问什么样的问题?这些数据能告诉我什么? 他们还需要足够的直觉来了解他们所采用方法的局限性。 数据科学家的工作包括, 采集数据, 整理数据, 建立正确的模型, 测试模型, 还要有一定的编程能力。 一个数据科学家需要具备这些技能, 而这些技能也是一个初创企业在建立它的数据科学家团队所需要的技能。

问: LinkedIn数据应用的重点是那几个方面?

答:LinkedIn的数据应用主要在三个方面:

1. 开发创新的数据产品

2. 从内部数据发现趋势和机会

3. 推动业务成长

比如”推理算法”被用来根据用户的数据进行一些信息的推测。 这一点对于将来的产品设计尤其重要。比如说, LinkedIn就采用了“推理算法”推出了“你可能知道的人”这个功能。 这对增加用户粘性和提高用户口碑传播有极大的帮助。 LinkedIn是最早推出这一功能的。 现在, 这个功能已经成为了社交网络的必备功能了。

此外, 通过用户在资料里关于技能的描述文本,我们通过文本提取和文本分析, 建立起一套技能的关键子字典。 通过聚类算法, 可以产生很多很有意思的发现来帮助我们提高服务或者推出产品。

此外, 通过对各个行业的用户数据分析,还可以对行业或者整个经济进行一些预测。(编者: 比如说某个行业进行了裁员, 或者某些行业的招聘计划增加等等) 这样做的一个优点是, 这些数据不是来自与问卷调查,这些是用户实实在在的行为数据。 所以,在美国总统经济政策报告里, 这些数据也会被采用。 这些数据同样的对企业的发展也很重要。

问:数据分析最佳实践的原则是什么?

答:

1. 数据量越大越好

2. 原始数据比加工数据好

3. 数据标准和数据质量非常重要

4. 简单模型比复杂模型要好

5. 建模就是要不断进行试错。

来自:http://www.ctocio.com/ccnews/11165.html

您可能也喜欢:

卓越数据科学家的四大特征

忘记“大数据”,从“中数据”开始

数据挖掘是神马?

扯扯数据分析

数据可视化专家的七个不宣之秘
无觅

相关 [揭秘 linkedin 数据] 推荐:

揭秘LInkedin数据科学家如何工作

- - 互联网分析
在互联网企业中,LinkedIn是一家出了名的“慢公司”,但LinkedIn也是最成功的社交网络,用户品质、广告价值都是行业翘楚,秘密在于LinkedIn有一个高效的数据科学家团队. 作为社交网络, LinkedIn并不是最大的,也不是生长最快的. 成立于2003年的LinkedIn, 花了500天, 才达到了100万用户.

首席工程师揭秘:LinkedIn大数据后台是如何运作的

- - 博客园_知识库
   英文原文: The Log: What every software engineer should know about real-time data's unifying abstraction.   我在六年前的一个令人兴奋的时刻加入到LinkedIn公司. 从那个时候开始我们就破解单一的、集中式数据库的限制,并且启动到特殊的分布式系统套件的转换.

Linkedin 大数据生态系统

- - 冰火岛
随着hadoop及其生态系统技术的应用,海量数据挖掘和机器学习算法在实际项目中的作用不断增加. Linkedin的大数据生态系统主要基于hadoop,hive,pig等,从而帮助数据科学家和机器学习研究人员从海量数据中抽取知识,构建新的数据产品特征. 实际上,主要是为了解决最后一公里,提出一套丰富的开发生态系统.

从LinkedIn的数据处理机制学习数据架构

- - 博客 - 伯乐在线
LinkedIn.com是当今最流行的专业社交网站之一,本文描述了LinkedIn.com是如何管理数据的. 如你对文中的观点有异议亦或文中有遗漏的部分请随时告诉我. LinkedIn.com数据用例. 下面是一些数据用例,可能我们在浏览LinkedIn网页时都已经看到过了. 更新后的个人资料后几乎可以实时的出现在招聘搜索页面.

linkedin 数据科学实习的5个经验总结

- - 冰火岛
这些可以使接下来的工作更加简单,结果更加可信. As a data scientist at LinkedIn, you have access to Petabytes of data (1 Petabyte as much data as is transferred when viewing HDTV for about 13.5 years).

LinkedIn是如何利用数据分析驱动产品的?

- - PingWest中文网
让我们看看这家全球最大的职业社交网站、第三大社交网络的运营数据. 目前,LinkedIn有着2.7亿注册用户,大约400万家公司入驻,已经成为了职场人士最重要的在线交流和招聘求职平台. 更引人注意的是它对高端企业用户的吸引力:大约90%左右的TOP100企业在使用Linkedin的服务. 从它的营收数据中也可以看出这些业务的增长潜力.

LinkedIn实时低延迟数据抓取系统Databus开源

- - InfoQ cn
去年的架构师峰会上,来自LinkedIn的高级软件工程师 Lei Gao做了一场名为 《LinkedIn的数据处理架构》的演讲,着重介绍LinkedIn内部的数据基础设施的演变,其中提到Databus数据总线项目,当时就引起大家诸多好奇. 前不久,LinkedIn工程团队官方博客 发布消息:Databus项目开源.

LinkedIn开源低延时变化数据捕获系统Databus

- - CSDN最新资讯
LinkedIn于2月26日开源了其低延时变化数据捕获系统Databus,该系统在低延时情况下仍然具备高有效性. 能服务于LinkedIn生态系统数年之久,除上述特性以外当然还有其不可忽视的独到之处——无限制的lookback能力及丰富的subscription功能. 文章在最后公布了Databus源码及相关下载.

LinkedIn:2014年最吃香工作技能-统计分析和数据挖掘位列第一

- - 199IT互联网TMT数据
LinkedIn对全球超过3.3亿用户的工作经历和技能进行分析,公布 2014年最受雇主喜欢、最炙手可热的25项技能. 其中位列榜首的是统计分析和数据挖掘. 这项技能在 去年只排名第五,而当时的最热技能是社交媒体营销. 25岁的Quint Gribbin是Red Owl Analytics的数据科学家.

Facebook新数据中心揭秘

- T.C - cnBeta全文版
Facebook刚刚在俄勒冈州Prineville新建了一座数据中心,号称是全球能效最高的数据中心. 硅谷知名博客作者Scoble有幸受到参观邀请,并拍摄了一些照片. 下面我们就一起去看看Facebook数据中心到底长什么样. 下面这张照片的建筑物体积很大,前面有很多太阳能电池板,连在一起有三个沃尔玛那么大.