大数据工具,在数据科学家眼中是怎样的存在?

标签: 大数据 大数据工具 工具 | 发表时间:2016-08-11 03:10 | 作者:DinK
出处:http://www.199it.com

随着 大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道。

数据科学工具的功能通常围绕着预测建模,机器学习和数据可视化。但这些工具还应该包括后端数据管道技术,因为这有助于加快分析的速度。

1470884968-8095-3417eb9bbd901916223219
更强的计算能力

数据科学家们通常喜欢把后端技术扔给工程师来处理。当你的主要关注点是提高模型的预测精度或发现一个数据集中的未知相关性时,文件系统和资源管理工具通常情况下并不十分友好。

但随着大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道。

“有了更强的计算能力,我们可以进行多次回归操作,这很让人兴奋,”Brendan Herger,银行和金融服务公司Capital One的数据科学家表示。“这的确有助于快速发展,因为你有了更多的可用资源,让一切变得容易。”

位于McLean, Va.的Capital One公司支持各种各样的工具,但Herger表示,大部分的分析工作是通过 Hadoop分布式文件系统和与其对应的YARN资源管理器完成的。在Hadoop平台之上,他使用H2O.ai提供的机器学习软件做了很多建模。其他数据科学家和数据分析师使用不同的前端数据科学工具,例如GraphLab,Apache Zeppelin和Tableau。据Herger所述,一个强大、灵活的后端系统可以支持大数据集的快速访问,无视前端工具的差异性。

不需要进行数据采样

Herger说,这种后台计算能力让他能够对完整的数据集进行分析,不再需要进行数据采样。他认为是否取样这个问题“几乎类似于一个宗教问题,”分析完整的数据集有几个很大的好处。首先它保留了完整的数据,包括所有可能存在的信号。当数据被划分成多个样本时,信号可能会丢失或变得并不那么明显。

“不进行采样,这样对数据科学家来说是非常有意义的”Herger 说。“计算能力的提升,让人们得以在整个数据集上运行分析,这样的分析将越来越普遍”。

对于San Francisco Macys.com 公司的高级分析主任Daqing Zhao来说,拥有强大的数据架构,为他的团队带来的主要好处就是速度。“我们希望进行快速原型开发,”本月在Boston举行的TDWI Accelerate会议上,Daqing Zhao说道。

赵的团队负责优化Macys.com网站,该网站是Macy ‘ s Inc的零售门户。优化工作范围很广,例如设计变更,进行A / B测试,构建产品推荐引擎,为每个客户提供个性化的推荐等。他的团队使用的主要 大数据工具是以Hadoop和Spark系统为基础构建的,它支持一系列分析工具,既包括SAS Institute和IBM提供的商业化分析工具,也包括一些开源工具,像H2O,R和Mahout等。

数据沙盒有助于数据分析

Zhao 要求Macys.com的数据工程团队在公司数据仓库中为他的团队构建数据沙盒。这允许他团队中的数据科学家以一种实际相关性来转换或连接数据,而不需要在数据记录级别进行任何数据变更。

对于所有这些工具,Zhao表示,H2O在进行预测建模尤其有用。他第一次意识这一点是在最近的一次演示某个软件的会议上。他说,在11秒内,工具在一个有着一亿行数据的数据集上执行一次逻辑回归。重要的是,这些工具能够与公司的后端数据基础设施完美集成,这使得它更具有吸引力。

Zhao说,他现在沉迷于那些数据科学家可用的开源数据工具。除了其对于大数据强大处理能力,这些工具的背后还有着广受欢迎的大型社区支持,这使得它更容易找到相关问题的答案。集成开源工具和数据基础设施通常会存在一定的问题,因为在出现问题时,并没有专业的技术支持来帮你解决。但此类工具的日益普及逐渐削弱了这个问题产生的影响。

“因为开源软件的逐渐流行,你可以使用谷歌或在论坛里找到答案,”Zhao说。“以前你遇到开源软件的问题,可能会感到孤立无援,现在不会这样了。”

从数据管理中解放出来

当数据科学家在后端系统上运行一些任务时,他将会花费更少的时间在数据管理上。

Colin Borys遇到的情况大致如此,Colin是Riot Games Inc.公司的数据科学家,该公司就是大名鼎鼎的对战游戏LOL的开发商。在6月旧金山举行2016 Spark Summit峰会的一次演讲中,Borys表示,他的团队会监控网络流量,以试图发现是否有玩家正在遭遇网络拥堵,是否可以通过网络疏导来提高网络连通性。数据科学团队还开发了一个推荐引擎,建议玩家选择不同的服务器来均衡网络负载。

在之前,大部分工作是基于Hive上运行的临时查询,但Borysr认为这种方法并不高效,不具有较好的可伸缩性。Riot Games随后引入了Spark技术,部分原因是它想让数据科学家在Hadoop数据上执行SQL查询,对于SQL,他们已经非常熟悉。这家位于Los Angeles的公司开始使用Databricks提供的云Spark平台,这样不需要有专门的人来花时间管理集群。

在引进的Spark之前,Borys说,数据科学家会花费大量的时间在准备数据上。现在他们可以利用这些时间来完成实际的数据分析。

“我们想要解放分析师,”他说道。“使用Spark,进行 数据分析容易的多,它也让分析变得更为有效。”

作者丨小骨头

您可能也喜欢的文章:

数据科学家成抢手人才

蹩脚数据科学家的10种现象

一个优秀数据科学家的主要构成特点

数据科学家知识体系与数据分析完整流程

美国大学争相培养数据科学家
无觅

相关 [大数据 工具 数据] 推荐:

[转]大数据分析的8大工具

- - 小鸥的博客
去年,IBM宣布以17亿美元收购数据分析公司Netezza;EMC继收购数据仓库软件厂商Greenplum后再次收购集群NAS厂商Isilon;Teradata收购了Aster Data 公司;随后,惠普收购实时分析平台Vertica等,这些收购事件指向的是同一个目标市场——大数据. 是的,大数据时代已经来临,大家都在摩拳擦掌,抢占市场先机.

二十大数据可视化工具点评

- - 互联网分析
如今学习应用数据可视化的渠道有很多,你可以跟踪一些专家博客,但更重要的一点是实践/实操,你必须对目前可用的数据可视化工具有个大致了解. 以下是Netmagzine列举的二十大数据可视化工具,无论你是准备制作简单的图表还是复杂的图谱或者信息图,这些工具都能满足你的需要. 更加美妙的是,这些工具大多免费.

玩转大数据:需要知晓的12种工具

- - 互联网分析
在过去的几年里,Derrick看到了很多初创公司,各类项目以及开发工具等等,它们都旨在为程序员带来先进的数据分析能力. 有时候,程序员们会使用简单的脚本开发出强大的显示效果,或者在开发过程中使用一种更简易的方式来实现数据的交付功能,Derrick相信这是一个很有意义的发展趋势. 在云计算和移动应用的世界里,围绕一个简单的应用开创一个新事业已经比以往要容易的多.

2015 Bossie评选:最佳开源大数据工具

- - 199IT互联网数据中心
nfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具. 在Apache的大数据 [注]项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得Spark的发展和进步速度飞快.

大数据工具,在数据科学家眼中是怎样的存在?

- - 199IT互联网数据中心
随着 大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道. 数据科学工具的功能通常围绕着预测建模,机器学习和数据可视化. 但这些工具还应该包括后端数据管道技术,因为这有助于加快分析的速度. 数据科学家们通常喜欢把后端技术扔给工程师来处理.

谈大数据(2)

- - 人月神话的BLOG
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容. 前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据,应该是近几年IT炒的最热的两个话题了. 在我看来,这两者之间的不同就是: 云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒. 云说到底是一种基础架构的革命.

白话大数据

- - 互联网分析
这个时代,你在外面混,无论是技术还是产品还是运营还是商务,如果嘴里说不出“大数据”“云存储”“云计算”,真不好意思在同行面前抬头. 是千万级别的用户信息还是动辄XXXTB的数据量. 其实,大数据在我的眼里,不是一门技术,而是一种技能,从数据中去发现价值挖掘价值的技能. ”当我掷地有声用这句话开场时,正好一个妹子推门而入,听到这句话,微微一怔,低头坐下.

交通大数据

- - 人月神话的BLOG
本文简单谈下智慧交通场景下可能出现的大数据需求和具体应用价值. 对于公交线路规划和设计是一个大数据潜在的应用场景,传统的公交线路规划往往需要在前期投入大量的人力进行OD调查和数据收集. 特别是在公交卡普及后可以看到,对于OD流量数据完全可以从公交一卡通中采集到相关的交通流量和流向数据,包括同一张卡每天的行走路线和换乘次数等详细信息.

有关大数据的误区:数据统计≠大数据

- - 钛媒体网
钛媒体注: 大数据太火了,被广泛应用到各行各业,而近阶段又有着明显的过热迹象. 大数据到底是一个营销词汇,还是一个方法论. 本文作者老李正是一家大数据服务提供商的资深员工,他所做的项目就是针对不同行业进行大数据分析. 他认为,关于大数据你首先必须有一个基本认识,那就是“大量的数据并非一定具有价值”.