数据科学家应该掌握的5个工具

标签: 数据 科学家 工具 | 发表时间:2015-09-29 08:26 | 作者:
出处:http://news.cnblogs.com/

英文原文: 5 More Tools All Data Scientists Should Know How to Use

即使是知识渊博的数据科学家也能提升他们的技术水平。当谈及到分析你编纂的数据时,有大量的工具可以帮助你更好的理解数据。我们与我们的数据科学指导者探讨了很久,最后总结出了一个包括 5 个数据科学工具的列表,同时这也是你在当今的社会形势下应该掌握的 5 个数据科学工具。

dedup

dedup 是一个 Python 库,使用机器学习快速的对结构化数据进行重复数据删除和实体解析。

数据科学家发现他们经常需要使用 SELECT DISTINCT * FROM my_messy_dataset;不幸的是,现实世界中的数据集往往更加复杂。无论你是去对多个数据源进行汇总,还是简单的数据收集,开始你都需要对重复数据的删除做一个有意义的分析。

如你所想,有取之不尽的方法可以用来合并数据和用之不竭的规则来定义你数据的等价意义。有相同地址的两家餐馆是属于一个公司么?名和姓都相同的两条记录就是同一个人么?

你很幸运,dedup 可以让你转危为安!基于创新的 计算机科学研究,dedup 使用机器学习(更确切地说,应该是 主动学习)去学习,通过合并人类的反馈对两个可能的模棱两可的记录进行研究,并寻找究竟是什么构成了两者的“相似”。更方便的是,它有一个图形用户界面( GUI),任何人都可以使用它。

贡献者 Jonathan Dinu,Galvanize 的 Academic Excellence 的副总裁。

Theano

Theano 是一个 Python 库,你可以有效地定义、优化以及评估包含多维数组的数学表达式。

Theano 的特点:

  • 和 Numpy 紧密结合——在 Theano 编译的函数中使用 numpy.ndaaray。
  • GPU 的透明使用——在执行密集型数据计算时,相比于 CPU,速度提升了 140 倍。(使用 float32 进行测试)
  • 速度和稳定性优化——对 log (1+x)得到正确的答案,即使x真的很小。
  • C语言代码动态生成——加速评估表达式。
  • 广泛的单元测试和自我验证——发现和诊断不同种类的错误。

贡献者 Mike Tamir,Galvanize 首席科学官。

StarCluster

StarCluster 已经开始在 Amazon 的 EC2 云服务器中设计虚拟机创建、配置和管理集群的自动和简化程序。StarCluster 允许所有人在面向分布式和并行计算的应用和系统的云服务器中轻松的创建一个集群计算环境。这允许你在无限制的数据上做交互程序。

贡献者 Alessandro Gagliardi,Galvanize 数据科学指导者。

graph-tool

在 python 网络和图形分析库与日俱增的情况下,图形工具给了不少希望。尽管像 NetworkXGephi 这样的工具在不断成长的工具中仍然还有它们的一席之地,但是对于那些想要做大图像高级分析的人来说——无论是社会网络、道路网络、还是生物网络——这两者往往会显得力不从心。

NetworkX 一直是用于网络分析的最流行的 Python 工具,因为它有着 丰富的 API 并且使用的门槛很低,但是一旦你开始处理更大的图形,纯 python 实现的弊端才 真正开始凸显。而 Gephi 是一个极好的 交互式可视化和开发新图像的图形化工具,但是有一个麻烦的脚本接口,使得它很难使用编程方式去控制。

图形工具尝试从它前辈中吸取经验教训并给数据科学家最好的结果。它使用 C++ 实现(可并行执行)并用 Python 来武装,绑定了一个易于使用的 API,同时获得了超快的速度,而且不影响使用性。为了弄懂一个网络,它的功能不仅包括绘制和可视化图像,还要和 动画图像进项交流并给图像赋予生命。

贡献者 Jonathan Dinu, Galvanize 的 Academic Excellence 的副总裁。

Plotly

Plotly 是一个面向R,Python,MATLAB,JavaScript 和 Excel 的交互式图形库。Plotly 也是一个用于分析和分享数据和图像的平台。

Plotly 是如何与众不同的呢?与 Google Docs 和 GitHub 一样,你可以协调和 控制你的数据;可以将文件设置成公有的、私有的、秘密文件或是分享的。如果你使用 plotly 的免费公共云, 脱机 Plotly,或是 现场部署,下面的选项很多都是可以获得的。

在你的工作流中可以使用 Plotly,这里有三种可用方式:

为数据科学家整合其它工具。Plotly 的R,Python 和 MATLAB 的 API 可以让你做交互、更新 仪表面板和图像。Plotly 整合了 IPython NotebooksNetworkXShinyggplot2matplotlibpandasreporting tools数据库。例如,下面的图是 使用 ggplot2 制作的,然后嵌入到这个博客中。将鼠标悬停后看看数据变化,然后单击拖动放大。

创建交互式地图。Plotly 的图形库建立在 D3.js 之上。对于地理数据,Plotly 支持分级统计图、散点图、气泡图、分块图和线图。你可以制作类似下面这样的地图,像R和 Python 一样把它们嵌入到博客,应用程序和仪表板。

2014 全球 GDP(来源: CIA 世界概况

建立全方位的可视化。你可以为使用 Plotly 满足任意的可视化需求:地图、2D、3D 以及流图。点击并移动你的鼠标来旋转这个图,悬停并观察数据变化,或切换放大。

参数图

贡献者: Matt Sundquist,Plotly 的 CCO,兼联合创始人。

译者/刘帝伟审校/赵屹华、朱正贵、李子健责编/周建丁

译者简介:刘帝伟,中南大学软件学院在读研究生,关注机器学习、数据挖掘及生物信息领域。

本文链接

相关 [数据 科学家 工具] 推荐:

KDNuggets:数据科学家使用工具调查

- - 199IT互联网数据中心
工具/产品/解决方案是数据科学家洞察数据的利器. KDNuggets网站对此观点进行了年度调查,来分析数据科学家在用哪些类型的工具,并提供了调查的 匿名原始数据. 通过主成分析(PCA)法进行降维分析. 对所有的工具同时进行关系分析,常规来说,PCA通过对大样本数据统计性质(eg, 协方差)的分析,试图用主要特征来解释关系.

数据科学家应该掌握的5个工具

- - 博客园_新闻
英文原文: 5 More Tools All Data Scientists Should Know How to Use. 即使是知识渊博的数据科学家也能提升他们的技术水平. 当谈及到分析你编纂的数据时,有大量的工具可以帮助你更好的理解数据. 我们与我们的数据科学指导者探讨了很久,最后总结出了一个包括 5 个数据科学工具的列表,同时这也是你在当今的社会形势下应该掌握的 5 个数据科学工具.

大数据工具,在数据科学家眼中是怎样的存在?

- - 199IT互联网数据中心
随着 大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道. 数据科学工具的功能通常围绕着预测建模,机器学习和数据可视化. 但这些工具还应该包括后端数据管道技术,因为这有助于加快分析的速度. 数据科学家们通常喜欢把后端技术扔给工程师来处理.

数据科学家炙手可热

- - 互联网分析
《哈佛商业评论》(Harvard Business Review)近期声称,21世纪最性感的工作是数据科学家. 这一美国商学院期刊表示,数据科学家集“数据黑客、分析师、沟通大师和受信任的顾问”于一身,并指出,这种技能的结合极为罕见. 这正是全球各地诸多企业的问题所在. 尽管公司经理深知大数据所能带来的效益,但他们难以找到拥有合适技能的人才.

科学家开发出编辑生命密码的工具

- 流水不争先 - Solidot
MIT和哈佛的研究人员开发出能用于重写活细胞遗传编码的工具,报告发表在《科学》杂志上. 新工具允许科学家批量编辑细胞基因组,设计出自然界不存在的细胞,或者是基因改造出能抵抗任何病毒入侵的细菌. 新技术类似于字处理程序的寻找和替代功能. 研究人员利用这项技术,对大肠杆菌基因组进行了数百次有针对的编辑,没有干扰细胞功能.

信息平台和数据科学家的兴起

- 景峰 - 《程序员》杂志官网
文 / Jeff Hammerbacher. Facebook有了“自知之明”. 在2005年9月,Facebook首次向非大学生公开,允许高中生注册账号. 忠实的用户愤怒了,但Facebook团队认为这是为网站做出的正常方向. 那么它该如何证明它的方案是正确的呢. 此外,在几乎所有可登录Facebook网站的学校中,Facebook已经渗入学生当中,但还是在有部分学校中,该网站一直不受青睐.

Facebook数据科学家需具备的六大技能

- - 互联网分析
数据科学家到底应该具备哪些技能. 对于这个新兴职业的定位和展望,我们也许Facebook的招聘说明中找到答案. Facebook近日公开招募数据科学家,负责分析Facebook拥有的全球最大的人际关系数据库. 在 Facebook的数据科学家招聘说明中,数据科学家被归类到“软件工程职业”,但实际上Facebook的数据科学家的工作更多是在产品层面.

揭秘LInkedin数据科学家如何工作

- - 互联网分析
在互联网企业中,LinkedIn是一家出了名的“慢公司”,但LinkedIn也是最成功的社交网络,用户品质、广告价值都是行业翘楚,秘密在于LinkedIn有一个高效的数据科学家团队. 作为社交网络, LinkedIn并不是最大的,也不是生长最快的. 成立于2003年的LinkedIn, 花了500天, 才达到了100万用户.

数据科学家的职业发展前景如何?

- - 美国留学申请与就业找工作咨询博客|Warald|一亩三分地论坛
从2011年下半年开始,Warald注意到LinkedIn上Data Scientist相关工作在迅速增长,2012年更是增幅显著,好多公司都在扩充或者创建自己的data science or analytics team. 也有越来越多的人在自己的LinkedIn profile头衔里添加big data、data scientist、data analyst之类的字眼,希望被猎头或者公司直接搜索到.

数据科学家面试常见的77个问题

- - 互联网分析
随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件. 或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是中国统计网为大家翻译的数据科学家面试常见的77个问题. 下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考. 1、你处理过的最大的数据量.