现在很火的数据科学到底是什么?你对做Data Scientist感兴趣吗?

标签: 数据科学 | 发表时间:2013-05-09 23:56 | 作者:Warald
出处:http://www.1point3acres.com

开头:如果你极其讨厌编程、大学数学勉强合格,或者跟人交流能力巨挫,那这篇文章可能不适合你看,你也可以自动叉掉其他关于data science/scientist的文章。Warald会花一周时间集中介绍一下这门科学,用具体的例子谈一下数据科学家到底做哪些工作、读什么专业、需要什么样的技能,欢迎提问、评论、分享,我会在下面的博文中选择回复。

什么是数据科学(Data Science)?

随着科技的发展,人类社会拥有数据规模增长很快,每时每刻、从天到地都有大量数据被产生和存储下来。比如这么多家社交网站,一天到晚从你的location到点击了什么连接,各种鸡毛蒜皮的数据都存着,他们不怕数据太多,就怕有啥没记录下来的;最近有家叫UrtheCast的公司,直接在国际空间站安装了第一个民用的高分辨率摄像机,对着地球不停拍照,一天能拍下2.5T的数据。

数据量的增大和数据的多样化也促进了美国很多公司进行数据分析来支持商务决策(data driven decision making)。Warald这里以大家都熟悉的超市购物作为例子,来说几个Data Science的应用。

比如超市发现你过去三周内一直在买某类减肥食品,可以预测你下面还要继续购买这个产品,那在付账的时候,直接给你打印一张优惠券,买4赠1搞促销,你觉得占了便宜以后更愿意来这个店,超市也通过给点折扣把你牢牢捆住,免得你去了其他超市。- 这个叫Predictive Analytics:分析数据来预测未来可能发生的事情。

超市的analytics team通过分析,发现你购买的减肥食品都具备某个特征,比如是low sodium、low carbs,那具有这类特点的其他相关食品,超市也可以推荐给你。你觉得很高兴,因为超市直接把你需要的产品告诉你,省了你选购物品的麻烦,超市卖了更多的东西给你、赚到了钱,当然也很高兴。- 这个叫Descriptive Analytics:分析数据找出过去事件的特征和正在发生事件的趋势。

情人节当天,超市断定避孕套需求很大,急匆匆跑去买套套的都是有刚需的,直接涨价20%;情人节完事,避孕套价钱回归正常,但是事后避孕药涨价20%。就算你发现涨价了,也只能乖乖付钱,否则就当爹养娃去。超市最大化了自己的利润。-这个叫Prescriptive Analytics – 分析数据来找出最佳措施、取得最优化的结果。

以上三个英文名字,不是我原创,是采用INFORMS组织的。例子当然是我设计的:)

在美国的各位,相信你周围的超市,应该还没做到这么“贴心”、这么精明。目前超市的传统做法是蒙着眼往附近所有的居民家里投递各种广告(英文叫flyer)和所有可能被用到的优惠券(coupon),超市对居民到底需要买什么一无所知,花钱打印和邮寄大量的flyer和coupon只有很低的概率被用到(比如 5%),大部分直接成了垃圾。

随着analytics/data science的迅速发展,我描述的场景,正在被逐步被实现。这其中名气最大的当属Target(美国一家大零售商)的analytics team,他们分析客户消费行为的变化做判断,比如猜测某些顾客很可能怀孕了就往她们家里邮寄孕妇和婴儿产品的广告,顾客被吸引到target购买这些产品的同时,也会买其他东西,Target就赚钱了。但是这也带来的一个意想不到的结果:某个早孕的teenager被盯上了,而她的父母是在不停收到target广告之后才意识到女儿怀孕!Target比父母知道的更早!这个意外的故事让Target的统计师Andrew Pole名声鹊起,他目前的team得以迅速扩充,已经有30+个人在美国、30+个人在印度 – 嗯,如果公司不扩充他的team,不给他更好的职位的话,外面有无数公司会哄抢他。And yes, he is also hiring,对在明尼苏达就业感兴趣的同学可以去LinkedIn加他,此人对所有connect请求,来着不拒。如果你无法直接加他,那么你需要加入他参加的GROUP,然后就可以直接加他了。

Warald很留意美国工业界动态,以前就在博客里举过一个很好的 data science例子,一家公司要打广告,有多个选择:搜索引擎、各种风格迥异的social media、传统媒体,到底应该把钱投入到那里会带来最大的回报?详情可以参考我的文章《 [美国就业机会] Marketing is the next big money sector in technology, 需要统计分析+软件编程人才》。

至于伴随着你的网页点击,amazon调整产品显示的顺序,推荐你最感兴趣的产品,或者你修改LinkedIn Profile里的skills & projects,这家公司自动给你推荐匹配的工作、从你的connections里查找可能帮忙的人,这些聪明、精准又实时的决策背后,都是data science。

另外,data science这个名词在IT行业更常用,其他行业里(比如Target这类零售商)很多时候称呼为analytics。Warald觉得,只要某个职业的本质上是分析数量较大、不太规整的数据 ,crunch the numbers to support decision making,那就是data science;从事这类工作的人,就是data scientist,不管你的具体job title是啥。

那不同行业不同公司都招聘什么背景的数据科学家Data Scientist?Data Science/Analytics在不同的应用领域,对求职者来说到底有什么不同?明天听我继续道来。

求分享~求鼓励~求吱声~

– Warald (Email: iamxiaoning@gmail.com)
博客: http://www.1point3acres.com,微博:http://www.weibo.com/warald
欢迎转载,转载必须在标题注明转载,在文章正文开始之前而不是最后,用不小于正文的字体大小,肉眼可以清楚识别的颜色,一字不漏的附带以上三行内容。否则视为侵权!感谢合作。

相关 [数据 科学 data] 推荐:

七个用于数据科学(data science)的命令行工具

- - 博客 - 伯乐在线
数据科学是 OSEMN(和 awesome 相同发音),它包括获取(Obtaining)、整理(Scrubbing)、探索(Exploring)、建模(Modeling)和翻译(iNterpreting)数据. 作为一名数据科学家,我用命令行的时间非常长,尤其是要获取、整理和探索数据的时候. 而且我也不是唯一一个这样做的人.

数据治理(Data Governance)

- - ITeye博客
数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程. 数据治理其实是一种体系,是一个关注于信息系统执行层面的体系,这一体系的目的是整合IT与业务部门的知识和意见,通过一个类似于监督委员会或项目小组的虚拟组织对企业的信息化建设进行全方位的监管,这一组织的基础是企业高层的授权和业务部门与IT部门的建设性合作.

现在很火的数据科学到底是什么?你对做Data Scientist感兴趣吗?

- - 美国留学申请与就业找工作咨询博客|Warald|一亩三分地论坛
开头:如果你极其讨厌编程、大学数学勉强合格,或者跟人交流能力巨挫,那这篇文章可能不适合你看,你也可以自动叉掉其他关于data science/scientist的文章. Warald会花一周时间集中介绍一下这门科学,用具体的例子谈一下数据科学家到底做哪些工作、读什么专业、需要什么样的技能,欢迎提问、评论、分享,我会在下面的博文中选择回复.

社交数据(Social Data)的变革

- - SocialBeta
本文译者张宇,博晓通科技联合创始人,研究垂直搜索应用,关注社交媒体发展,注重语义技术落地,喜欢社交数据分析. 微博交流 @inter3i社交媒体分析. 2009年,个人生成的数据比自有史以来到2008年为止所有人类产生数据都多(原文未提出处). 整个世界已经目睹了消费者数据问询和收集方式的两次次重大变革.

Big Data(大数据)技术简析

- - 服务器运维与网站架构|Linux运维|互联网研究
Big Data是近来的一个技术热点,但从名字就能判断它并不是什么新词. 历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题. 被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了. 然而,Big Data作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展.

Data Structure Visualizations: 数据结构及算法可视化工具

- tiger - 黑客志
Data Structure Visualizations是旧金山大学的David Galles开发的一个以可视化方式演示数据结构和算法的非常棒的工具,可以很好的帮助你理解这些抽象的数据结构和算法,不管你是需要应付考试的CS学生,还是需要对付一些公司的变态面试题的上班族,你都会发现这是一个非常有用的工具,并且这个工具同时提供Java,Flash,以及基于HTML5的Web版本.

文章: 数据集成的演化:从EII到Big Data

- - InfoQ cn
 “企业信息集成(EII):实用方式”于2005年发布,描述了一套集成不同数据源的方法论,它利用了当时的先进技术,如面向服务架构(SOA)、Web Services、XML、资源描述架构(RDF)、基于XML的元数据格式、数据提取、转换和加载(ETL)等. EII基本能够为关系型数据元素提供统一视角,但在性能效率上还无法替代数据仓库和多维数据库.

oracle 11g Flashback Data Archive(闪回数据归档)

- - CSDN博客数据库推荐文章
Flashback Data Archive(闪回数据归档). UNDO表空间记录的回滚信息虽然可以提供回闪查询,但时间久了,这些信息会被覆盖掉,其实只要事务一提交,他们就变成可覆盖的对象了,所以经常在做回闪查询时,我们会因为找不到undo block而收到1555错误,11G里面引入了Flashback Data Archive ,他用于存储数据的所有改变,时间由你自己设定,消耗的是更多的磁盘空间,现在来看下这个特性.

使用Percona Data Recovery Tool for InnoDB恢复数据

- - OurMySQL
   昨晚收到一则求助,一个用户的本地数据库的重要数据由于误操作被删除,需要进行紧急恢复,用户的数据库日常并没有进行过任何备份,binlog也没有开启,所以从备份和binlog入手已经成为不可能,咨询了丁奇,发了一篇percona的 文章给我,顿时感觉有希望,于是到percona的官网上下载了 恢复工具:.

大数据从“小”做起——中小企业Big Data解决之道

- - 弯曲评论
本文是最新的拙作,希望能大家能提点意见^_^. 任何一个时代或者模式的兴起,都离不开与之相关的Killer App,比如,C/S时代的SAP ERP,互联网 1.0 时代的门户,以及互联网 2.0时代的搜索和SNS等,那么在当今云计算这个时代有那些Killer App呢. 当然首当其冲的肯定是以VMware 和Amazon EC2为代表的虚拟化和相关IaaS服务,除此之外,新近崛起的大数据绝对也是云计算的Killer App之一,并且不仅类似百度、阿里以及腾讯这样的互联网巨头有相关的应用需求,而且根据我个人平时与客户接触,发现有很多普通中小企业,特别是中型的互联网和物联网企业,在这方面的场景也有很多.