你不知道的数据工程师:80% 时间都在做「大数据苦工」

标签: 知道 数据 工程师 | 发表时间:2014-08-19 23:00 | 作者:worm2ipo
出处:http://tech2ipo.com/feed

以为数据工程师每天做的就是像 http://hackertyper.net/ 这样,然后创造了一个又一个伟大的产品吗?错了!纽约时报记者 采访了多位大数据工程师,他们表示自己 80% 的时间都在当「大数据苦工」,干的都是非人类可以想象的枯燥繁琐的工作——从海量的原始数据中提取有用数据,整理,转换格式,调整为算法可以理解的同样格式的规整数据……

因此,这些数据工程师称呼自己为「数据清洁工」、「数据搬运工」,「数据整形师」等等……知名健康追踪手环公司 Jawbone 的数据科学副总裁 Monica Rogati 向记者透露,对于大部分人,甚至是普通的程序员来说,这种工作都是极端枯燥,完全接受不了的,但对于数据工程师来说,这都是他们每天都要做的事情。

华盛顿大学教授,同时也是一家大数据创业公司 Trifacta 创始人的 Jeffrey Heer 教授则表示,直接把算法输入到一堆原始数据中,然后指望结果能够自己蹦出来,那简直就是奇谈……数据工程师需要把不同种类不同格式的数据(非常巨量)转换成为算法可以理解的格式整齐的数据,因此称呼数据工程师为「数据清洁工」也不足为奇。

Iodine 是一家医疗方面创业公司。该公司的员工透露,自己的产品能够通过挖掘国家食药管理局(FDA)、国家健康中心,以及医药公司提供的文字、图像等内容提供的原始数据,来为用户提供药品的副作用相关的警示。但事情远没有想象的那么简单。

光嗜睡一条就有「drowsiness」、「somnolence」和「sleepiness」三种说法,让用户去看这三个词肯定都能理解,但别指望算法能够理解这三个词代表同一个含义。


因此,所谓的「大数据」创业公司,最近在做的基本就是通过不同的渠道、切入点,来完成一个任务:产生一个标准化的、简单的数据处理软件,让数据工程师不那么累,直接把所有的原始数据输入进去,提取结果,简单如此。帕罗奥托一家名为 ClearStory Data 的创业公司就在做这样的事情。

这家公司提供的产品是一个能够将多种不同规格的原始数据整合到可视化呈现的表格、图片或地图中。该公司 CEO Shahani—Mulligan 表示,ClearStory 的产品能够整合 6 到 8 种不同的数据格式,提供处的结果适合对于数据一窍不通的终端用户使用。

你也可以手动来统计这些数据,我打赌你永远也找不到足够的数据工程师来做这些事……

来源: 纽约时报








相关 [知道 数据 工程师] 推荐:

你不知道的数据工程师:80% 时间都在做「大数据苦工」

- - TECH2IPO创见
以为数据工程师每天做的就是像 http://hackertyper.net/ 这样,然后创造了一个又一个伟大的产品吗. 纽约时报记者 采访了多位大数据工程师,他们表示自己 80% 的时间都在当「大数据苦工」,干的都是非人类可以想象的枯燥繁琐的工作——从海量的原始数据中提取有用数据,整理,转换格式,调整为算法可以理解的同样格式的规整数据…….

日志:每个软件工程师都应该知道的有关实时数据的统一概念

- - 鸟窝
原文链接: The Log: What every software engineer should know about real-time data's unifying abstraction - Jay Kreps. 基于开源中国社区的译文稿: 日志:每个软件工程师都应该知道的有关实时数据的统一概念.

Coursera数据工程师董飞:硅谷大数据的过去与未来

- - ITeye资讯频道
董飞,Coursera数据工程师. 曾先后在创业公司酷迅,百度基础架构组,Amazon 云计算部门,LinkedIn担任高级工程师,负责垂直搜索,百度云计算平台研发和广告系统的架构. 董飞本科毕业于南开大学,硕士毕业于杜克大学计算机系. 他在知乎上分享过多个引起强烈反响的问答,其中包括 《哪些硅谷创业公司能给拜访者留下深刻印象》、 《美国大数据工程师面试攻略》、 《Coursera 上有哪些课程值得推荐》等.

前Facebook工程师创办MemSQL公司 让数据库快步如飞

- - 业界
周一,前Facebook前工程师Eric Frenkiel 和 Nikita Shamgunov创办了一家旨在加速关系数据库的公司 MemSQL. Nikita Shamgunov 有6年Microsoft SQL Server高级工程师的工作经验,MemSQL的高性能数据库还是参照着Facebokk的脚本,有着很强烈的Facebook印记.

Oracle数据库系统工程师培训视频教程下载

- - Oracle - 数据库 - ITeye博客
   分享一套穆远龙老师的Oracle数据库系统工程师培训的视频教程下载,一共57讲,教程涉及到内存结构、物理结构、备份和恢复、安全审计、性能调优等等技术点.    该课程系统详细的介绍了Oracle数据库的整个过程,让您从基础入门到精通,贯穿整个学习.      第一讲:Oracle数据库系统基础.

首席工程师揭秘:LinkedIn大数据后台是如何运作的

- - 博客园_知识库
   英文原文: The Log: What every software engineer should know about real-time data's unifying abstraction.   我在六年前的一个令人兴奋的时刻加入到LinkedIn公司. 从那个时候开始我们就破解单一的、集中式数据库的限制,并且启动到特殊的分布式系统套件的转换.

百度知道恶搞变形金刚背后:由“刚粉”工程师1日研发

- 我有笔如刀 - cnBeta.COM
就在备受关注的《变形金刚3》在中国首映的前一天,全球最大中文互动问答平台百度知道上(zhidao.baidu.com),一个极具趣味和应景的“变形金刚”彩蛋被无数网友发现,并引发围观. 用户只要在百度知道检索“变形金刚”或“变形金刚3”,搜索结果中原本的文字链接就会组合成一个变形金刚出现在页面的右边,并且该“变形金刚”还会动态走向页面中间,伴随其脚步的停止,页面也会随之震动.

Spotify工程师讲述如何使用“无聊”技术完成服务发掘和数据库服务

- - InfoQ cn
Björn Edström是互联网音乐服务Spotify的工程师,在Spotify的官方博客中,他讲述了 Spotify为什么要使用一些“无聊”技术的原因. 在Spotify的后端服务和架构中,我们使用了这些成熟和经过验证的技术,我会说明如何实现,以及这样做的原因. 此外,我们还会试图说明Spotify何时不会使用某些经过验证的技术,背后的原因以及它们的问题.

一行命令导致的数据丢失,阿里工程师是如何恢复的?

- - 机器之心
阿里妹导读:数据安全性被提到了前所未有的高度,数据保护的话题越来越成为敏感. 因为,业务的中断时间对用户造成的影响愈来愈大. 阿里技术专家凡钧从数据安全的形势与发展,面临的挑战,问题的定义,传统的解决方案,当前云厂商的解决方案,去阐述什么是连续数据保护并提出了弹性的可验证的连续数据保护方案(Elastic Assured Continuous Data Protection).

大数据淘金,你所要知道的五个为什么

- - 钛媒体网
在开始你的 大数据淘金之旅之前,最好先问自己五个问题:大数据是不是又一个大泡沫. 第三方电商平台会成为未来商业的最主要形式,或者企业应该回归自己的门户. 第三方的大数据运营平台是个好主意吗. 大数据会让行业之间的界限模糊吗. 每家企业都视大数据为私产,这会导致大数据孤岛吗. 福布斯热门专栏作家Eric Jackson几天前发表了一篇评论,标题是《业绩下滑,“云服务”真的在扼杀IBM吗》,他根据IBM的财报认为,该公司不仅整体业绩表现平平,而且在中国、俄罗斯这些以往的增长型市场也表现同样疲软,据此他认为应该认真评估这样一个问题:IBM是否错过了企业从巨型的信息技术开支向云服务开支转型这条大船.