大数据——理想与现实的差距
IBM最近进行了一项调查,希望借此搞清楚大数据技术的市场炒作和实际应用的差距。结果表明:28%的公司已经应用或实施了大数据,47%的公司计划使用,24%准备了解此项技术。
在2012年中期,由IBM主导进行的“Big Data @ Work”调查,调查对象包括来自95个国家横跨26个行业的1144位专业人士。IBM商业价值研究院和牛津大学赛德商学院基于此项调查结果,共同撰写名为 2012分析研究——大数据技术的实际应用(需要注册)的报告。
这份报告从4个维度定义了大数据:
- 海量——大数据最显著的特点。略超50%的受访者认为,1TB-1PB的才是大数据,少数受访者认为一般提到都是几个PB或是ZB。
- 多样性——大数据包括了多种数据,从结构化、半结构化到非结构化的数据,从企业内部数据到外部数据。这些数据包括多种类型,如文本、二进制、传感器数据、微博、Web数据、点击数据、日志、音频、视频,等等。
- 快速——当前,数据产生的比以前更快,对这些数据进行实时处理更加困难。
- 真实——报告中将它作为描述数据的可靠性的第四个维度。外部或内部的因素可能会影响到数据的质量,所以分析结果也会受到影响,因此需要考虑这一点。
下面是对“Big Data @ Work”调查结果的总结:
- 28%的组织已经开始应用大数据技术,或是实施了大数据的项目,47%在计划中,24%仅仅是想了解大数据究竟是什么。
- 大数据项目中,以客户为中心的占49%,运营优化占18%,风险和财务管理占15%,为建立新商业模型的占14%,员工协作占4%
- 大数据技术项目一般开始于内部的结构化数据,然后发展到半结构化数据,最后到非结构化数据。
下面这幅图描述了实施大数据的公司使用的主要平台组件:
有意思的是,大数据的主要来源不是来社交媒体、RFID或是硬件设备的传感器,而是来自于交易(88%)、日志数据(73%)、事件(59%)、电子邮件(57%),之后才是社交媒体(43%)、传感器(42%)、外部Feeds(42%)、RFID或POS设备(41%)、文本(41%)、地理位置(40%)、音频(38%)、图像或视频(34%)。
经调查,各公司应用大数据技术的动机主要分为以下方面:查询和报表(91%)、数据挖掘(77%)、数据可视化(71%)、预测建模(67%)、优化(65%)、模拟(56%)、自然语言文本(52%)、地理位置分析(43%)、数据流分析(35%)、视频分析(26)%以及语音分析(25%)。
这份在线的自愿调查的参与者来自各大洲,参与者中的多数是商业专家(54%),包含行政管理(16%)、市场(15%)、研发(10%)、综合管理/运营(8%)、金融(5%),其余的46%则代表IT人士。
查看英文原文: Big Data – Distinguishing Between Hype and Reality
感谢 马国耀对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至 [email protected]。也欢迎大家通过新浪微博( @InfoQ)或者腾讯微博( @InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。
相关厂商内容
《JavaScript语言精粹》作者Douglas Crockford确认参会
GitHub研发团队成员Corey Donoho QCon分享Github架构设计与团队合作
Google商用Apps创始人Derek Parham确认参加QCon北京2013
相关赞助商
QCon北京2013,Node专场:NodeJS如何在大企业应用落地发挥成效, 详情请点击!