大数据的价值密度

标签： 业界评论 大数据 Big Data | 发表时间：2014-05-03 16:47 | 作者：Guancheng

出处：http://www.parallellabs.com

文 / 陈冠诚

注：原文刊载于《程序员》2014年第5期，略有删改。

在大数据和云计算如火如荼的今天，怎样将数据的商业价值变现成为各位老板和技术男们最关心的问题。马云经常讲，我不懂技术，所以我才要发力做云计算，做大数据。相信马总一定因为看到了云计算和大数据的潜在商业价值才做出上述决定的。在各位大佬争相跑马圈地的年代，各大公司都开始占领数据源头，从构建自己线上应用的生态圈入手，将用户的数据牢牢掌握在自己手中，以期望将来能从这些数据中挖掘出“潜在”的商业价值，例如在2014年风生水起的互联网金融行业就是其中典型。请注意，笔者这里专门对大数据的商业价值加上了“潜在”这两字。为什么需要这么关注这个字？其实这跟你的投资回报率非常有关系。

例如，大家都知道如果你能把新浪微博上的数据都扒拉下来，必然对很多生意都非常有帮助，例如各大电商网站，各大招聘网站等等。但是，你必须考虑清楚构建一个能存储和分析新浪微博数据的大数据平台的成本有多高，而你基于这些数据构建的解决方案能给你创造多大的商业价值。举例来说，电商网站可以通过微博数据进行社交推荐，也可以根据用户正在谈论的关键热词进行针对性的商品需求趋势预测并作针对性的营销。这些用法都很好，都能看到商业价值，可是，最关键的问题在于，如果你知道花五百万搭建整个大数据团队和平台，一年后只能为你的生意带来四百万的增长，你还愿意干这件事情吗？

这里面牵涉到一个很关键的因素：大数据的价值密度问题。要知道，存储和计算PB级的数据是需要非常高的成本的，大数据虽然看起来很美，但是价值密度却远远低于传统关系型数据库中已经有的那些数据。有一句话笔者很认同：“如果用石油行业来类比大数据分析，那么在互联网金融领域甚至整个互联网行业中，最重要的并不是如何炼油（分析数据），而是如何获得优质原油（优质元数据）”。以股市为例，真正有价值的数据都只会在很小范围内（例如庄家之间）传播，极少可能会流落到互联网上来，所以你如果想去只靠分析微博上网民对股票涨跌的评论来做行情预测的话，真的是要小心了。

阿里之所以牛气，就因为他掌握了全国上亿网民实名制的历史交易记录，这会成为将来阿里金融帝国最重要的资产。而像“挖财”这样的理财软件，则选择了围魏救赵的策略，用“免费”的噱头积累大量用户的理财数据，以便他日能转换成商业价值。而像雪球，知乎这样的高质量UGC社区，最大的资本也就是在于这些高价值密度的内容所拥有的巨大可能性。当年友盟被高价收购的时候，他们最大的资产也就是来自于他们所掌握的移动互联网领域的高价值数据。笔者愚见，当大家为各种层出不穷的大数据新技术而热血沸腾的同时，一定不要忘记了兄弟们用大数据的初衷，只是为了挖掘更大的商业价值而已。

回到刚刚提到的阿里巴巴金融数据，微博上的大数据怎么被更高效利用的问题，阿里和微博正在做的就是所谓Big-Data-As-a-Service的服务，所以你不需要自建一个专门用来存放淘宝和新浪微博海量数据的平台，产生不必要的成本浪费，而只需要根据自己的需求，直接通过阿里和微博提供的大数据服务的付费和免费接口，去对那些真正能对你产生价值的淘宝、微博数据进行分析，按需付费，实现双赢，甚至多赢。也许到那一天，我们才能真正在大数据的成本和收益之间取得一个很好的平衡，以创造更多的社会价值。

简而言之，玩大数据的时候，请一定要考虑清楚你所面对的数据的价值密度有多高，归根结底，商业的本质只是希望通过大数据挖掘更多的商业价值，仅此而已。

相关日志

08/01/2013 Impala与Stinger对比
08/25/2013 Impala：新一代开源大数据分析引擎
01/22/2012 云计算时代的多核开发
05/17/2012 为什么NoSQL和Hadoop该一起使用？
01/09/2012 X-RIME: 基于Hadoop的开源大规模社交网络分析工具

相关 [大数据价值密度] 推荐：

大数据的价值密度

- - Parallel Labs

注：原文刊载于《程序员》2014年第5期，略有删改. 在大数据和云计算如火如荼的今天，怎样将数据的商业价值变现成为各位老板和技术男们最关心的问题. 马云经常讲，我不懂技术，所以我才要发力做云计算，做大数据. 相信马总一定因为看到了云计算和大数据的潜在商业价值才做出上述决定的. 在各位大佬争相跑马圈地的年代，各大公司都开始占领数据源头，从构建自己线上应用的生态圈入手，将用户的数据牢牢掌握在自己手中，以期望将来能从这些数据中挖掘出“潜在”的商业价值，例如在2014年风生水起的互联网金融行业就是其中典型.

大数据如何发挥大价值？

- - 《商业价值》杂志

大数据时代，CIO的竞争优势从信息技术转变为围绕客户体验、数据分析、流程管理领域，让数据发挥大价值. 全球每秒钟发送2900万封电子邮件，推特上每天发布 5000万条消息；亚马逊每天产生 630万笔订单；Google每天需要处理24PB 的数据……. 海量数据的处理，以及如何用数据创造更大的价值，给CIO们提出了更多的挑战.

【观点】大数据的四个价值

- - SocialBeta

大数据是当今热门的话题，对于大数据很多人提出过这样那样的观点，那么大数据到底是什么，能够给我们带来怎样的价值呢. 瑞意趋势CEO 梁海宏来和大家做一下解读. 数量巨大，情境微观结合的运行记录信息最终的结果就是大数据. 尽管运行记录信息不是大数据的全部，但却应该是以后大数据的主流. 目前我们看到的金融、电信、航空、电商、零售渠道等领域中的大数据，多数也都是运行记录信息.

实现挖掘大数据价值的三大因素

- - 行业应用 - ITeye博客

很多公司都在探索如何挖掘大数据的价值，但有一类公司不得不擅长做这项工作，那就是：数据分析提供商. 这些公司的商业模式决定了其必须能够有效、持续地提供客户愿意买单的数据产品和服务. 　　下面将分享一家伟大的数据分析提供商- ComScore，如何通过3个关键因素(一个便捷、可扩展的平台，一支深悟数据分析的员工团队，以及对客户的深刻理解)来实现对大数据价值的挖掘.

BAT金融大数据体系拆解与价值挖掘

- - 虎嗅网

金融创新很大一部分原因在于大数据和金融之间的结合. 纵观BAT、京东、小米、万达、平安这些把触角伸到互联网金融领域的巨头，无一不是在大数据层面上有所布局. 大数据和金融相结合，几乎已经成为金融领域的通用做法. 谈数据必须先谈数据的完整度和价值含量. 就像煤矿一样，大数据中的价值含量、挖掘成本比数量更为重要.

ifttt的价值

- tiger - 月光博客

　　ifttt是一款新兴的互联网工具型应用，正如他们给自己的介绍“If This Then That”，让用户可以根据他们设计的流程设计一些小程序，例如你可以让它帮忙监视女朋友的Twitter，当Tweet内容中出现“出差”这个词的时候，自动在Google Calendar里面添加一个晚上的聚会晚餐，并且在Facebook发表一条消息开始呼朋唤友.

拉的价值

- zhangv - 36氪

是什么让Email, Facebook 和 Google 这么有价值. 答：人们访问他们大都是自发的，是你大脑中的神经元告诉你该检查Email，该看你的Facebook了. 人们主动去拉内容，而不是等着内容被推、或者强加过来. 拉是一个用户主动的行为，而推是用户被动的接受由销售或是网站提供的东西. 所有那些想通过广告、电子邮件或其他营销手段让用户访问他们的网站而获取流量都属于推的范畴.

谈大数据(2)

- - 人月神话的BLOG

对于大数据，后面会作为一个系列来谈，大数据涉及的方面特别多，包括主数据，数据中心和ODS，SOA，云计算，业务BI等很多方面的内容. 前面看到一个提法，即大数据会让我们更加关注业务方面的内容，而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了，再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析

算起来，接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受，和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据，应该是近几年IT炒的最热的两个话题了. 在我看来，这两者之间的不同就是：云是做新的瓶，装旧的酒；大数据是找合适的瓶，酿新的酒. 云说到底是一种基础架构的革命.

白话大数据

- - 互联网分析

这个时代，你在外面混，无论是技术还是产品还是运营还是商务，如果嘴里说不出“大数据”“云存储”“云计算”，真不好意思在同行面前抬头. 是千万级别的用户信息还是动辄XXXTB的数据量. 其实，大数据在我的眼里，不是一门技术，而是一种技能，从数据中去发现价值挖掘价值的技能. ”当我掷地有声用这句话开场时，正好一个妹子推门而入，听到这句话，微微一怔，低头坐下.