大数据:方法与技术

标签: 大数据 方法 技术 | 发表时间:2012-02-25 21:02 | 作者:gigix
出处:http://gigix.thoughtworkers.org/

(商业读书会第23期的题目:Big Data。文章有三篇,一篇 Economist 的,一篇 McKinsey Quarterly 的,和一篇 Forbes 的。)

其实这三篇都是空话。通篇无非就是在讲(1)数据真的很大;(2)各行各业都要学会处理大数据。然而我真正关心的是“怎么做”。于是 另一篇文章 进入视野。不过最精彩的还是麦肯锡的 分析报告 ,其中最吸引我的是“方法和技术”的部分。

关于“怎么做”的这部分,麦肯锡的报告里分成三个部分:分析方法;技术;可视化展现。其中第三部分相对简单。我对前两部分又做了一次细分。首先是如何使用大数据的方法,我把它细分为 ApplicationsApproachesAcademic Disciplines三个子类。这部分讲的是大数据这件事有哪些具体的工作,需要用到哪些知识基础。

说实话,这部分的内容(尤其是“应用”部分)有点超出我最初的想象。显然大数据远不止是BI。它实际上是 Validated Learning 的必要前提。大数据与敏捷、精益的结合将是必然的趋势,为支持精益运营而做的BI不可能六个月才交付一次。

相关技术这部分,我把它细分为 ToolsConceptsFundamentals三个子类。这部分讲的就是处理大数据所需的软件技术。这部分的最大困扰在于:想学习这些技术比较难找到练手的场景。所以我还在豆瓣上标了几本书,例如 Manning的这本 看起来应该是不错的入门。

接下来的学习从两个角度开始:理论基础,和实践。找一本合适的书,做一个合适的例子,熟悉这个领域的信息地图和术语。

相关 [大数据 方法 技术] 推荐:

大数据:方法与技术

- - 透明思考 - Thoughts
(商业读书会第23期的题目:Big Data. McKinsey Quarterly 的,和一篇. 通篇无非就是在讲(1)数据真的很大;(2)各行各业都要学会处理大数据. 于是 另一篇文章 进入视野. 不过最精彩的还是麦肯锡的 分析报告 ,其中最吸引我的是“方法和技术”的部分. 关于“怎么做”的这部分,麦肯锡的报告里分成三个部分:分析方法;技术;可视化展现.

Big Data(大数据)技术简析

- - 服务器运维与网站架构|Linux运维|互联网研究
Big Data是近来的一个技术热点,但从名字就能判断它并不是什么新词. 历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题. 被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了. 然而,Big Data作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展.

下一代大数据分析技术

- - Parallel Labs
原文发表于《程序员》杂志2013年第2期.. 随着以Hadoop为代表的大数据分析技术的普及,大数据的商业价值得到深入挖掘,并开始在互联网、零售、医疗、物联网等多个行业里成为商业变革的主导力量. Facebook最近就发布了名为Graph Search的新型社交搜索产品,基于海量的社交关系网络及“Likes”行为数据,为用户提供个性化的社交搜索服务,该产品被认为将是Google搜索业务的重要竞争对手.

大数据的方法:《证析》

- - 钛媒体TMTpost—把脉科技资本论
每一个从事商铺零售的人都知道,店内商品的摆放是很有些学问的. 这个领域还有本书《啤酒与尿布》来分析如何进行货品陈列. 但即便如此,依然存在两个缺陷:其一,必须通过销售数据来进行指导,而那些逛店但却没有消费行为的,很难从他们身上获得些什么;其二,商铺内的陈设(不仅仅是商品包括装饰物)不可能每天都进行变化,物体的位移总是比较麻烦的.

互联网金融:大数据和技术为王的时代

- - 动点科技
(编者:本文作者李张鲁Dennis Roudenko,是青年投资家俱乐部发起人、华创资本资深分析师. 华创资本投资了10多家互联网金融公司,同时与IDG合有互联网金融投资基金,投资范围在20-2000万美金. 互联网金融本身只是一个概念,是泛指那些通过互联网和大数据手段来完成并优化的金融业务. 历来现有的机构都在尝试运用这些手段去优化自己的业务,但2012年这一领域才开始火起来是因为时机成熟了,大可归功于两大点:大数据的出现与技术的普及与应用.

大数据时代 五大商业分析技术趋势

- - 互联网分析
目 前,趋势中心对如何应对分析挑战的关注力度并不亚于他们考虑在新商业视角中如何充分利用机遇的力度. 例如,随着越来越多的公司开始不得不面对海量数据以及 考虑如何利用这些数据,管理与分析大型不同数据集的技术开始出现. 提前分析成本与性能趋势意味着公司能够提出比以前更为复杂的问题,提供更为有用的信息以 帮助他们运营业务.

Facebook大数据技术架构的演进路线

- - 互联网旁观者
    Facebook一直是大数据技术最积极的应用者,因为它拥有的数据量极其巨大,一份资料显示2011年它拥有的压缩数据已经有25PB,未压缩数据150PB,每天产生的未压缩的新数据有400TB. 在Facebook,大数据技术被广泛应用在广告、新闻源、消息/聊天、搜索、站点安全、特定分析、报告等各个领域.

中小企业的大数据技术路线选择

- - CSDN博客研发管理推荐文章
中小企业的大数据技术路线选择.        目前,大数据主要应用在互联网、电商领域,电信、电力行业也在逐步使用. 对广大的中小企业来说,大数据也听得太多了. 然而,大数据的技术门槛还是很高的. 从技术路线上来说,选择大公司使用的技术方案可能是不能承受之重.        笔者所在的公司,选择的是行业通用的Hadoop方案.

盘点最受欢迎的十个开源大数据技术

- - IT瘾-geek
大数据已然成为当今最热门的技术之一,正呈爆炸式增长. 每天来自全球的新项目如雨后春笋般涌现. 幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术. Hadoop——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序.

大数据时代--Hive技术原理解析

- - zzm
Hive的运行原理,帮助使用者更好的了解在使用的过程中它做了些什么工作,深入的理解他的工作机制,提高开发人员理论层面的知识.        Hive是建立在 Hadoop 上的数据仓库基础构架. 它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制.