[转]大数据分析的8大工具

标签: | 发表时间:2013-03-04 16:52 | 作者:zeo112140
出处:http://blog.csdn.net/zeo112140

去年,IBM宣布以17亿美元收购数据分析公司Netezza;EMC继收购数据仓库软件厂商Greenplum后再次收购集群NAS厂商Isilon;Teradata收购了Aster Data 公司;随后,惠普收购实时分析平台Vertica等,这些收购事件指向的是同一个目标市场——大数据。是的,大数据时代已经来临,大家都在摩拳擦掌,抢占市场先机。

而在这里面,最耀眼的明星是hadoop,Hadoop已被公认为是新一代的大数据处理平台,EMC、IBM、Informatica、Microsoft以及Oracle都纷纷投入了Hadoop的怀抱。对于大数据来说,最重要的还是对于数据的分析,从里面寻找有价值的数据帮助企业作出更好的商业决策。下面,我们就来看以下八大关于大数据分析的利器。[ 讨论]

EMC—Greenplum:迎战大数据

EMC Greenplum统一分析平台(UAP)

Greenplum在2010年被EMC收购了其EMC Greenplum统一分析平台(UAP)是一款单一软件平台,数据团队和分析团队可以在该平台上无缝地共享信息、协作分析,没必要在不同的孤岛上工作,或者在不同的孤岛之间转移数据。正因为如此,UAP包括ECM Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC Greenplum Chorus。

 

 EMC为大数据开发的硬件是模块化的EMC数据计算设备(DCA),它能够在一个设备里面运行并扩展Greenplum关系数据库和Greenplum HD节点。DCA提供了一个共享的指挥中心(Command Center)界面,让管理员可以监控、管理和配置Greenplum数据库和Hadoop系统性能及容量。随着Hadoop平台日趋成熟,预计分析功能会急剧增加。 [详细]

EMC-Greenplum

IBM打组合拳 提供BigInsights和BigCloud

IBM发新产品应对大数据

几年前,IBM开始在其实验室尝试使用Hadoop,但是它在去年将相关产品和服务纳入到商业版IBM在去年5月推出了InfoSphere BigI云版本的 InfoSphere BigInsights使组织内的任何用户都可以做大数据分析。云上的BigInsights软件可以分析数据库里的结构化数据和非结构化数据,使决策者能够迅速将洞察转化为行动。

 IBM随后又在10月通过其智慧云企业(SmartCloud Enterprise)基础架构,将BigInsights和BigSheets作为一项服务来提供。这项服务分基础版和企业版;一大卖点就是客户不必购买支持性硬件,也不需要IT专门知识,就可以学习和试用大数据处理和分析功能。据IBM声称,客户用不了30分钟就能搭建起Hadoop集群,并将数据转移到集群里面,数据处理费用是每个集群每小时60美分起价。 [详细]

IBM-BigInsights

Informatica 9.1:将大数据的挑战转化为大机遇

Informatica提供首款Hadoop编译器HParser

Informatica公司在去年10月则更深入一步,当时它推出了HParser,这是一种针对Hadoop而优化的数据转换环境。据Informatica声称,软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的NACHA、支付业的SWIFT、金融数据业的FIX和保险业的ACORD)。正如数据库内处理技术加快了各种分析方法,Informatica同样将解析代码添加到Hadoop里面,以便充分利用所有这些处理功能,不久会添加其他的数据处理代码。

Informatica HParser是Informatica B2B Data Exchange家族产品及Informatica平台的最新补充,旨在满足从海量无结构数据中提取商业价值的日益增长的需求。去年, Informatica成功地推出了创新的Informatica 9.1 for Big Data,是全球第一个专门为大数据而构建的统一数据集成平台。 [详细]

Informatica

惠普——Vertica数据分析平台

惠普发布Vertica 5.0 大数据分析领域站稳脚跟

被惠普收购的Vertica,是能提供高效数据存储和快速查询的列存储数据库实时分析平台。该数据库还支持大规模并行处理(MPP)。在收购之后,惠普随即推出了基于x86硬件的HP Vertica。通过MPP的扩展性可以让Vertica为高端数字营销、电子商务客户(比如AOL、Twitter、 Groupon)分析处理的数据达到PB级。惠普展示了一款Vertica设备——Vertica Analytics Appliance,和小冰箱差不多大小。它是惠普融合基础架构中的一款全集成技术栈。通过这款新设备“惠普可以真正打开这个市场,尤其是将分析作为一项服务的市场”。

惠普Vertica实时分析平台 其实,早在惠普收购之前,Vertica就推出有包括内存、闪存快速分析等一系列创新产品。它是首个新增Hadoop链接支持客户管理关系型数据的产品之一,也是首个基于云部署风险的产品平台之一。目前,Vertica支持惠普的云服务自动化解决方案。 [详细]

HP-Vertica

甲骨文大数据机——Oracle Big Data Appliance

详解:甲骨文大数据机

甲骨文的Big Data Appliance集成系统包括Cloudera的Hadoop系统管理软件和支持服务Apache Hadoop 和Cloudera Manager。甲骨文视Big Data Appliance为包括Exadata、 Exalogic和 Exalytics In-Memory Machine的“建造系统”。Oracle大数据机(Oracle Big Data Appliance),是一个软、硬件集成系统,在系统中融入了Cloudera的Distribution Including Apache Hadoop、Cloudera Manager和一个开源R。该大数据机采用Oracle Linux操作系统,并配备Oracle NoSQL数据库社区版本和Oracle HotSpot Java虚拟机。Big Data Appliance为全架构产品,每个架构864GB存储,216个CPU内核,648TBRAW存储,每秒40GB的InifiniBand连接。Big Data Appliance售价45万美元,每年硬软件支持费用为12%。

甲骨文Big Data Appliance与EMC Data Computing Appliance匹敌,IBM也曾推出数据分析软件平台InfoSphere BigInsights,微软也宣布在2012年发布Hadoop架构的SQL Server 2012大型数据处理平台。 [详细]

Oracle

微软进入这个市场

微软SQL Server新增PDW功能 引大数据处理能力

微软进入这一市场实属“姗姗来迟”,而且在一定程度上说,数据仓库分析和内存分析计算市场落下了后腿。2011年初微软发布的SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库),PDW使用了大规模并行处理来支持高扩展性,它可以帮助客户扩展部署数百TB级别数据的分析解决方案。微软目前已经开始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社区技术预览版本的连接器。该连接器是双向的,你可以在Hadoop和微软数据库服务器之间向前或者向后迁移数据。

微软在去年推出了基于Azure云平台的测试版Hadoop服务,今年它承诺会推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution),这是微软SQL Server 2012版本(首发日期还不知道)的一部分,现在也不清楚微软是否会与其他硬件合作伙伴或者相关大数据设备厂商合作。 [详细]

Microsoft

亚马逊对于大数据的先见之明

亚马逊将MapReduce作为一项服务

亚马逊早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),亚马逊对Hadoop的需求和应用可谓了若指掌,无论是中小型企业还是大型组织。弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。这可是货真价实的云:面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。

除了数据处理外,用户还可以使用Karmasphere Analyst的基于服务的版本,Karmasphere Analyst是一种可视化工作区,用于在亚马逊弹性MapReduce上分析数据。用户还可以提取结果文件,以便在数据库或者微软Excel或Tableau等工具中使用。

Amazon

Teradata跨入大规模分析领域

Teradata收购Aster Data 扩张大数据市场

Teradata是企业级数据仓库(EDW)的领导者,在数据库分析领域不断推陈出新,但在结构化数据、半结构化数据和大部分非结构化数据领域几乎没有很大成果。这也就是为什么该公司要收购Aster Data——一家提供SQL-MapReduce框架的公司。Teradata日前宣布了一项Aster Data MapReduce产品的计划,它建立在以往产品同样的硬件平台之上,而且在Teradata和Aster Data之间新增了两种集成方法。

Aster Data 是高级分析和管理各种非结构化数据领域的市场领导者和开拓者。Aster Data为Teradata 带来了大数据分析市场商,加之收购 Aprimo 所获得的整合营销管理 (Integrated Marketing Management)能力,以及不断加大的核心数据仓库业务投资力度,将为 Teradata 的未来发展注入强劲动能。 [详细]

 

Teradata

参考文献 回目录

http://portal.vsharing.com/bacohome/zhuanti/20120220/bigdata.htm
作者:zeo112140 发表于2013-3-4 16:52:08 原文链接
阅读:6 评论:0 查看评论

相关 [大数据 分析 工具] 推荐:

[转]大数据分析的8大工具

- - 小鸥的博客
去年,IBM宣布以17亿美元收购数据分析公司Netezza;EMC继收购数据仓库软件厂商Greenplum后再次收购集群NAS厂商Isilon;Teradata收购了Aster Data 公司;随后,惠普收购实时分析平台Vertica等,这些收购事件指向的是同一个目标市场——大数据. 是的,大数据时代已经来临,大家都在摩拳擦掌,抢占市场先机.

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

大数据分析的5个方面

- - ITeye资讯频道
越来越多的应用涉及到大数据,不幸的是所有大数据的属性,包括数量、速度、多样性等等都是描述了数据库不断增长的复杂性. 那么大数据给我们带来了什么好处呢. 大数据最大的好处在于能够让我们从这些数据中分析出很多智能的、深入的、有价值的信息. 下面我总结了分析大数据的5个方面. Analytic Visualizations(可视化分析).

大数据分析最佳实践

- - 互联网分析
   转自:TTNN   Q先生杰作. 大概是从今年开始,big data一词逐渐成为术语,这跟整个世界的数据爆发当然有关系. 以前,人们喜欢用海量数据这个词,large-scale. 这看上去还是显得有点学术气, 像是BI人自己关起门来说自己的宝贝. 而big data更显通俗,在各行各业都显现出的一种势头,于是产生这个更加简单的词汇,大数据.

大数据分析的分类-转载

- - 人月神话的BLOG
原文:http://www.csdn.net/article/2011-08-15/303101. Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构. 按照数据分析的实时性,分为实时数据分析和离线数据分析两种.

下一代大数据分析技术

- - Parallel Labs
原文发表于《程序员》杂志2013年第2期.. 随着以Hadoop为代表的大数据分析技术的普及,大数据的商业价值得到深入挖掘,并开始在互联网、零售、医疗、物联网等多个行业里成为商业变革的主导力量. Facebook最近就发布了名为Graph Search的新型社交搜索产品,基于海量的社交关系网络及“Likes”行为数据,为用户提供个性化的社交搜索服务,该产品被认为将是Google搜索业务的重要竞争对手.

基于mdrill的大数据分析

- - CSDN博客云计算推荐文章
     数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵. 几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析. mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤.     mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据.

大数据分析查询引擎Impala

- - 标点符
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据. 已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性. 相比之下,Impala的最大特点也是最大卖点就是它的快速.

gc日志分析工具

- - Web前端 - ITeye博客
性能测试排查定位问题,分析调优过程中,会遇到要分析gc日志,人肉分析gc日志有时比较困难,相关图形化或命令行工具可以有效地帮助辅助分析. 通过在tomcat启动脚本中添加相关参数生成gc日志. -verbose.gc开关可显示GC的操作内容. 打开它,可以显示最忙和最空闲收集行为发生的时间、收集前后的内存大小、收集需要的时间等.

二十大数据可视化工具点评

- - 互联网分析
如今学习应用数据可视化的渠道有很多,你可以跟踪一些专家博客,但更重要的一点是实践/实操,你必须对目前可用的数据可视化工具有个大致了解. 以下是Netmagzine列举的二十大数据可视化工具,无论你是准备制作简单的图表还是复杂的图谱或者信息图,这些工具都能满足你的需要. 更加美妙的是,这些工具大多免费.