Oracle大数据机和连接器产品支持与Hadoop和Cloudera Manager集成
Oracle大数据机和大数据连接器软件支持与Hadoop、Cloudera Manager以及Oracle NoSQL数据库的集成。上月Oracle 宣布携手Cloudera进军大数据机和连接器软件领域。
大数据机融合了Cloudera公司的 Apache Hadoop(CDH)和 Cloudera Manager管理应用,以及一个开源统计性编程语言 R。它采用Oracle Enterprise Linux 5.6作为其操作系统,配备有HotSpot Java虚拟机。大数据机能够运行 Oracle NoSQL数据库社区版和企业版。它同时能与Oracle的其他产品,如Exadata、以及配备有Oracle大数据连接器软件的Oracle数据库进行集成,以此分析企业内部那些结构化数据和非结构化数据。
大数据连接器软件:
Oracle的 大数据连接器软件产品可利用Oracle数据库11g整合储存在Hadoop及Oracle NoSQL数据库中的数据。通过在Hadoop数据上直接使用Oracle的开源R语言可实现对数据的分析。大数据连接器软件包包含以下组件:
- 针对Hadoop的Oracle加载器:这是一种MapReduce应用,用以优化从Hadoop下载到Oracle数据库中的数据。它可以用来在Hadoop中对数据进行筛选、分区以及转换成Oracle数据库的数据格式。它还可以以Hadoop集群中的一项Hadoop任务的形式来对数据进行预处理,然后再将转换过的数据加载入数据库中。该特性同样支持在线或离线选项,负载均衡及多种输入格式(如定界文本文件、 Hive表以及自定义格式)。
- 针对Hadoop分布式文件系统(HDFS)的Oracle直连器: 支持从Oracle数据库中直连在HDFS上的数据,并且通过在Oracle数据库中创建某外部表,用户能够从HDFS访问和导入数据。在HDFS中存储的数据可通过SQL进行查询,这些数据会与Oracle数据库中存储的数据相关联,或被加载至Oracle数据库中。HDFS中的数据可以存在于界定文件中,或者是由Oracle加载器为Hadoop创建的Oracle数据pump文件中。
- 针对Hadoop的Oracle数据集成(ODI)应用适配器:该适配器提供了与ODI的原始Hadoop集成。ODI模块可用于在ODI内部构建Hadoop元数据、加载数据到Hadoop、在Hadoop内部转换数据以及利用针对Hadoop的Oracle加载器直接将数据加载到Oracle数据库中。
- 针对Hadoop的Oracle R连接器:该组件是一个R语言包,用来帮助访问Hadoop以及存储在HDFS中的数据。它可用于创建R模块来应对使用MapReduce处理的海量数据。
Cloudera Manager:
包含在大数据机捆绑包中的Cloudera Manager提供一个集群范围的、实时的运行节点及服务视图,它能够用来改变跨集群内的配置。它还包括了报告和诊断工具来观察集群的性能和利用率。
Oracle Advanced Analytics:
Oracle近期还 发布了一款新的针对大数据的产品 Oracle Advanced Analytics,它将统计式编程语言R集成至Oracle数据库11g产品中。 Oracle Data Mining,作为内嵌于Oracle Advanced Analytics的数据挖掘软件,能够帮助客户构建并部署预测分析应用从而获悉更多应用性能方面的信息。
查看英文原文: Oracle Big Data Appliance and Connectors Support Integration with Hadoop and Cloudera Manager
译者 吴宇 关注Java EE,感兴趣的技术领域包括软件架构、SOA、ESB和开源项目等。