商业数据库对R语言的支持

标签: 杂七杂八 database IBM Netezza Oracle | 发表时间:2012-04-13 19:08 | 作者:刘思喆
出处:http://www.bjt.name

一直以来,我们在提到使用R进行数据分析、数据挖掘都会使用RODBC、RJDBC、DBI等相关的包来调用数据库,比如我前面罗嗦的一片文章 数据挖掘之R与SQL,但实际基本上各大数据库厂商已有相应的R语言企业级应用产品,这些厂商包括Oracle、IBM、Teradata、Sybase、SAP。

Oracle R Enterprise

Oracle R Enterprise是针对于大数据市场下,用于处理日益丰富的数据。这款产品有以下优势:

企业级的R应用
  • 允许DBA将R语言模型产品化
  • 可以将R模型整合到BI仪表盘(BIEE)
  • 统计学家可以直接使用数据库,而不需去了解具体SQL
  • 减少Oracle数据库外的数据管理成本
减少高昂SA$的使用费用
  • 可完全替代SA$ base,节省SA$的使用年费
  • 分析人员可以直接面对数据库进行个性化分析,而不需要数据导出
  • 超过100内置的统计函数可以同Base SA$兼容
大数据分析的in-database支持
  • 高性能的代数运算(在R中整合 Intel’s Math Kernel Library)
  • R语句的执行的使用并行化运算方式(包括扩展包)
  • 高度整合了R语言快速开发、数据库并行计算的优势

众所周知,R语言将数据置于内存,数据处理能力有限,Oracle R Enterprise将此瓶颈完全打开,并将性能提升到更高级别。

image

IBM Netezza®

Netezza 并不隶属于IBM原有产品线,而是针对于“一体机”市场,于2010年17亿美元的价格收购获得,用以扩张其用于销售、市场营销和产品开发的商务分析产品。Netezza对R语言的支持,主要通过Revolution合作,通过调用 R Enterprise from Revolution® Analytics平台来实现。Netezza的特点可以总结为:可扩展的、高性能的、大规模内置并行分析平台。

image

注:除了R语言外,Netezza还支持SAS、PASW等分析软件

IBM® InfoSphere® BigInsights

IBM BigInsights 同样也整合了R语言资源,提供了Map-Reduce架构的R语言并行化计算环境,包括了大数据集的文本挖掘和机器学习算法。BigInsights可以将构建的R语言模型发布在Hadoop平台上(同IBM Netezza一样,通过调用 R Enterprise from Revolution® Analytics),极大的满足企业级数据需求。

image

注:为IBM提供R语言商业化应用的公司是Revolution,关于这家公司可以参考 这里

SAP HANA

借助SAP BusinessObjects Predictive Analysis平台,分析师们既可以使用内置的预测性算法来构建模型,也可以整合并使用流行的开源数据统计分析语言——R语言。并且,依托SAP HAHA平台可以提供in-database分析。

image

Teradata

Teradata提供了免费的 teradataR 包,用于在R环境下连接Teradata数据库、创建数据、条用in-database分析函数。

  • 避免了从Tetadata到R之间的数据移动,有效提高了数据运算性能;
  • 针对于大数据的分析任务,使用Teradata的强大并行计算的能力 ;
  • 允许在R控制台操作;
  • 将常用的执行任务嵌入到数据库中执行;
  • R和TetadataR都是免费的;

Sybase RAP

Sybase RAP主要是针对于金融市场的实时分析,其中RAPStore组件提供了内置分析函数,包括时间序列分析函数、OLAP函数、R语言整合函数以及用户自定义函数,适用于大数据环境。

其调用R函数的机理如下:

image

同时,还可以在R语言环境下通过RJDBC访问Sybase RAP,进行数据预处理,避免在R中数据清洗占用大量内存。

image

<全文完,请期待R + Hadoop>

相关文章:

相关 [商业 数据库 语言] 推荐:

商业数据库对R语言的支持

- - 刘思喆 @ 贝吉塔行星
一直以来,我们在提到使用R进行数据分析、数据挖掘都会使用RODBC、RJDBC、DBI等相关的包来调用数据库,比如我前面罗嗦的一片文章. 数据挖掘之R与SQL,但实际基本上各大数据库厂商已有相应的R语言企业级应用产品,这些厂商包括Oracle、IBM、Teradata、Sybase、SAP. Oracle R Enterprise是针对于大数据市场下,用于处理日益丰富的数据.

用SQL语言管理Oracle数据库

- - CSDN博客推荐文章
1,查看数据库的基本属性:. SELECT dbid 数据库编号,name 数据库名称,db_unique_name 全局名称,created 创建时间,log_mode 归档方式,open_mode 访问方式,platform_name 版本类型 FROM v$database;. 2,查看所有数据库对象的类别和大小:.

数据库sharding

- - 数据库 - ITeye博客
当团队决定自行实现sharding的时候,DAO层可能是嵌入sharding逻辑的首选位置,因为在这个层面上,每一个DAO的方法都明确地知道需要访问的数据表以及查询参数,借助这些信息可以直接定位到目标shard上,而不必像框架那样需要对SQL进行解析然后再依据配置的规则进行路由. 另一个优势是不会受ORM框架的制约.

数据库索引

- - CSDN博客推荐文章
索引是由用户创建的、能够被修改和删除的、实际存储于数据库中的物理存在;创建索引的目的是使用户能够从整体内容直接查找到某个特定部分的内容. 一般来说,索引能够提高查询,但是会增加额外的空间消耗,并且降低删除、插入和修改速度. 1.聚集索引:表数据按照索引的顺序来存储的. 2.非聚集索引:表数据存储顺序与索引顺序无关.

数据库事务

- - 数据库 - ITeye博客
事务传播发生在类似以下情形:. 假设methodB的配置是:. 如果methodA在事务里,那么methodB也在这个事务中运行. 如果methodA不在事务里,那么methodB重新建立一个事务运行. 如果methodA在事务里,那么methodB也在这个事务中运行. 如果methodA不在是事务里,那么methodB在非事务中运行.

数据库优化

- - 数据库 - ITeye博客
程序运行效率,优化应用程序,在SP编写过程中应该注意以下几点: . a) SQL的使用规范: .   i.尽量避免大事务操作,慎用holdlock子句,提高系统并发能力.   ii.尽量避免反复访问同一张或几张表,尤其是数据量较大的表,可以考虑先根据条件提取数据到临时表中,然后再做连接.   iii.尽量避免使用游标,因为游标的效率较差,如果游标操作的数据超过1万行,那么就应该改写;如果使用了游标,就要尽量避免在游标循环中再进行表连接的操作.

数据库调优

- - 数据库 - ITeye博客
1、1、调整数据结构的设计. 这一部分在开发信息系统之前完成,程序员需要考虑是否使用ORACLE数据库的分区功能,对于经常访问的数据库表是否需要建立索引等. 这一部分也是在开发信息系统之前完成,程序员在这一步需要考虑应用程序使用什么样的体系结构,是使用传统的Client/Server两层体系结构,还是使用Browser/Web/Database的三层体系结构.

MySQL数据库的修复

- Xin - 博客园-首页原创精华区
找到mysql的安装目录的bin/myisamchk工具,在命令行中输入:. 然后myisamchk 工具会帮助你恢复数据表的索引. 好象也不用重新启动mysql,问题就解决了. 当你试图修复一个被破坏的表的问题时,有三种修复类型. 如果你得到一个错误信息指出一个临时文件不能建立,删除信息所指出的文件并再试一次--这通常是上一次修复操作遗留下来的.

Oracle 发布 NoSQL 数据库

- 冷月 - 博客园新闻频道
  Oracle 作为全球最大的关系型数据库提供商,在其产品链条中,也加入了 NoSQL 数据库这一环,而且这个新的数据库名字很霸气,就叫 NoSQL Database,想起了当年新浪微博更换 weibo.com 域名之时的一个笑话:. 原来有三家人做面包,张三家的面包叫三张牌面包,李四家的牌子叫李四牌面包,王五家出品的是王五牌面包,而突然有一天,张三家的面包改名了,叫面包牌面包.