<< SourceForge上的FileZilla是个恶意软件 | 首页 | 几个可用于数据挖掘和统计分析的java库 >>

Drill:企业级Hadoop和NoSQL的SQL查询引擎

 

Apache的Drill是一个开源的,用于Hadoop和NoSQL的低延迟SQL查询引擎。

 

现代大数据的应用,如社交,移动互联网,互联网和物联网有着大量的用户,比传统的事务应用程序更大的数据量。这些应用程序相关的数据集的发展非常迅速,往往是自我描述,可以包括复杂的类型,比如JSON,和Parquet。 Apache的Drill从底层建立了可伸缩性地提供低延迟查询对这种快速发展的多结构化数据集。

 

零日分析及快速应用开发

 

Apache的Drill可以直接查询自我描述和半结构化数据文件(如JSON,,Parquet)和HBase表,而无需定义和维护架构的集中存储,如Hive里metastore。这意味着用户可以在线探索数据,而以前需要数据准备,建模,ETL和随后的管理模式花费数周或数月时间。

 

专为半结构化/嵌套数据

 

Drill提供了一个像JSON般的内部数据模型来表示和处理数据。这个数据模型的灵活性允许Drill查询,不压扁,既简单又复杂/嵌套数据类型以及不断变化的常见于Hadoop/ NoSQL的应用程序驱动的模式。Drill还提供了直观的扩展SQL复杂/嵌套数据类型的工作。

 

与现有的SQL环境的和Apache Hive兼容

 

使用Drill,企业可以最大限度地降低转换成本和学习曲线,为用户提供熟悉的ANSI SQL语法。分析师可以继续使用该工具并自动生成ANSI SQL代码,通过利用Drill公开标准的JDBC/ ODBC接口使用Hadoop数据交互和熟悉的BI /分析工具。用户还可以通过即插即用使用Hive环境,低延迟的即席查询现有的Hive里表和重用Hive里的元数据,数以百计的文件格式和UDF开箱。

转载请保留原文链接




发表评论 发送引用通报