Apache Tajo 0.2.0 发布,分布式数据仓库

标签: 软件更新新闻 | 发表时间:2013-11-21 16:26 | 作者:
出处:http://www.oschina.net/?from=rss

Tajo 是一个分布式数据仓库系统,基于 Hadoop 实现,特点是低延迟、高可伸缩,提供专用查询和 ETL 工具

特点:

  • 可伸缩性和低延迟
    • 完全分布式的 SQL 查询处理,基于存储雨 HDFS 的大数据集
    • 超低响应时间(约100毫秒),在合理数据范围内的简单查询
  • 支持长时间运行的查询
    • 容错支持,避免某些任务失败后的查询重启
    • 动态调度,处理和异构集群节点故障
  • ETL
    • ETL 可实现不同数据格式之间的转换
    • 支持多种文件格式,如 CSV、RCFile 和 RowFile
  • 扩展性
    • 支持用户自定义函数
    • 提供自定义文件格式的 Scanner/Appender 接口
  • 兼容性
    • 遵循 ANSI/ISO SQL 标准,非标准方面遵循 PostgreSQL 规范
    • 支持 HiveQL 模式
    • 在 HCatalog 和 Hive MetaStore 实现表访问
    • 支持 JDBC 驱动
  • 简单
    • 提供交互式 Shell 来提交 SQL 查询到 Tajo 集群
    • 提供备份和恢复工具
    • 异步/同步 Java API 来提交 SQL 查询到 Tajo 集群

Apache Tajo 0.2.0 包含如下改进:

  * Add cost-based join optimization
  * Allow inline view use (i.e., table subquery)
  * Add various string functions, such as upper, lower, (L|R)TRIM,
split_part, and regexp_replace.
  * Allow in predicate support
  * Improve significantly scan performance
  * Add INSERT OVERWRITE statement
  * Add CREATE TABLE statement
  * Add HiveQL mode
  * Allow configurable NULL character for CSVFile format
  * Allow compression/decompression of CSVFile (all codecs supported by Hadoop)
  * Add the extensible rewrite rule engine
  * Add tajo_dump, a backup and restore utility
  * Allow BETWEEN predicate
  * Add Tajo Resource Manager specialized for low-latency queries

相关 [apache tajo 分布] 推荐:

Apache Tajo 0.2.0 发布,分布式数据仓库

- - 开源中国社区最新新闻
Tajo 是一个分布式数据仓库系统,基于 Hadoop 实现,特点是低延迟、高可伸缩,提供专用查询和 ETL 工具. 完全分布式的 SQL 查询处理,基于存储雨 HDFS 的大数据集. 超低响应时间(约100毫秒),在合理数据范围内的简单查询. 容错支持,避免某些任务失败后的查询重启. 动态调度,处理和异构集群节点故障.

分布式日志收集系统Apache Flume的设计介绍

- - CSDN博客架构设计推荐文章
Flume是Cloudera公司的一款高性能、高可能的分布式日志收集系统. 现在已经是Apache Top项目. 同Flume相似的日志收集系统还有 Facebook Scribe, Apache Chuwka, Apache Kafka(也是LinkedIn的). Flume是后起之秀,本文尝试简要分析Flume数据流通过程中提供的组件、可靠性保证来介绍Flume的主要设计,不涉及Flume具体的安装使用,也不涉及代码层面的剖析.

分布式计算系统 Spark 成为 Apache 顶级项目

- - 博客园_新闻
Apache 软件基金会今天宣布,Spark 项目已从孵化器毕业,成为 Apache 软件基金会的一个顶级项目. Spark 是一个高效的分布式计算系统,发源于美国加州大学伯克利分校 AMPLab 的集群计算平台. Spark 被称为“Hadoop 的瑞士军刀”,拥有非凡的速度和易用性. Spark 立足于内存计算,相比 Hadoop MapReduce,Spark 在性能上要高 100 倍,而且 Spark 提供了比 Hadoop 更上层的 API,同样的算法在 Spark 中实现往往只有 Hadoop 的1/10 或者1/100 的长度.

Apache Kafka:下一代分布式消息系统

- - zzm
Apache Kafka是分布式发布-订阅消息系统. 它最初由LinkedIn公司开发,之后成为Apache项目的一部分. Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务. Apache Kafka与传统消息系统相比,有以下不同:. 它被设计为一个分布式系统,易于向外扩展;.

Apache HBase v1.0 发布,分布式数据库

- - 开源中国社区最新新闻
Apache HBase v1.0 发布了,这是 HBase 一个主要的里程碑. 1.0 版本经过 7 年的开发,有超过 1500 次的更改和升级. 与上一个版本 0.98.0 比较,1.0 版本值得关注的改进有:. 性能提升,同时保持之前的稳定性. 全新 API 以及重新组织客户端 API. 新的可用性保证 —— 用时间表一致地区副本读取可用性.

Apache Cassandra 1.0正式版发布,开源的分布式NoSQL数据库

- gnawux - ITeye资讯频道
Apache软件基金会(ASF)发布了 NoSQL 数据库 Cassandra 1.0 正式版. ASF表示,Cassandra是一个具有高可扩展性、分布式的NoSQL数据库系统,它能够实时快速地处理大量的数据而不影响服务及系统性能. Cassandra在云计算中将扮演一个重要的角色. Apache Cassandra是一套开源的分布式NoSQL数据库系统.

Apache Beam:一个开源的统一的分布式数据处理编程库

- - 简单之美
Apache Beam是一个开源的数据处理编程库,由Google共享给Apache的项目,前不久刚刚成为Apache TLP项目. 它提供了一个高级的、统一的编程模型,允许我们通过构建Pipeline的方式实现批量、流数据处理,并且构建好的Pipeline能够运行在底层不同的执行引擎上. 刚刚接触该开源项目时,我的第一感觉就是:在编程API的设计上,数据集及其操作的抽象有点类似Apache Crunch(MapReduce Pipeline编程库)项目;而在支持统一数据处理模型上,能够让人想到Apache Flink项目.

Apache ShardingSphere:刚柔并济的开源分布式事务解决方案

- - IT瘾-dev
成熟的XA事务管理器非常多,Apache ShardingSphere(Incubating)并未选择重新造轮子,而是寄望于打造一个生态,将合适的轮子有机地整合在一起,提供成熟稳定的分布式事务处理能力. 1.   复用成熟引擎,自动切换底层实现. Sharding-transaction-xa模块进一步定义了面向XA事务管理器开发者的SPI,开发者仅需实现SPI定义的接口,即可自动加入至Apache ShardingSphere(Incubating)生态,作为其XA事务管理器.

Apache Shiro 介绍

- - CSDN博客推荐文章
什么是Apache Shiro?. Apache shiro 是一个强大而灵活的开源安全框架,可清晰地处理身份认证、授权、会话(session)和加密. Apache Shiro最主要的初衷是为了易用和易理解,处理安全问题可能非常复杂甚至非常痛苦,但并非一定要如此. 一个框架应该尽可能地将复杂的问题隐藏起来,提供清晰直观的API使开发者可以很轻松地开发自己的程序安全代码.

Apache Derby Papers

- -
Derby Type System (Note: if your browser shows HTML source for this page instead of displaying it, save the file locally with . It will prompt you to click on "Grant license to ASF for inclusion in ASF works", and this is the permission we need in place to host your contribution on the Derby web site..