Apache Tajo 0.2.0 发布,分布式数据仓库

标签: 软件更新新闻 | 发表时间:2013-11-21 16:26 | 作者:
出处:http://www.oschina.net/?from=rss

Tajo 是一个分布式数据仓库系统,基于 Hadoop 实现,特点是低延迟、高可伸缩,提供专用查询和 ETL 工具

特点:

  • 可伸缩性和低延迟
    • 完全分布式的 SQL 查询处理,基于存储雨 HDFS 的大数据集
    • 超低响应时间(约100毫秒),在合理数据范围内的简单查询
  • 支持长时间运行的查询
    • 容错支持,避免某些任务失败后的查询重启
    • 动态调度,处理和异构集群节点故障
  • ETL
    • ETL 可实现不同数据格式之间的转换
    • 支持多种文件格式,如 CSV、RCFile 和 RowFile
  • 扩展性
    • 支持用户自定义函数
    • 提供自定义文件格式的 Scanner/Appender 接口
  • 兼容性
    • 遵循 ANSI/ISO SQL 标准,非标准方面遵循 PostgreSQL 规范
    • 支持 HiveQL 模式
    • 在 HCatalog 和 Hive MetaStore 实现表访问
    • 支持 JDBC 驱动
  • 简单
    • 提供交互式 Shell 来提交 SQL 查询到 Tajo 集群
    • 提供备份和恢复工具
    • 异步/同步 Java API 来提交 SQL 查询到 Tajo 集群

Apache Tajo 0.2.0 包含如下改进:

  * Add cost-based join optimization
  * Allow inline view use (i.e., table subquery)
  * Add various string functions, such as upper, lower, (L|R)TRIM,
split_part, and regexp_replace.
  * Allow in predicate support
  * Improve significantly scan performance
  * Add INSERT OVERWRITE statement
  * Add CREATE TABLE statement
  * Add HiveQL mode
  * Allow configurable NULL character for CSVFile format
  * Allow compression/decompression of CSVFile (all codecs supported by Hadoop)
  * Add the extensible rewrite rule engine
  * Add tajo_dump, a backup and restore utility
  * Allow BETWEEN predicate
  * Add Tajo Resource Manager specialized for low-latency queries

相关 [apache tajo 分布] 推荐:

Apache Tajo 0.2.0 发布,分布式数据仓库

- - 开源中国社区最新新闻
Tajo 是一个分布式数据仓库系统,基于 Hadoop 实现,特点是低延迟、高可伸缩,提供专用查询和 ETL 工具. 完全分布式的 SQL 查询处理,基于存储雨 HDFS 的大数据集. 超低响应时间(约100毫秒),在合理数据范围内的简单查询. 容错支持,避免某些任务失败后的查询重启. 动态调度,处理和异构集群节点故障.

分布式日志收集系统Apache Flume的设计介绍

- - CSDN博客架构设计推荐文章
Flume是Cloudera公司的一款高性能、高可能的分布式日志收集系统. 现在已经是Apache Top项目. 同Flume相似的日志收集系统还有 Facebook Scribe, Apache Chuwka, Apache Kafka(也是LinkedIn的). Flume是后起之秀,本文尝试简要分析Flume数据流通过程中提供的组件、可靠性保证来介绍Flume的主要设计,不涉及Flume具体的安装使用,也不涉及代码层面的剖析.

分布式计算系统 Spark 成为 Apache 顶级项目

- - 博客园_新闻
Apache 软件基金会今天宣布,Spark 项目已从孵化器毕业,成为 Apache 软件基金会的一个顶级项目. Spark 是一个高效的分布式计算系统,发源于美国加州大学伯克利分校 AMPLab 的集群计算平台. Spark 被称为“Hadoop 的瑞士军刀”,拥有非凡的速度和易用性. Spark 立足于内存计算,相比 Hadoop MapReduce,Spark 在性能上要高 100 倍,而且 Spark 提供了比 Hadoop 更上层的 API,同样的算法在 Spark 中实现往往只有 Hadoop 的1/10 或者1/100 的长度.

Apache Kafka:下一代分布式消息系统

- - zzm
Apache Kafka是分布式发布-订阅消息系统. 它最初由LinkedIn公司开发,之后成为Apache项目的一部分. Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务. Apache Kafka与传统消息系统相比,有以下不同:. 它被设计为一个分布式系统,易于向外扩展;.

Apache HBase v1.0 发布,分布式数据库

- - 开源中国社区最新新闻
Apache HBase v1.0 发布了,这是 HBase 一个主要的里程碑. 1.0 版本经过 7 年的开发,有超过 1500 次的更改和升级. 与上一个版本 0.98.0 比较,1.0 版本值得关注的改进有:. 性能提升,同时保持之前的稳定性. 全新 API 以及重新组织客户端 API. 新的可用性保证 —— 用时间表一致地区副本读取可用性.

Apache Cassandra 1.0正式版发布,开源的分布式NoSQL数据库

- gnawux - ITeye资讯频道
Apache软件基金会(ASF)发布了 NoSQL 数据库 Cassandra 1.0 正式版. ASF表示,Cassandra是一个具有高可扩展性、分布式的NoSQL数据库系统,它能够实时快速地处理大量的数据而不影响服务及系统性能. Cassandra在云计算中将扮演一个重要的角色. Apache Cassandra是一套开源的分布式NoSQL数据库系统.

Apache Beam:一个开源的统一的分布式数据处理编程库

- - 简单之美
Apache Beam是一个开源的数据处理编程库,由Google共享给Apache的项目,前不久刚刚成为Apache TLP项目. 它提供了一个高级的、统一的编程模型,允许我们通过构建Pipeline的方式实现批量、流数据处理,并且构建好的Pipeline能够运行在底层不同的执行引擎上. 刚刚接触该开源项目时,我的第一感觉就是:在编程API的设计上,数据集及其操作的抽象有点类似Apache Crunch(MapReduce Pipeline编程库)项目;而在支持统一数据处理模型上,能够让人想到Apache Flink项目.

Apache Shiro 介绍

- - CSDN博客推荐文章
什么是Apache Shiro?. Apache shiro 是一个强大而灵活的开源安全框架,可清晰地处理身份认证、授权、会话(session)和加密. Apache Shiro最主要的初衷是为了易用和易理解,处理安全问题可能非常复杂甚至非常痛苦,但并非一定要如此. 一个框架应该尽可能地将复杂的问题隐藏起来,提供清晰直观的API使开发者可以很轻松地开发自己的程序安全代码.

分布式大数据多维分析(OLAP)引擎:Apache Kylin 在百度地图的实践

- - leejun2005的个人页面
百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务. 对于Apache Kylin在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一. Apache Kylin在2014年11月开源,当时,我们团队正需要搭建一套完整的大数据OLAP分析计算平台,用来提供百亿行级数据单条SQL毫秒到秒级的多维分析查询服务,在技术选型过程中,我们参考了Apache Drill、Presto、Impala、Spark SQL、Apache Kylin等.

Apache防止攻击

- - 小彰
为了防止恶意用户对Apache进行攻击,我们需要安装mod_security这个安全模块. mod_security 1.9.x模块的下载与安装. 下载地址: http://www.modsecurity.org/download/index.html. 建议使用1.9.x,因为2.x的配置指令与1.x完全不同,解压后进入解压目录,执行:.