Kylin构建Cube过程详解 - XIAO的博客 - 博客园

- -

下面开始分析cube的build过程. 以手机销售为例，表SALE记录各手机品牌在各个国家，每年的销售情况. 表PHONE是手机品牌，表COUNTRY是国家列表，两表通过外键与SALE表相关联. 这三张表就构成星型模型，其中SALE是事实表，PHONE、COUNTRY是维度表. 现在需要知道各品牌手机于2010-2012年，在中国的总销量，那么查询sql为：.

Apache Kylin 概述 - XIAO的博客 - 博客园

- -

今天，随着移动互联网、物联网、AI等技术的快速兴起，数据成为了所有这些技术背后最重要，也是最有价值的“资产”. 这个问题驱动了相关技术的发展，从最初的基于文件的检索、分析程序，到数据仓库理念的诞生，再到基于数据库的商业智能分析. 而现在，这一问题已经变成了如何从海量的超大规模数据中快速获取有价值的信息，新的时代、新的挑战、新的技术必然应运而生.

Apache Kylin 性能优化

- - V2EX - 技术

聚合组 Aggregation Groups. Cube Designer 的 Advanced Setting 中可以配置 Aggregation Groups. 理论上 N 维度 Cube 会构建 2^N 个 Cuboid，随着维度的增多，Cuboid 数量会指数增长，存储空间占用增大，构建时间增长.

一文读懂Apache Kylin - 简书

- -

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　—— 中国古谚语. 随着移动互联网、物联网等技术的发展，近些年人类所积累的数据正在呈爆炸式的增长，大数据时代已经来临. 但是海量数据的收集只是大数据技术的第一步，如何让数据产生价值才是大数据领域的终极目标. Hadoop的出现解决了数据存储问题，但如何对海量数据进行OLAP查询，却一直令人十分头疼.

Kylin：基于Hadoop的开源数据仓库OLAP分析引擎

- - 标点符

Kylin是一个开源、分布式的OLAP分析引擎，它由eBay公司开发，并且基于Hadoop提供了SQL接口和OLAP接口，能够支持TB到PB级别的数据量. OLAP即联机分析处理，它能够帮助分析人员、管理人员或执行人员从多角度快速、一致、交互地存取信息和更加深入的了解信息. OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求.

以前写过一篇文档讨论MPP DB的发展，《 MPP DB 是大数据实时分析系统未来的选择吗. 》，当时主要是想讨论下Greenplum数据库是否合适做数据存储，以及实时查询. 文章我主要提的MPP DB短板是扩展性和对并发的支持，从目前Pivotal公司主推的HAWK，已经可以清楚的看到，业界主流的思路是SQL onhadoop，用传统引擎的高性能加上hadoop 存储的鲁棒性，来构建大数据实时分析.

基于 Kylin 的推荐系统效果评价系统

- - IT瘾-tuicool

OLAP（联机分析处理）是数据仓库的主要应用之一，通过设计维度、度量，我们可以构建星型模型或雪花模型，生成数据多维立方体Cube，基于Cube可以做钻取、切片、旋转等多维分析操作. 早在十年前，SQL Server、Oracle 等数据库软件就有OLAP产品，为用户提供关系数据库、多维数据集、可视化报表的整套商业智能方案.

Kylin在马蜂窝数据分析团队的应用实战

- -

AI 前线导读：马蜂窝大数据平台自 2017 年下半年引入 Apache Kylin 以来，极大的提升了数据分析师对于数据探索的效率. 因为使用了 Apache Kylin，数据分析师可以直接查询大数据、无需排队、亚秒级响应，整体开发效率提高了 10 倍以上. 更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）.

Kylin 大数据时代的OLAP利器 - CSDN博客

- -

Olap全称为在线联机分析应用，是一种对于多维数据分析查询的解决方案. 典型的Olap应用场景包括销售、市场、管理等商务报表，预算决算，经济报表等等. 最早的Olap查询工具是发布于1970年的Express，然而完整的Olap概念是在1993年由关系数据库之父 Edgar F.Codd 提出，伴随而来的是著名的“twelve laws of online analytical processing”.

Kafka Shell基本命令（包括topic的增删改查） - XIAO的博客 - 博客园

- -

创建kafka topic. 控制台向topic生产数据. 控制台消费topic的数据. 查看topic某分区偏移量最大（小）值. 删除topic，慎用，只会删除zookeeper中的元数据，消息文件须手动删除. 注：partitions指定topic分区数，replication-factor指定topic每个分区的副本数.

Kylin构建Cube过程详解 - XIAO的博客 - 博客园

1 前言

2 Cube示例

3 入口介绍

4 构建Cube过程

4.1 创建Hive事实表中间表（Create Intermediate Flat Hive Table）

4.2 重新分配中间表（Redistribute Flat Hive Table）

4.3 提取事实表不同列值（Extract Fact Table Distinct Columns）

4.4 创建维度字典（Build Dimension Dictionary）

4.5 保存Cuboid的统计信息（Save Cuboid Statistics）

4.6 创建HTable

4.7 用Spark引擎构建Cube(Build Cube with Spark)

4.8 将Cuboid数据转换成HFile(Convert Cuboid Data to HFile)

4.9 导HFile入HBase表(Load HFile to HBase Table)

4.10 更新Cube信息（Update Cube Info）

4.11 清理Hive中间表(Hive Cleanup)

相关 [kylin cube xiao] 推荐：