Apache Flink OLAP引擎性能优化及应用

- - InfoQ推荐

导读：本次分享的主题为Apache Flink新场景——OLAP引擎，主要内容包括：. Apache Flink OLAP引擎. OLAP是一种让用户可以用从不同视角方便快捷的分析数据的计算方法. 主流的OLAP可以分为3类：多维OLAP ( Multi-dimensional OLAP )、关系型OLAP ( Relational OLAP ) 和混合OLAP ( Hybrid OLAP ) 三大类.

Apache Flink：特性、概念、组件栈、架构及原理分析

- - 简单之美

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时（Flink Runtime），提供支持流处理和批处理两种类型应用的功能. 现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为他们它们所提供的SLA是完全不相同的：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理，所以在实现的时候通常是分别给出两套实现方法，或者通过一个独立的开源框架来实现其中每一种处理方案.

分布式大数据多维分析（OLAP）引擎：Apache Kylin 在百度地图的实践

- - leejun2005的个人页面

百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析，处理日常百亿级规模数据，为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务. 对于Apache Kylin在实际生产环境中的应用，在国内，百度地图数据智能组是最早的一批实践者之一. Apache Kylin在2014年11月开源，当时，我们团队正需要搭建一套完整的大数据OLAP分析计算平台，用来提供百亿行级数据单条SQL毫秒到秒级的多维分析查询服务，在技术选型过程中，我们参考了Apache Drill、Presto、Impala、Spark SQL、Apache Kylin等.

flink-watermark

- - ITeye博客

当我们统计用户点击的时候，有时候会因为各种情况数据延迟，我们需要一个允许最大的延迟范围进行统计. 模拟初始数据：早上10:00 11.10 用户点击了一次，但是延迟到10:00 11.15 才发送过来，允许最大延迟5秒， 5秒窗口统计. /** 实际时间-偏移量偏移后的时间*/.

多维分析OLAP引擎Mondrian学习

- - Web前端 - ITeye博客

随着信息技术的飞速发展，在电力、电信、金融、大型制造等各个行业ERP、CRM、SCM、OA等越来越多的IT系统得以成功实施，这些分散建设的IT系统为各部门的运营效率提升发挥了很大的作用. 同时，为了满足业务管理和决策的报表系统（包括传统报表、数据仓库、OLAP等）也被创建出来，企业主管通过报表了解企业的总体运行状态.

开源OLAP引擎综评：HAWQ、Presto、ClickHouse

- - InfoQ推荐

谈到大数据就会联想到Hadoop、Spark整个生态的技术栈. 大家都知道开源大数据组件种类众多，其中开源OLAP引擎包含Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等. 当前企业对大数据的研究与应用日趋理性，那么，如何根据业务特点，选择一个适合自身场景的查询引擎呢.

一文精通 Flink on YARN

- - IT瘾-dev

本文主要是讲解flink on yarn的部署过程，然后yarn-session的基本原理，如何启动多个yarn-session的话如何部署应用到指定的yarn-session上，然后是用户jar的管理配置及故障恢复相关的参数. flink on yarn的整个交互过程图，如下：. 要使得flink运行于yarn上，flink要能找到hadoop配置，因为要连接到yarn的resourcemanager和hdfs.

Flink SQL 编程实践

- - Jark's Blog

注：本教程实践基于 Ververica 开源的. sql-training 项目. 基于 Flink 1.7.2. 本文将通过五个实例来贯穿 Flink SQL 的编程实践，主要会涵盖以下几个方面的内容. 如何使用 SQL CLI 客户端. 如何在流上运行 SQL 查询. 运行 window aggregate 与 non-window aggregate，理解其区别.

谈谈 Flink Shuffle 演进

- - 时间与精神的小屋

在分布式计算中，Shuffle 是非常关键但常常容易被忽视的一环. 比如著名的 MapReduce 的命名跳过 Shuffle ，只包含其前后的 Map 跟 Reduce. 背后原因一方面是 Shuffle 是底层框架在做的事情，用户基本不会感知到其存在，另一方面是 Shuffle 听起来似乎是比较边缘的基础服务.

Flink 1.16：Hive SQL 如何平迁到 Flink SQL

- - Jark's Blog

Hive SQL 迁移的动机. Flink 已经是流计算的事实标准，当前国内外做实时计算或流计算一般都会选择 Flink 和 Flink SQL. 另外，Flink 也是是家喻户晓的流批一体大数据计算引擎. 然而，目前 Flink 也面临着挑战. 比如虽然现在大规模应用都以流计算为主，但 Flink 批计算的应用并不广泛，想要进一步推动真正意义上的流批一体落地，需要推动业界更多地落地 Flink 批计算，需要更积极地拥抱现有的离线生态.

Apache Flink OLAP引擎性能优化及应用

1. OLAP及其分类

2. Apache Flink介绍

1. Apache Flink OLAP引擎

2. 性能优化

3. 测试结果

1. Apache Flink OLAP在数据探查上的应用

2. 整体架构

相关 [apache flink olap] 推荐：