Presto实现原理和美团的使用实践

自助查询sql数	hive	presto	presto/hive
1424	154427s	27708s	0.179424582489

- - 美团技术团队

Facebook的数据仓库存储在少量大型Hadoop/HDFS集群. Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具. 在以前，Facebook的科学家和分析师一直依靠Hive来做数据分析. 但Hive使用MapReduce作为底层计算框架，是专为批处理设计的. 但随着数据越来越多，使用Hive进行一个简单的数据查询可能要花费几分到几小时，显然不能满足交互式查询的需求.

操作系统：CentOs6.5. Hadoop 集群：CDH5.3. JDK 版本：jdk1.8.0_31. 为了测试简单，我是将 Presto 的 coordinator 和 worker 都部署在 cdh1 节点上，并且该节点上部署了 hive-metastore 服务. 下面的安装和部署过程参考自 http://prestodb.io/docs/current/installation.html.

facebook presto安装与配置 CDH4.4

- - CSDN博客云计算推荐文章

下载： http://search.maven.org/remotecontent?filepath=com/facebook/presto/presto-server/0.52/presto-server-0.52.tar.gz. 重命名：mv presto-cli-0.52-executable.jar presto.

Presto 在有赞的实践之路

- - IT瘾-dev

本文主要介绍了 Presto 的简单原理，以及 Presto 在有赞的实践之路. Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎. 起初，Facebook 使用 Hive 来进行交互式查询分析，但 Hive 是基于 MapReduce 为批处理而设计的，延时很高，满足不了用户对于交互式查询想要快速出结果的场景.

开源OLAP引擎综评：HAWQ、Presto、ClickHouse

- - InfoQ推荐

谈到大数据就会联想到Hadoop、Spark整个生态的技术栈. 大家都知道开源大数据组件种类众多，其中开源OLAP引擎包含Hive、SparkSQL、Presto、HAWQ、ClickHouse、Impala、Kylin等. 当前企业对大数据的研究与应用日趋理性，那么，如何根据业务特点，选择一个适合自身场景的查询引擎呢.

Presto 来自Facebook的开源分布式查询引擎

- - 标点符

PrestoDB 来自Facebook的开源分布式查询引擎. Presto是一个分布式SQL查询引擎，它被设计为用来专门进行高速、实时的数据分析. 它支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions). 下图中展现了简化的Presto系统架构.

开源OLAP引擎哪个快？ (Presto、HAWQ、ClickHouse、GreenPlum) - 知乎

- -

现在大数据组件非常多，众说不一，在每个企业不同的使用场景里究竟应该使用哪个引擎呢. 这是易观Spark实战营出品的开源Olap引擎测评报告，团队选取了Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大数据查询引擎，在原生推荐配置情况下，在不同场景下做一次横向对比，供大家参考.

#数据技术选型#即席查询Shib+Presto，集群任务调度HUE+Oozie

- - ITeye博客

郑昀创建于2014/10/30 最后更新于2014/10/31. 一）选型：Shib+Presto. 应用场景：即席查询（Ad-hoc Query）. 使用者是产品/运营/销售运营的数据分析师；. 要求数据分析师掌握查询SQL查询脚本编写技巧，掌握不同业务的数据存储在不同的数据集市里；. 不管他们的计算任务是提交给数据库还是 Hadoop，计算时间都可能会很长，不可能在线等待；.

presto、druid、sparkSQL、kylin的对比分析，如性能、架构等，有什么异同？ - 知乎

- -

这几个框架都是OLAP大数据分析比较常见的框架，各自特点如下：. presto：facebook开源的一个java写的分布式数据查询框架，原生集成了Hive、Hbase和关系型数据库，Presto背后所使用的执行模式与Hive有根本的不同，它没有使用MapReduce，大部分场景下比hive快一个数量级，其中的关键是所有的处理都在内存中完成.

Spark在美团的实践

- - 美团点评技术团队

本文已发表在《程序员》杂志2016年4月期. 美团是数据驱动的互联网服务，用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志，这些日志数据将被汇总处理、分析、挖掘与学习，为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持. 大数据处理渗透到了美团各业务线的各种应用场景，选择合适、高效的数据处理引擎能够大大提高数据生产的效率，进而间接或直接提升相关团队的工作效率.

Presto实现原理和美团的使用实践

Presto架构

Presto执行查询过程简介

提交查询

SQL编译过程

物理执行计划

完全基于内存的并行计算

查询的并行执行流程

源数据的并行读取

分布式的Hash聚合

流水线

数据模型

节点内部流水线计算

节点间流水线计算

本地化计算

动态编译执行计划

小心使用内存和数据结构

类BlinkDB的近似查询

GC控制

Presto TPCH benchmark测试

美团如何使用Presto

选择presto的原因

部署和使用形式

Presto二次开发和BUG修复

实际使用效果

参考

相关 [presto 原理美团] 推荐：