Presto入门简介（含和Hive对比）

原創

2020-07-07 18:02

一、简介

Presto是由Facebook开发的，是一个运行在多台服务器上的分布式查询引擎，本身并不存储数据，但是可以接入多种数据源（Hive、Oracle、MySql、Kafka、Redis等），并且支持跨数据源的级联查询，比如：
select * from a join b where a.id=b.id;，其中表a可以来自Hive，表b可以来自Mysql。

优势（相对于Hive）：
Presto是一个低延迟高并发的内存计算引擎，相比Hive，执行效率要高很多。
Presto以分析师的需求作为目标，他们期望响应时间小于1秒到几分钟。 Presto终结了数据分析的两难选择，要么使用速度快的昂贵的商业方案，要么使用消耗大量硬件的慢速的“免费”方案。
那么，为什么presto查询速度比Hive快？
Presto是常驻任务，接受请求立即执行，全内存并行计算；hive需要用yarn做资源调度，接受查询需要先申请资源，启动进程，并且采用mapreduce计算模型，中间结果会经过磁盘。

基础概念：
catalogs -> 数据源，配置的数据仓库名称，不同的数据连接如：hive、mysql
schemas -> 相当于数据库 database
tables -> 表 tables

接入方式：
Presto的接入方式有多种：presto-cli，pyhive，jdbc，http，golang，SQLAlchemy，PHP等，其中presto-cli命令行模式是Presto官方提供的，以此为例：
./presto-cli.jar --server 服务IP:端口 --catalog hive --user xxxx --source 'pf=adhoc;client=cli

二、安装及结构

完整安装包括一个coordinator和多个worker。由客户端提交查询，从Presto命令行CLI提交到coordinator。 coordinator进行解析，分析并执行查询计划，然后分发处理队列到worker。
查询原理：完全基于内存的并行计算；流水线；本地化计算；动态编译执行。

由于 Presto 的数据源具有完全解耦、高性能，以及对 ANSI SQL 的支持等特性（包括联合查询、左右联接、子查询以及一些聚合和计算函数），使得 Presto 在 ETL、实时数据计算、 Ad-Hoc 查询和实时数据流分析等多个业务场景中均能发挥重要的作用。
由于 Presto 卓越的性能表现，使得 Presto 可以弥补 Hive 无法满足的实时计算空白，因此可以将 Presto 与 Hive 配合使用：对于海量数据的批处理和计算由 Hive 来完成；对于大量数据（单次计算扫描数据量级在 GB 到 TB）的计算由 Presto 完成。

三、常用业务场景

1、基于 T+1 数据的实时计算
在这种业务场景中，用户并不要求基准数据的实时更新，但是要求每次查询数据都能够快速响应。需要 Presto 和 Hive 配合使用来满足实际的业务需求。每天凌晨通过azkaban 调度 Hive 脚本，根据前一天的数据计算生成中间结果表，生成完毕之后使用 Presto 查询中间结果表，得出用户最终所需要的数据。满足该业务场景的解决方案如下图：

2、基于 RDBMS 的实时计算
在这种业务场景中，用户要求查询的数据完全实时，即只要业务库中的数据发生改变，通过 Presto 查询的时候，就可以查询到刚刚改变之后的数据。要达到这个效果，我们需要使用合理的机制保证数据实时同步，因此我们使用数据库复制技术，为线上的业务数据库建立实时同步的从库，然后用 Presto 查询数据库中的数据，进而进行计算（请注意：使用官方的 Presto 直接读取数据库的性能还太低，因此建议使用JD-Presto 中的 PDBO 从数据库中读取数据并进行计算）。满足该业务场景的解决方案如下图：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Presto入门简介（含和Hive对比）

一、简介

二、安装及结构

三、常用业务场景

[转帖]使用NMT和pmap解决JVM资源泄漏问题原创

Python实现大麦网抢票的四大关键技术点解析

Python 安装库指令大全

salesforce零基础学习（一百三十八）零碎知识点小总结（十）

一款开源的.NET程序集反编译、编辑和调试神器

关于接口协议，你必须要知道这些！

基于 Milvus + LlamaIndex 实现高级 RAG

【2024-05-21】以茶会友

Presto入門簡介（含和Hive對比）

Linux+Shell基礎入門總結

工作雜記

Linux+Shell學習總結整理

記錄一個sql：mysql表根據自身數據來更新自身

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Presto入门简介（含和Hive对比）

一、简介

二、安装及结构

三、 常用业务场景

三、常用业务场景