Impala在网易大数据的优化和实践

原創

DataFunTalk

2020-10-26 14:08

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享下Impala在网易大数据的优化和实践。

01 Impala的定位及优势

Impala有哪些优势，让我们选择Impala作为网易内部的OLAP查询引擎？

1. Impala在数据处理中的角色

先来看一下Impala在数据处理中的角色。

对于数据量较少的场景，例如百万数据以下的情况，可以采用传统的关系型数据库，如MySQL或者PostgreSQL等，或者一些文档数据库，比如MongoDB等。随着数据量的增大，达到上亿级别时，一般选择分析型数仓来存储，并使用OLAP引擎来查询。此等规模的数据查询，对响应时间的要求虽然比关系型数据库要低，但一般也要求在秒级返回查询结果，不能有太大的延迟。Impala、Presto、Greenplum等都在此列。当规模继续扩大到上百亿以上时，则会选择批处理引擎，如Hive、Spark来进行数据处理。

今天分享的Impala就是针对分析型数仓的查询引擎。分析型数仓有很多种建模方式。

以Druid和Click House为代表的宽表模型，还有以Impala等为代表的星型/雪花型的建模方式。我们将Impala作为通用的查询引擎，比较典型的应用场景有自助数据分析、BI报表等。在分享的第三部分，有关于Impala在网易大数据平台“猛犸”中的介绍，以及在网易云音乐中的实际使用场景的说明。

原文链接:【https://www.infoq.cn/article/vlm5qwpIWeAsgHOuaZQK】。未经作者许可，禁止转载。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Impala在网易大数据的优化和实践

01 Impala的定位及优势

35K*14 薪，入职了！这公司只要不裁员，我能一直呆下去！

數據治理與大模型一體化實踐

降本不增“笑”的正確打開方式

基於知識圖譜的多模內容創作技術

京東零售大數據雲原生平臺化實踐

未來數據庫需要關心的硬核創新

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結