网易数据湖探索与实践

原創

2020-10-19 10:08

导读：今天主要和大家交流的是网易在数据湖Iceberg的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发，介绍对数据湖Iceberg的探索以及实践之路。

主要内容包括：

01 数据仓库平台建设的痛点

痛点一：

我们凌晨一些大的离线任务经常会因为一些原因出现延迟，这种延迟会导致核心报表的产出时间不稳定，有些时候会产出比较早，但是有时候就可能会产出比较晚，业务很难接受。

为什么会出现这种现象的发生呢？目前来看大致有这么几点要素：

任务本身要请求的数据量会特别大。通常来说一天原始的数据量可能在几十TB。几百个分区，甚至上千个分区，五万+的文件数这样子。如果说全量读取这些文件的话，几百个分区就会向NameNode发送几百次请求，我们知道离线任务在凌晨运行的时候，NameNode的压力是非常大的。所以就很有可能出现Namenode响应很慢的情况，如果请求响应很慢就会导致任务初始化时间很长。
任务本身的ETL效率是相对低效的，这个低效并不是说Spark引擎低效，而是说我们的存储在这块支持的不是特别的好。比如目前我们查一个分区的话是需要将所有文件都扫描一遍然后进行分析，而实际上我可能只对某些文件感兴趣。所以相对而言这个方案本身来说就是相对低效的。
这种大的离线任务一旦遇到磁盘坏盘或者机器宕机，就需要重试，重试一次需要耗费很长的时间比如几十分钟。如果说重试一两次的话这个延迟就会比较大了。

原文链接:【https://www.infoq.cn/article/HBJ9semJsyytltjQQ2wg】。未经作者许可，禁止转载。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.