Delta Lake Presto Integration & Manifests 機制

原文鏈接

該功能與我們之前平臺化 Delta Lake 平臺化實踐(離線篇) 的很多工作都較爲相似,比如與 metastore 的集成,直接通過 manifest 讀取 delta 存活文件等。
Delta Lake 在 0.5 之前只支持通過 Spark 讀取數據,在新版本中增加了其他處理引擎通過 manifest 文件訪問 Delta Lake 的能力。下文以Presto 爲例說明如何通過 manifest 文件訪問數據,manifest 文件的生成及其一些限制。

01 使用

Presto 使用 manifest 文件從 hive 外部表中讀取數據,manifest文件是一個文本文件,包含該表/分區所有存活數據的路徑列表。

當使用 manifest 文件在 Hive metastore 中定義外部表時,Presto 將會先讀取 mani

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章