Pulsar 如何爲批和流處理提供高效統一的數據存儲 | QCon

大數據的處理方式主要分爲兩類,一類是基於有邊界的歷史靜態數據的批處理;另一類是基於無邊界的 event 和流數據的實時處理。

由於具體業務和大數據技術發展歷程的原因,在實際應用中,批處理和流處理的數據和技術還是被分隔成兩個不同的部分。這其中的一個原因是兩種數據類型存儲方式的不同:近實時的流、事件數據通常使用消息隊列、日誌存儲系統進行存儲;而批處理所需要的靜態數據,通常使用文件系統、對象存儲進行存儲。這就意味着,數據科學家還是需要編寫兩套不同的計算邏輯來訪問存儲在不同存儲系統中的數據。

Apache Pulsar 是 Yahoo 開源的下一代分佈式消息系統,在 2018 年 9 月從 Apache 軟件基金會畢業成爲頂級項目。Pulsar 特有的分層分片的架構,在保證大數據消息流系統的性能和吞吐量的同時,也提供了高可用性、高可擴展性和易維護性。Pulsar 的分片架構將消息流數據的存儲粒度從分區拉低到了分片,並且 Pulsar 提供了層級化存儲功能,可以支持近乎無限大小的流存儲。另一方面 Pulsar 也可以基於分片提供對有邊界的靜態數據的存儲。這使得 Pulsar 可以完美地匹配和適配大數據計算框架中的批流一體的存儲需求。

主要內容

什麼是 Pulsar;
介紹 Pulsar 的分層和分片架構,以及爲什麼 Pulsar 的這種架構可以更好地適配批流一體計算框架;
介紹 Pulsar 怎麼跟流處理中的 Spark 和 Flink 以及批處理中的 Presto 和 Hive 結合,提供批流一體的高效的數據存儲。

聽衆受益

理解批流一體的處理優勢;
理解批處理和流處理對存儲的不同需求;
深入理解 Apache Pulsar 的基礎架構;
深入理解 Apache Pulsar 能匹配批流一體需求的原因。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章