Pulsar 如何爲批和流處理提供高效統一的數據存儲

Pulsar 如何爲批和流處理提供高效統一的數據存儲 | QCon

大數據的處理方式主要分爲兩類，一類是基於有邊界的歷史靜態數據的批處理；另一類是基於無邊界的 event 和流數據的實時處理。

由於具體業務和大數據技術發展歷程的原因，在實際應用中，批處理和流處理的數據和技術還是被分隔成兩個不同的部分。這其中的一個原因是兩種數據類型存儲方式的不同：近實時的流、事件數據通常使用消息隊列、日誌存儲系統進行存儲；而批處理所需要的靜態數據，通常使用文件系統、對象存儲進行存儲。這就意味着，數據科學家還是需要編寫兩套不同的計算邏輯來訪問存儲在不同存儲系統中的數據。

Apache Pulsar 是 Yahoo 開源的下一代分佈式消息系統，在 2018 年 9 月從 Apache 軟件基金會畢業成爲頂級項目。Pulsar 特有的分層分片的架構，在保證大數據消息流系統的性能和吞吐量的同時，也提供了高可用性、高可擴展性和易維護性。Pulsar 的分片架構將消息流數據的存儲粒度從分區拉低到了分片，並且 Pulsar 提供了層級化存儲功能，可以支持近乎無限大小的流存儲。另一方面 Pulsar 也可以基於分片提供對有邊界的靜態數據的存儲。這使得 Pulsar 可以完美地匹配和適配大數據計算框架中的批流一體的存儲需求。

主要內容

什麼是 Pulsar；
介紹 Pulsar 的分層和分片架構，以及爲什麼 Pulsar 的這種架構可以更好地適配批流一體計算框架；
介紹 Pulsar 怎麼跟流處理中的 Spark 和 Flink 以及批處理中的 Presto 和 Hive 結合，提供批流一體的高效的數據存儲。

聽衆受益

理解批流一體的處理優勢；
理解批處理和流處理對存儲的不同需求；
深入理解 Apache Pulsar 的基礎架構；
深入理解 Apache Pulsar 能匹配批流一體需求的原因。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Pulsar 如何爲批和流處理提供高效統一的數據存儲 | QCon

這個網絡爬蟲代碼，拿到數據之後如何存到csv文件中去？

即刻放大鏡。跟隨鼠標，屏幕任意位置放大

【面試準備】【SQL】數據庫有哪些約束？

.NET開源強大、易於使用的緩存框架 - FusionCache

面試，有時候是個運氣活

阿里技術實戰：數十萬雲服務器如何高效運維？

雲端一體化下如何降本增效，實現業務價值最大化？｜ QCon

Pulsar 如何爲批和流處理提供高效統一的數據存儲 | QCon

面向異構存儲的高性能鍵值數據庫技術與挑戰 | QCon

NLP Dynamic Chart+AI Data Insight 助力智能金融決策 | QCon

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結