Pulsar 如何为批和流处理提供高效统一的数据存储

Pulsar 如何为批和流处理提供高效统一的数据存储 | QCon

大数据的处理方式主要分为两类，一类是基于有边界的历史静态数据的批处理；另一类是基于无边界的 event 和流数据的实时处理。

由于具体业务和大数据技术发展历程的原因，在实际应用中，批处理和流处理的数据和技术还是被分隔成两个不同的部分。这其中的一个原因是两种数据类型存储方式的不同：近实时的流、事件数据通常使用消息队列、日志存储系统进行存储；而批处理所需要的静态数据，通常使用文件系统、对象存储进行存储。这就意味着，数据科学家还是需要编写两套不同的计算逻辑来访问存储在不同存储系统中的数据。

Apache Pulsar 是 Yahoo 开源的下一代分布式消息系统，在 2018 年 9 月从 Apache 软件基金会毕业成为顶级项目。Pulsar 特有的分层分片的架构，在保证大数据消息流系统的性能和吞吐量的同时，也提供了高可用性、高可扩展性和易维护性。Pulsar 的分片架构将消息流数据的存储粒度从分区拉低到了分片，并且 Pulsar 提供了层级化存储功能，可以支持近乎无限大小的流存储。另一方面 Pulsar 也可以基于分片提供对有边界的静态数据的存储。这使得 Pulsar 可以完美地匹配和适配大数据计算框架中的批流一体的存储需求。

主要内容

什么是 Pulsar；
介绍 Pulsar 的分层和分片架构，以及为什么 Pulsar 的这种架构可以更好地适配批流一体计算框架；
介绍 Pulsar 怎么跟流处理中的 Spark 和 Flink 以及批处理中的 Presto 和 Hive 结合，提供批流一体的高效的数据存储。

听众受益

理解批流一体的处理优势；
理解批处理和流处理对存储的不同需求；
深入理解 Apache Pulsar 的基础架构；
深入理解 Apache Pulsar 能匹配批流一体需求的原因。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Pulsar 如何为批和流处理提供高效统一的数据存储 | QCon

.Net 8.0 下的新RPC，IceRPC之试试的新玩法"打洞"

关于游戏付费的一点想法

我通过CKA和CKS啦！

《最新出炉》系列入门篇-Python+Playwright自动化测试-42-强大的可视化追踪利器Trace Viewer

大数据怎么学？对大数据开发领域及岗位的详细解读，完整理解大数据开发领域技术体系

阿里技術實戰：數十萬雲服務器如何高效運維？

雲端一體化下如何降本增效，實現業務價值最大化？｜ QCon

Pulsar 如何爲批和流處理提供高效統一的數據存儲 | QCon

面向異構存儲的高性能鍵值數據庫技術與挑戰 | QCon

NLP Dynamic Chart+AI Data Insight 助力智能金融決策 | QCon

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結