SparkStreaming 运行架构

SparkStreaming 进行数据的处理大致分为四个步骤: 启动流处理引擎、接受以及存储数据、处理数据、输出结果等。

(1)初始化StreamingContext对象,在该对象启动过程中实例化DStreamGraph和JobGenrator,其中DStreamGraph用于存放DStream以及之间的依赖关系等信息,而jobscher中ReceiverTracker和JobGentator。其中ReceiverTracker为Driver端流数据接收器(Recevicer)的管理者,JobGentator启动过程中,根据流数据接收器分发策略通知对应的executor中的流数据接收器(ReciverSupervisor)启动,再由ReciverSupervisor启动流数据接收器。

(2)当数据接收器Recevicer启动后,持续不断地接受实时流数据,根据传过来的数据的大小进行判断,如果数据量很小,则等到多条数据成一块,在进行块存储;如果数据量大直接块存储。对于这些数据Receiver直接交给ReciverSupervisor,由其进行数据转存操作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章