Spark框架

Spark框架

Spark的整體流程爲：Client提交應用，Master找到一個Worker啓動Driver，Driver向Master或者資源管理器申請資源，之後將應用轉化爲RDD Graph，再由DAGScheduler將RDD Graph轉化爲Stage的有向無環圖提交給TaskScheduler，由TaskScheduler提交任務給Executor執行。在任務執行的過程中，其他組件協同工作，確保整個應用順利執行。

Client：作爲用戶的客戶端負責提交應用。

Master：作爲整個集羣的控制器，負責整個集羣的正常運行。

Worker：相當於計算節點，接收主節點命令並進行狀態彙報。

Driver：負責控制一個應用程序，其運行Application的main()函數，並創建SparkContext。

SparkContext：是整個應用的上下文，控制應用的生命週期。

RDD：Spark的基本計算單元，一組RDD可形成執行的有向無環圖RDD Graph。

DAGScheduler：根據作業(Job)構建基於Stage的DAG，並提交Stage給TaskScheduler。

TaskScheduler：將任務分發給Executor。

Executor：執行器，在worker node上執行任務的組件，用於啓動線程池運行任務。

Spark框架中其他組件的作用：

SparkConf：負責存儲配置信息。

MetricsSystem：監控運行時性能指標信息。

BlockManager：負責存儲管理，負責創建和查找block。

BrocastManager：負責廣播變量的控制與元信息的存儲。

Progress is not created by contented people.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何基於surging跨網關跨語言進行緩存降級

2024合集

程序員天天 CURD，怎麼才能成長，職業發展的思考(2)

移位操作搞定兩數之商

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

通用代碼生成器簡介

lightdb 單機模式下數據庫平移

千兆寬帶實際網速能到達多少？

Spark初體驗(1)--SparkPi詳解

初識Hadoop——Hadoop-1.2.1和Hadoop-2.7.1的配置以及常見問題分析

LeetCode(1)--Two Sum

LeetCode(3)--Longest Substring Without Repeating Characters

LeetCode(5)--Longest Palindromic Substring

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結