Spark編程模型

原創

所谓的所谓

2018-09-15 00:28

hadoop的mapreduce計算過程：

input ->map -partitions-merge-reduce-output

mapReduce慢的原因：頻繁的寫磁盤導致額外的複製以及IO開銷

Spark：

Spark核心概念
	術語	解釋
0	Application	基於Spark的用戶程序，包含了driver和集羣上的executer
1	Driver Program	運行main函數並且新建SparkContext的程序
2	Executor	在一個worker node上爲某應用啓動的一個進程，該進程負責運行任務，兵器負責將數據存在內存或者磁盤上，每個應用都有各自獨立的exectors
3	Cluster Manager	在集羣上獲取資源的外部服務
4	worker Node	集羣中可以任何運行引用代碼的節點
5	Task	被送到某個exector上的工作單元
6	Job	包含很多任務的並行運算，可以看做和spark的action對應
7	Stage	Job會被拆分爲很多組任務，每組任務被稱爲stage

Application的組成：由0-7組成

核心概念

RDD

窄依賴，一系列的轉換操作，下一個rdd依賴的父rdd只有1個

寬依賴，下一個rdd依賴的父RDd大於1個

優缺點：窄依賴放在一個節點操作，可以提高執行效率

partition爲最小單位，分片。哪一步出錯，返回父rdd重新執行即可，這就是spark的容錯性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

解密Prompt系列31. LLM Agent之從經驗中不斷學習的智能體

Agent智能體的工作流可以簡單分成兩種：一種是固定的靜態工作流，一種是智能體自主決策的動態工作流。靜態流程的Agent舉幾個例子，例如新聞熱點追蹤推送Agent，每日新論文摘要總結Agent，它們的優點是可控，穩定，可復現，缺點是一種流

風雨中的小七

2024-06-11 14:22:16

第十二節：MySQL8.x版本新特性和變化

一. 二. 三. ! 作者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com

2024-06-11 14:21:36

杭州的 IT 崩盤了麼？

大家好，我是R哥。今天分享一個爽飛了的面試輔導 case：這個杭州兄弟空窗期 1 個月+，面試了 6 家公司 0 Offer，不知道問題出在哪，難道是杭州的 IT 崩盤了麼？報名面試輔導後，經過一個多月的輔導打磨，現在成功入職某上市

2024-06-11 14:21:26

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

　　《Windows Azure Platform 系列文章目錄》　　部署環境：　　1.我們只有1個訂閱，1個Virtual Network 　　2.我們有1個Hub-VNet, 在Virtual Network上設置了DNS Se

Lei Zhang的博客

2024-06-11 14:20:36

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

vs2022開發工具最低支持net4.8，以下的如net3.5、4.0、4.5項目，加載不上怎麼處理。一、下載.NET Framework框架 .NET Framework 4.5.2 .NET Framework 4.5.1 .NET

鄭州-在路上

2024-06-11 14:20:26

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

大家好，我是貓哥，今天給大家分享幾個高質量的技術類信息源。本文分享的信息源都是週刊類型的，所謂週刊類，就是以固定每週的頻率更新，每期分享很多精華內容的鏈接。它的特點是信息密度極高，可以節省你去查找信息的時間，高效的學習者都會喜歡這類內容。

豌豆花下貓

2024-06-11 14:19:16

統計vertica表的行數

select anchor_table_schema || '.' || anchor_table_name as table_name, row_countfrom PROJECTION_STORAGEorder by row_co

卡卡西村長

2024-06-11 14:19:16

開源高性能結構化日誌模塊NanoLog

最近在寫數據庫程序，需要一個高性能的結構化日誌記錄組件，簡單研究了一下Microsoft.Extensions.Logging和Serilog，還是決定重造一個輪子。一、使用方法直接參考以下示例代碼: NanoLogger.St

2024-06-11 14:18:16

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

目錄錯誤原因解決方案 app.config.globalProperties 用法坑Vue，多環境配置 https://www.cnblogs.com/vipsoft/p/16696640.html main.js import conf

2024-06-11 14:15:15

Vue 打包 Error: error:0308010C:digital envelope routines::unsupported

這個錯誤通常與Node.js的加密模塊和OpenSSL版本有關出現這個錯誤是因爲 node.js V17版本中最近發佈的OpenSSL3.0, 而OpenSSL3.0對允許算法和密鑰大小增加了嚴格的限制，可能會對生態系統造成一些影響. j

2024-06-11 14:15:05

Windows 允許空密碼遠程桌面

Windows 允許空密碼遠程桌面開啓遠程修改策略輸入命令 secpol.msc 本地策略 -> 安全選項 -> 帳戶：使用空密碼的本地帳戶只允許進行控制檯登錄

2024-06-11 14:15:05

dubbo~全局異常攔截器的使用與設計缺陷~續

上一次的介紹，主要圍繞如何統一去捕獲異常，以及爲每一種異常添加自己的Mapper實現，並且我們知道，當在ExceptionMapper中返回非200的Response，不支持application/json的響應類型，而是寫死的text/p

2024-06-11 14:12:35

如何安全地訪問互聯網

當你深夜在瀏覽器中輸入 www.baidu.com 時有沒有想過，除了月黑風高的夜和本機的瀏覽記錄，還有誰知道你訪問了它呢？要搞清楚這件事，首先我們要了解一下訪問網站時，這其中發生了什麼。如果你在 10 年之前訪問網站，大概率會在瀏覽器的

2024-06-11 14:08:15

前端使用 Konva 實現可視化設計器（14）- 折線 - 最優路徑應用【代碼篇】

話接上回《前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】》，這一章繼續說說相關的代碼如何構思的，如何一步步構建數據模型可供 AStar 算法進行路徑規劃，最終畫出節點之間的連接折線。請大家動動小手，給

2024-06-11 14:08:05

[快速閱讀七] Halcon裏emphasize函數相關資料.

　　時不時有人問我我的SSE優化Demo裏emphasize（邊緣強調）的原理是啥，有沒有寫博客，其實不是我不願意寫博客，而是那個東西太過於簡單，我不想寫博客。但是耐不住問的人多了，我就乾脆複製點資料放在博客裏吧，省的每次我還要去找點資料複

2024-06-11 14:08:05

24小時熱門文章

最新文章

最新評論文章