spark分布式的相关学习笔记

原創

2020-06-24 03:01

driver完成所有任务的调度和executor与cluster之间的协调。
分为client和cluster模式。client模式是指driver在任务提交的机器上运行，cluster模式是指随机选择一台机器执行。
job是指脚本中的action，一个action对应了一个job（transformation不会对应一个job）
stage组成action/job。一个job可以对应了多个stage。一个job中划分stage的重要依据是是否又shuffle发生，也就是是否会发生数据的重新组织。
一个stage又会被划分成多个task进行执行，只有在同一个stage中的所有task结束后才能执行下一个stage中的task。
task是spark中的执行单元。一个task由集群上某个节点上的某个executor执行。
一个节点由多个executor组成；一个executor由多个core组成；一个core一次只能执行一个task；每个task执行的结果就是生成目标RDD的一个partition。

file是指输入的数据，一般是以文件的方式存储在HDFS上。
block是指每一个file包含的块。
spark在读取files的时候会根据具体数据格式对应的input format来进行解析，一般是将多个block合并成为一个输入分片，成为inputsplit。然后将这些输入分片生成具体的task，inputsplit和task时一一对应的关系。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

超透镜消色差方法理解与总结

個人針對目前的理解水平進行總結 Metalens achromatic： 1、隸屬領域：衍射元件消色差，通過相位調控 2、衍射元件色散原因：焦距與入射波長成反比，導致各波長對應的焦距不等；對應菲涅爾透鏡相位理解來說，即對於同一個結構，不同

2020-07-08 07:56:09

Fast Image Deconvolution using Hyper-Laplacian Priors-文章和代码下载网址

不用花積分了，不用被信息差導致積分浪費了 https://dilipkay.wordpress.com/fast-deconvolution/

2020-07-08 07:55:55

win10修改配置的git账号密码

打開控制面板點擊用戶賬戶點擊管理windows憑據找到對應的網址，點擊刪除在繼續操作直到再次提示輸入git的賬號密碼

2020-07-07 14:11:35

jpress(jfinal) render渲染不出来，前端提示操作失败，后端无提示

頁面提示：接口代碼：控制檯：找了好半天原因，最後發現是ajax的問題前端錯誤ajax: 改爲不使用ajax: render成功！

2020-07-07 13:32:03

yml方式配置dubbo+zookeeper踩坑记录

嘗試使用yml方式配置dubbo，被網上的教程坑了，特此記錄（更坑的是spring.dubbo.xxx在提示裏是存在的，然而運行時不認啊QAQ）正確配置方法： server: port: 8085 dubbo: ap

2020-07-07 13:32:02

potplayer视频被放大，只能看到中央小部分画面

常用的potplayer視頻軟件突然出了問題情況如圖所示：視頻被很奇怪的放大了，而且窗口只顯示原本視頻中的一小塊前一天可以正常播放，但今天打開就是這種樣子了嘗試解決思路: 1.嘗試用系統自帶的播放器和qq影音播放器，都沒有

2020-07-07 13:32:02

理解SWT/JFace中的Display与Shell

Display用來連接操作系統：需要在程序的最開始創建 Display display=new Display(); 在程序結束後要記得銷燬display display.dispose(); Shell可以簡單理解爲一個

2020-07-07 13:32:02

maven删除仓库中所有下载失败的文件(.lastUpdated结尾文件)

因爲網絡中斷或其他原因，Maven經常會生成以.lastUpdated結尾的文件。這些文件會佔據原本要下載的.jar文件的位置，導致項目一直提示錯誤且無法自動下載依賴，直到去倉庫手動刪除掉才能重新下載以下是一種簡單的批量刪除.

2020-07-07 13:31:51

jpress 模板开发：代码重用

jpress 模板開發使用JFinal的Enjoy技術如果有重複出現的代碼，可以將html代碼進行封裝：封裝語法： #define 自定義名稱()  #end 使用封裝後代碼的語法： #@自定義名稱(

2020-07-07 13:31:50

django2.0记录基于RBAC的权限访问限制中间件

django2.0記錄基於RBAC的權限訪問限制中間件背景介紹目的實現思路後端實現代碼背景介紹 python3環境,前後端不分離,前端使用bootstrap2框架,後端使用django2.0框架,只是個人日常記錄,僅供參考目

Alittlecode1216

2020-07-06 20:49:41

django2.0记录分页封装

django2.0 分頁封裝背景介紹前端代碼後端實現代碼後端視圖調用背景介紹 python3環境,前後端不分離,前端使用bootstrap2框架,後端使用django2.0框架,包含分頁前端代碼以及後端實現,只是個人日常記錄,僅

Alittlecode1216

2020-07-06 20:49:41

django2.0记录使用登录装饰器实现访问限制及类视图使用装饰器

django2.0記錄使用登錄裝飾器實現訪問限制及類視圖使用裝飾器背景介紹目的實現思路前端代碼後端實現代碼django爲類視圖添加登錄裝飾器的方法第一種：直接在url上下手。第二種：使用method_decorator裝飾器說明

Alittlecode1216

2020-07-06 20:49:41

SVN访问被拒绝，删除修改eclipse中svn的账号密码

報錯信息 svn: E175002: connection refused by the server svn: E175002: OPTIONS request failed on '/svn/ztproject/trunk/

2020-07-06 11:55:06

eclipse使用debug模式启动不起来

問題：在server中正常啓動tomcat是沒問題的,javaweb項目也可正常訪問，使用debug模式啓動的話速度特別慢，而且等一會就會提示超時並自動停止tomcat服務。解決辦法：進debug模式把所有斷點移除重啓即可

2020-07-06 11:55:06

Tomcat配置Context 标签以后Tomcat启动不了

因爲項目要訪問本地硬盤的文件所以要去Tomcat的server.xml裏配置Context ， <Context path="/image" docBase="F:\file\image" debug="0" reloadable="tr

2020-07-06 11:55:06

24小時熱門文章

最新文章

最新評論文章