Spark學習筆記(一)

原創

2020-02-24 15:46

Spark知識掌握
第一階段
要熟練掌握Scala的trait、apply、函數式編程、泛型、逆變與協變等；

第二階段: 精通Spark平臺本身提供給開發者API

1，掌握Spark中面向RDD的開發模式，掌握各種transformation和action函數的使用；

2，掌握Spark中的寬依賴和窄依賴以及lineage機制；

3，掌握RDD的計算流程，例如Stage的劃分、Spark應用程序提交給集羣的基本過程和Worker節點基礎的工作原理等

第三階段：深入Spark內核

此階段主要是通過Spark框架的源碼研讀來深入Spark內核部分：

1，通過源碼掌握Spark的任務提交過程；

2，通過源碼掌握Spark集羣的任務調度；

3，尤其要精通DAGScheduler、TaskScheduler和Worker節點內部的工作的每一步的細節；

第四階級:掌握基於Spark上的核心框架的使用

Spark作爲雲計算大數據時代的集大成者，在實時流處理、圖技術、機器學習、NoSQL查詢等方面具有顯著的優勢，我們使用Spark的時候大部分時間都是在使用其上的框架例如Shark、Spark Streaming等：

1，Spark Streaming是非常出色的實時流處理框架，要掌握其DStream、transformation和checkpoint等；

2，Spark的離線統計分析功能，Spark 1.0.0版本在Shark的基礎上推出了Spark SQL，離線統計分析的功能的效率有顯著的提升，需要重點掌握；

3，對於Spark的機器學習和GraphX等要掌握其原理和用法；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

整理一些Spark數據傾斜解決的思路

項目中經常會使用到Spark進行批處理，數據量大的時候總是會遇到數據傾斜的情況，參考了項目中遇到的情況以及網上的一些案例，寫篇文章來總結下如何處理Spark中常見的數據傾斜問題。當然由於業務場景不一樣，本文說到的一些解決數據傾斜的

淡定一生2333

2020-07-02 07:35:58

Spark學習筆記（RDD編程基礎）

1. RDD創建　 spark core 從文件讀取　 >>> lines = sc.textFile("file:///user/data_path") # local Scala> val lines = sc.textFile("

2020-06-26 05:05:56

Spark學習筆記（基本概念與環境部署）

21/08/2019 10.Spark概述 spark速度快的原因 1.內存計算 2.有向無環圖通用性很強：以前需要1.SQL查詢：spark SQL實現 2.流式計算：spark stremming 實

2020-06-26 05:05:56

IDEA中直接提交Spark任務

記錄下如何在Widows下的IDEA中直接提交Spark on yarn任務。由於項目使用的是Spring Boot，這裏提交任務指的是在IDEA中啓動Spring Boot工程，然後發送一個Rest請求，觸發Spark on y

淡定一生2333

2020-06-22 23:04:51

Spark數據傾斜如何解決

項目中經常會使用到Spark進行批處理，數據量大的時候總是會遇到數據傾斜的情況，參考了項目中遇到的情況以及網上的一些案例，寫篇文章來總結下如何處理Spark中常見的數據傾斜問題。當然由於業務場景不一樣，本文說到的一些解決數據傾斜的

淡定一生2333

2020-06-22 21:18:39

(七)Spark源碼理解之TaskScheduler----part6

恩。。。。由於最近這段時間都在實習以及找工作，因此就將博客給落下了，現在繼續將spark的部分"搬上"。。PS:雖然我自己也忘得差不多了。。 4.Executor Executor類完成任務的裝載，任務的運行等功能，它有個變量爲Exec

2020-06-22 07:57:58

(七)Spark源碼理解之TaskScheduler----part4

resourceOffers()：該方法是TaskSchedulerImpl的核心所在，實現將任務指定給對應的從節點中的executor，其主要思路可以概述爲：首先將獲取的每個executor的資源，組成組成WorkerOffer序列，

2020-06-22 07:57:58

SparkCore學習筆記（一）

2017/1/10 8:27 Spark架構原理 **概念詞彙：**Application，Application Jar，Driver program（驅動程序）、Cluster Manager（管理集羣資源的外部服務）、Dep

2020-06-22 07:19:00

Windows報Failed to locate the winutils binary in the hadoop binary path，java.io.IOException:

版權聲明：未經允許，隨意轉載，請附上本文鏈接謝謝（づ￣3￣）づ╭❤～ http://blog.csdn.net/xiaoduan_/article/details/79476815 Windows平臺上運行hadoop與spa

2020-06-16 06:40:21

SparkSQL中SQL、DataFrame和DataSet方式的靜態類型安全和運行時類型安全

版權聲明：未經允許，隨意轉載，請附上本文鏈接謝謝（づ￣3￣）づ╭❤～ https://blog.csdn.net/xiaoduan_/article/details/79751755 SQL、DataFrame和DataSet

2020-06-16 06:40:11

Scala學習——尾遞歸

在尾遞歸中，函數可以調用自身，並且該調用時函數的最後一個（“尾部”）操作。尾遞歸時能把函數優化爲循環的重要的一種遞歸。循環可以消除潛在的棧溢出的風險，同時也因爲消除了函數調用開銷而提升了效率。尾遞歸函數中所有遞歸形式的調用都出現在函數的末

不想当小白

2020-06-09 04:56:15

Scala中fold()操作和reduce()操作的區別

reduce()——規約操作，包含reduceLeft()和reduceRight()兩種操作。 fold()——摺疊操作，包含foldLeft()和foldRight()兩種操作。兩者功能相似，不同之處在於： fold()操作需要從一

不想当小白

2020-06-09 04:56:15

windows系統下pycharm遠程訪問linux系統下jupyter notebook，並調用spark平臺（五）pycharm調用juypter notebook

一，anaconda安裝本例使用的是Anaconda3-5.3.1-Linux-x86_64.sh，放在/opt文件夾下首先，安裝anaconda 一直點回車，直到有詢問，輸入yes 查詢anaconda版本至此anacond

2020-06-08 09:33:01

Spark wordcount - Python, Scala, Java

基於Spark實現的Python, Scala, Java三個版本的、經典的分佈式單詞計數代碼。 1. Scala val input = sc.textFile("hdfs://...") val words = input.flat

2020-06-08 00:34:23

數值RDD的操作算子

Spark 對包含數值數據的RDD 提供了一些描述性的統計操作。Spark 的數值操作是通過流式算法實現的，允許以每次一個元素的方式構建出模型。這些統計數據都會在調用stats() 時通過一次遍歷數據計算出來，並以StatsCounter

2020-06-08 00:34:23

24小時熱門文章

最新文章

最新評論文章