1.從Scala中理解閉包

閉包是一個函數，返回值依賴於聲明在函數外部的一個或多個變量。閉包通常來講可以簡單的認爲是可以訪問一個函數裏面局部變量的另外一個函數。

如下面這段匿名的函數：

val multiplier = (i:Int) => i * 10

函數體內有一個變量 i，它作爲函數的一個參數。如下面的另一段代碼：

val multiplier = (i:Int) => i * factor

在 multiplier 中有兩個變量：i 和 factor。其中的一個 i 是函數的形式參數，在 multiplier 函數被調用時，i 被賦予一個新的值。然而，factor不是形式參數，而是自由變量，考慮下面代碼：

var factor = 3  val multiplier = (i:Int) => i * factor

這裏我們引入一個自由變量 factor，這個變量定義在函數外面。

這樣定義的函數變量 multiplier 成爲一個"閉包"，因爲它引用到函數外面定義的變量，定義這個函數的過程是將這個自由變量捕獲而構成一個封閉的函數

完整的例子：

object Test {  
   def main(args: Array[String]) {  
      println( "muliplier(1) value = " +  multiplier(1) )  
      println( "muliplier(2) value = " +  multiplier(2) )  
   }  
   var factor = 3  
   val multiplier = (i:Int) => i * factor  
}

2.Spark中的閉包理解

先來看下面一段代碼：

val data=Array(1, 2, 3, 4, 5)
var counter = 0
var rdd = sc.parallelize(data)

// ？？？？ 這樣做會怎麼樣
rdd.foreach(x => counter += x)

println("Counter value: " + counter)

首先肯定的是上面輸出的結果是0，park將RDD操作的處理分解爲tasks，每個task由Executor執行。在執行之前，Spark會計算task的閉包。閉包是Executor在RDD上進行計算的時候必須可見的那些變量和方法（在這種情況下是foreach()）。閉包會被序列化併發送給每個Executor，但是發送給Executor的是副本，所以在Driver上輸出的依然是counter本身，如果想對全局的進行更新，用累加器，在spark-streaming裏面使用updateStateByKey來更新公共的狀態。

另外在Spark中的閉包還有別的作用，

1.清除Driver發送到Executor上的無用的全局變量等，只複製有用的變量信息給Executor

2.保證發送到Executor上的是序列化以後的數據

比如在使用DataSet時候 case class的定義必須在類下，而不能是方法內，即使語法上沒問題，如果使用過json4s來序列化，implicit val formats = DefaultFormats 的引入最好放在類下，否則要單獨將這個format序列化，即使你沒有使用到它別的東西。

3.總結

閉包在Spark的整個生命週期中處處可見，就比如從Driver上拷貝的所有數據都需要序列化 + 閉包的方式到Executor上的。

吳邪，小三爺，混跡於後臺，大數據，人工智能領域的小菜鳥。
更多請關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據開發-Spark-閉包的理解

1.從Scala中理解閉包

2.Spark中的閉包理解

3.總結

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

使用Nginx做頁面採集, Kafka收集到對應Topic_6XwWe5qWHGM2PojVPUSejM

大數據開發-從Scala到Akka併發編程_jDW32G3c87fjEBtYNE7Z7f

大數據實戰-Hive-技巧實戰_2LgaeiFwLs7mCTwG5T3c9M

大數據開發-Go-新手常遇問題

大數據開發-Go-數組，切片

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結