Spark操作——控制操作

原創

2020-05-23 18:12

cache(): RDD[T]
persist(): RDD[T]
persist(level: StorageLevel): RDD[T]

cache和persist操作都是對RDD進行持久化，其中cache是persist採用MEMORY_ONLY存儲級別時的一個特例，

scala> var rdd = sc.textFile("/Users/lyf/Desktop/data.txt")
rdd: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[57] at textFile at <console>:24

scala> rdd.cache()
res38: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[57] at textFile at <console>:24

// 第一次計算行數，這裏只能從本地文件讀取數據，不能從內存
scala> rdd.count()
res39: Long = 4

// 第二次計算，則是從內存中讀取數據
scala> rdd.count()
res40: Long = 4

scala> var rdd = sc.textFile("/Users/lyf/Desktop/data.txt")
rdd: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[59] at textFile at <console>:24

scala> rdd.persist()
res41: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[59] at textFile at <console>:24

scala> rdd.count()
res42: Long = 4

scala> rdd.count()
res43: Long = 4

StorageLevel有以下幾種

級別	使用空間	CPU時間	是否在內存	是否在磁盤	備註
MEMORY_ONLY	高	低	是	否	數據只放在內存中
MEMORY_ONLY_2	高	低	是	否	持久化2份數據
MEMORY_ONLY_SER	低	高	是	否	數據序列化後存人內存
MEMORY_ONLY_SER_2	低	高	是	否	持久化2份數據
MEMORY_AND_DISK	高	中	部分	部分	如果數據在內存中放不下，則溢寫到磁盤
MEMORY_AND_DISK_2	高	中	部分	部分	持久化2份數據
MEMORY_AND_DISK_SER	低	高	部分	部分	如果數據在內存中放不下，則溢寫到磁盤。內存中存放序列化後的數據
MEMORY_AND_DISK_SER_2	低	高	部分	部分	持久化2份數據
DISK_ONLY	低	高	否	是	數據只存入磁盤
DISK_ONLY_2	低	高	否	是	持久化2份數據

unpersist(): RDD[T]

與persist相反，該操作可以手動將持久化的數據從緩存中移除

scala> var rdd = sc.textFile("/Users/lyf/Desktop/data.txt")
rdd: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[59] at textFile at <console>:24

scala> rdd.persist()
res41: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[59] at textFile at <console>:24

scala> rdd.unpersist()
res44: org.apache.spark.rdd.RDD[String] @scala.reflect.internal.annotations.uncheckedBounds = /Users/lyf/Desktop/data.txt MapPartitionsRDD[59] at textFile at <console>:24

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark操作——控制操作

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

Spark操作——行動操作(一)

Zookeeper架構淺析

IDEA Maven項目利用Junit4進行單元測試

Supervisor配置文件淺析

Redis未授權訪問漏洞介紹及修復方案

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結