spark數據緩存到內存中的方法

原創

2020-06-29 05:26

RDD.cache() 或RDD.persist

1.1. RDD的緩存

Spark速度非常快的原因之一，就是在不同操作中可以在內存中持久化或緩存數據集。當持久化某個RDD後，每一個節點都將把計算的分片結果保存在內存中，並在對此RDD或衍生出的RDD進行的其他動作中重用。這使得後續的動作變得更加迅速。RDD相關的持久化和緩存，是Spark最重要的特徵之一。可以說，緩存是Spark構建迭代式算法和快速交互式查詢的關鍵。

1.1.1. RDD緩存方式

RDD通過persist方法或cache方法可以將前面的計算結果緩存，但是並不是這兩個方法被調用時立即緩存，而是觸發後面的action時，該RDD將會被緩存在計算節點的內存中，並供後面重用。

通過查看源碼發現cache最終也是調用了persist方法，默認的存儲級別都是僅在內存存儲一份，Spark的存儲級別還有好多種，存儲級別在object StorageLevel中定義的。

緩存有可能丟失，或者存儲存儲於內存的數據由於內存不足而被刪除，RDD的緩存容錯機制保證了即使緩存丟失也能保證計算的正確執行。通過基於RDD的一系列轉換，丟失的數據會被重算，由於RDD的各個Partition是相對獨立的，因此只需要計算丟失的部分即可，並不需要重算全部Partition。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

網頁爬蟲開發：使用Scala和PhantomJS訪問知乎

引言隨着大數據時代的到來，網頁爬蟲作爲一種高效的數據收集工具，被廣泛應用於互聯網數據抓取和信息抽取。而知乎是一個知識分享平臺，擁有大量的用戶生成內容。通過爬蟲獲取知乎數據，企業和研究人員可以進行深入的數據分析和市場研究，瞭解用戶的需求

2024-05-31 00:11:23

構建無服務器數倉（三）EMR Serverless 操作要點、優化以及開放集成測試

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方工

2024-05-23 21:22:10

Flink1.12 文檔

API 移除掉 ExecutionConfig 中過期的方法移除掉了 ExecutionConfig#isLatencyTrackingEnabled 方法, 你可以使用 ExecutionConfig#getLatencyTracki

2024-05-13 21:17:28

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

京東雲“智能編碼”上線了！免費試用

智能編碼JoyCoder 是一款基於大語言模型、適配多種 IDE 的智能編程助手，可以爲研發人員提供代碼預測續寫、UI 草圖轉前端代碼、生成單元測試、代碼安全漏洞自動識別及修復、一鍵生成接口文檔、AI 智能問答等功能。助力開發者高效、流暢、

2024-04-02 23:16:35

05-快速理解SparkSQL的DataSet

1 定義一個數據集是分佈式的數據集合。Spark 1.6增加新接口Dataset，提供 RDD的優點：強類型、能夠使用強大lambda函數 Spark SQL優化執行引擎的優點可從JVM對象構造Dataset，然後函數式轉換（map

2024-03-25 02:48:38

Apache Linkis 1.3.0 適配華爲MRS+Scriptis 實戰分享

一、概述團隊有需求要在頁面上同時使用sql和python語法對數據進行分析，在調研過程中發現linkis可以滿足需要，遂將其引入內網，由於使用的是華爲MRS，與開源的軟件有所不同，又進行了二次開發適配，本文將分享使用經驗，希望對有需

2024-02-23 21:45:28

常用scala函數

1、迭代 https://www.runoob.com/scala/scala-iterators.html 2、遞歸 https://www.runoob.com/scala/recursion-functions.html 3、

2023-07-18 23:06:46

一種新的流：爲 Java 加入生成器(Generator)特性

作者：文鐳(依來) 前言這篇文章不是工具推薦，也不是應用案例分享。其主題思想，是介紹一種全新的設計模式。它既擁有抽象的數學美感，僅僅從一個簡單接口出發，就能推演出龐大的特性集合，引出許多全新概念。同時也有紮實的工程實用價值，由其實現的工具

2023-04-25 09:13:40

TypeScript 的泛型化常用技巧

類型推導目前 TS 的類型推導，仍不算完美。假定我們想做一個類似 useFetch / useLoader 這樣的封裝，思維的習慣會聚焦在 Query / Result 這兩個類型上（就是 Input/Ouput），但圍繞這兩個類型做函數

2023-01-15 13:01:25

Similarities and Difference between Java and C++

Nowadays Java and C++ programming languages are vastly used in competitive coding. Due to some awesome features, these t

2022-04-30 11:24:52

圖數據庫｜基於 Nebula Graph 的 Betweenness Centrality 算法

本文首發於 Nebula Graph Community 公衆號在圖論中，介數（Betweenness）反應節點在整個網絡中的作用和影響力。而本文主要介紹如何基於 Nebula Graph 圖數據庫實現 Betweenness C

2022-04-30 06:40:12

Chisel3 AXI4-{Lite, Full, Stream} Definitions

https://github.com/nhynes/chisel3-axi Axi.scala Initial commit 3 years ago AxiLite.scala Initi

2021-12-28 21:17:55

flink 提交到本地local集羣上運行的pom 和代碼

POM文件 <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the

2021-12-25 21:46:52

24小時熱門文章

lightdb hash index的性能和限制

最新文章

最新評論文章