深入淺出Spark（四）：存儲系統

原創

2020-12-28 09:03

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"專題介紹"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"2009 年，Spark 誕生於加州大學伯克利分校的 AMP 實驗室（the Algorithms, Machines and People lab），並於 2010 年開源。2013 年，Spark 捐獻給阿帕奇軟件基金會（Apache Software Foundation），並於 2014 年成爲 Apache 頂級項目。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如今，十年光景已過，Spark 成爲了大大小小企業與研究機構的常用工具之一，依舊深受不少開發人員的喜愛。如果你是初入江湖且希望瞭解、學習 Spark 的“小蝦米”，那麼 InfoQ 與 FreeWheel 技術專家吳磊合作的專題系列文章——"},{"type":"link","attrs":{"href":"https:\/\/www.infoq.cn\/theme\/84","title":"","type":null},"content":[{"type":"text","text":"《深入淺出 Spark：原理詳解與開發實踐》"}]},{"type":"text","text":"一定適合你！"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文系專題系列第四篇。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"首先感謝各位看官在百忙之中來聽我說書，真是太給面子啦！在前文書"},{"type":"link","attrs":{"href":"https:\/\/www.infoq.cn\/article\/5aOHzQIaXX6NlHriLtSI","title":"xxx","type":null},"content":[{"type":"text","text":"《Spark調度系統之權力的遊戲》"}]},{"type":"text","text":"中咱們提到SparkContext的初始化就像是打開了潘多拉的盒子，宛如三十六天罡臨凡、七十二地煞降世，穩坐聚義廳頭三把交椅的是Spark調度系統的三位大佬。三位大佬通力配合最終將任務（代碼）分發到Executor，Executor則將分佈式任務封裝爲TaskRunner並交由線程池執行。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"籠統地說，任務執行的過程通常是將數據從一種形態轉換爲另一種形態，對於計算成本較高的數據形態，Spark通過緩存機制來保證作業的順利完成，今天咱們就來說說Spark的存儲系統，看看Spark存儲系統如何爲任務的執行提供基礎保障。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.infoq.cn\/resource\/image\/11\/8f\/11f55f2c71613366094e6d5b7347b38f.png","alt":null,"title":"","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","text":"SparkContext初始化"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"任何一個存儲系統要解決的關鍵問題無非是數據的存與取、收與發，不過，在去探討Spark存儲系統如何工作之前，咱們先來搞清楚Spark存儲系統中“存”的主要是什麼內容？總的來說，Spark存儲系統用於存儲3個方面的數據："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"RDD緩存"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Shuffle中間結果"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"廣播變量"}]}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

MySQL 核心模塊揭祕 | 15 期 | 事務模塊小結

✍ 專欄小結 1 月 3 日，我在社區發佈事務模塊的第一篇文章；4 月 17 日，發佈了最後一篇文章。歷時 3 個半月，用 14 篇文章對事務模塊做了比較全面的介紹。本文我們對事務模塊已經發布的 14 篇文章做個簡單回顧。 01 期《事

2024-04-24 23:20:56

一則 TCP 緩存超負荷導致的 MySQL 連接中斷的案例分析

除了 MySQL 本身之外，如何分析定位其他因素的可能性？作者：龔唐傑，愛可生 DBA 團隊成員，主要負責 MySQL 技術支持，擅長 MySQL、PG、國產數據庫。愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註

2024-04-24 23:20:53

離開工位老是忘記鎖屏？試着讓電腦自動完成這事吧！

1.場景說明公司要求離開工位要立刻鎖定電腦屏幕防止信息泄露，但無論是使用鎖屏快捷鍵還是設置觸發角，總感覺不得勁。想想汽車現在基本都是自動鎖車了，電腦它就不能自己鎖屏嗎？於是抽空蒐羅了一些自動化的解決方案，並按照Win和Mac進行分類。

2024-04-24 23:17:17

高可用 - 隔離原則

前言當討論高可用時，那麼必然有與之對應的低可用甚至不可用，但無論是哪種可用描述，其中都暗含了一個大衆共識，即不存在永久穩定運行的系統程序。事實上，幾十年前圖靈也論證過類似的問題，稱爲“停機問題”，具體的描述是：能否爲A計算機編程，使得

2024-04-24 23:17:13

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

DataGear 企業版 1.1.0 發佈，數據可視化分析平臺

DataGear 企業版 1.1.0 正式發佈，歡迎大家瞭解試用！ http://datagear.tech/pro/ 企業版 1.1.0 新增了MQTT、WebSocket實時數據集功能，新增了Redis、MongoDB數據集功能，具體更

2024-04-24 21:42:05

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

自學編程兩個月，現在我月入 4 萬元

這個外國小哥叫 Nico，他一開始是個編程小白，後來把自己關在房間裏花了兩個月時間學會了編程，如今正在開發一款名爲 Talknotes 的應用，可以將語音備忘錄轉化爲結構化的內容，月收入 5000 美元。 Nico 從高中畢業就開始創業，

2024-04-24 21:14:29

沙特2030年願景和對中國IT企業的市場機會分析

沙特2030年願景和對中國IT企業的市場機會分析前言：最近“開源老DJ，帶你去沙特”欄目第一期已經播出，收到了不錯的反響。見COPU官網的回顧。（https://mp.weixin.qq.com/s/3B0jNVhybxTF1xPiy

2024-04-23 22:24:54

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

RAG 修煉手冊｜如何評估 RAG 應用？

如果你是一名用戶，擁有兩個不同的 RAG 應用，如何評判哪個更好？對於開發者而言，如何定量迭代提升你的 RAG 應用的性能？顯然，無論對於用戶還是開發者而言，準確評估 RAG 應用的性能都十分重要。然而，簡單的幾個例子對比並不能全面衡量

2024-04-23 21:20:22

Xmake v2.9.1 發佈，新增 native lua 模塊和鴻蒙系統支持

Xmake 是一個基於 Lua 的輕量級跨平臺構建工具。它非常的輕量，沒有任何依賴，因爲它內置了 Lua 運行時。它使用 xmake.lua 維護項目構建，相比 makefile/CMakeLists.txt，配置語法更加簡潔直觀，

2024-04-23 12:10:57

03-爲啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

MyDumper “喜歡” 觸發器麼？

是的，但現在它更“喜歡”它們，原因如下。介紹使用 LIKE 子句過濾特定表中的觸發器或視圖很常見。但是，它可能會欺騙您，特別是如果您看不到輸出（即在非交互式會話中）。讓我們看一個簡單的例子，以及如何以更可靠的方式處理任務。還有一個指向

2024-04-22 23:19:50

雲原生週刊：Kubernetes v1.30 發佈｜ 2024.4.22

開源項目推薦 pv-migrate pv-migrate 是一個 CLI 工具/kubectl 插件，可輕鬆將一個 Kubernetes 的內容遷移 PersistentVolumeClaim 到另一個 Kubernetes。 Claudi

2024-04-22 22:46:27

24小時熱門文章

最新文章

最新評論文章