圖解Spark原理之memoryStore如何管理內存的寫入

原創

2020-07-04 04:40

首先回顧一下memoryStore是做什麼的。
他主要是將沒有序列化的java對象數組或者序列化的byteBuffer放到內存中。
但是這就涉及到一些內存管理的問題，如果放不下，是不是要放磁盤？什麼時候認爲放不下？這裏會一一解讀。

MemoryStore的putIterator

這個方法是把一堆values的數組內容放入內存中（本質上就是放到Map<blockId, blockEntry>中。
如果發現內存足夠，能夠申請，則調用putArray把數據寫入內存（就是放到map中），否則就去調用diskStore的接口寫入磁盤中。

這裏我先打住，不直接往下講，而是給自己假設場景，如果是自己在開發計算引擎，寫executor裏的block緩存，肯定需要思考這個問題：

什麼時候認爲內存是足夠的？

最簡單的一個做法：

我給每個memoryStore設定一個閾值MaxMemory，
維護一個值currentMemory，這個值就是memoryStroe裏那個Map<BlockId,memoryEntry>所佔的大小。
然後遍歷計算一下輸入參數values所佔的內存大小 needMemory
如果needMemory > maxMemory - currentMemory，則認爲內存不足，寫入到磁盤。

這個做法相當於直接把整個values大小都計算好之後，如果ok，馬上進行寫入內存操作。
如果是memoryStore是單線程的模塊那ok，但如果這個putIterator是一個支持多線程寫入的模塊呢？
當我覺得100M足夠，我寫入，可能得花10s，然後另外一個線程也覺得100M足夠，也要寫入，結果寫到一半發現內存不夠，就尷尬了。
因此問題變爲：

多線程時，如果確保計算的內存量是有效的？

一種方式，就是每次確定要寫入時，把要寫入的這100M的量直接加到currentMemory中。後面的線程要判斷時，直接拿最新的curentMemory判斷。
但實際上這個數據並沒有真正寫入map中，有可能中間出現寫入失敗或者線程中斷，那這時候已經被處理過的currentMemory就不好搞了。

所以引入一個概念，叫展開內存unrollMemory。
每個線程都有自己的unrollMemory，可以理解爲該線程準備寫入到內存中的大小。
因此我們統計剩餘可寫入內存時，實際上是等於 MaxMemory - currentMemory - 所有線程unrollMemory總和。

但是我們又不能讓線程展開的這個值正好把剩餘內存佔滿，所以會設定一個展開內存總和maxUnrollMemory，替代MaxMemory。
因此此時我這個線程可用的剩餘內存space，實際上爲
maxUnrollMemory - cyrrentUnrollMemory。

但問題又來了，如果我們假想的可分配內存比實際剩餘內存小，怎麼辦？如下圖:

一種方式，是發現假想剩餘內存小於實際剩餘內存時，認爲內存不足，把數據寫入磁盤。
但有個問題，假設我需要寫入100M，實際剩餘內存是98M，其實只差了2M，那爲什麼不能擠擠呢？只差2M了啊哥！

然而我肯定不能去動其他線程的unrollMemory，畢竟人家都認爲自己是ok的準備寫入了，你總不能插隊吧？如果能動其他線程準備寫入的數據，這管理就太複雜了。
因此我們需要去已使用內存MemoryEntry裏面找，找一下是不是有比較小的block塊，比如有一個塊只有5M，那我就把這個block塊放入磁盤，那麼我就可以塞進去了！

解答完上述問題後，再學習memoryStore的內存寫入管理機制，就容易多了。