Redis進階:爲什麼整數集升級後不能再進行降級操作? 前言 基本結構 何時使用intset intset 添加元素 類型變動

前言

整數集合相信有的同學沒有聽說過,因爲redis對外提供的只有封裝的五大對象!而我們本系列主旨是學習redis內部結構。內部結構是redis五大結構重要支撐!

前面我們分別從redis內部結構分析了redis的List、Hash、Zset三種數據結構了。今天我們再來分析set數據結構內部是如何存儲的

基本結構

  • 在src/t_set.c中我們發現這樣一段代碼
  • 由此我們可知在set中是由兩種數據結構構成的: hashtable+intset 。hashtable不是我們今天的主角,我們今天先分析intset俗稱整數集合。
  • 從上圖中我們可以看出,我構造了兩個set集合分別爲【commonset】、【cs】。兩個集合前者存儲字符串、後者專門存儲數字。
  • 我們在通過object encoding key 來查看下兩個集合的底層數據結構,發現一個是hashtable 一個是intset 。這也驗證了我們上面對set基本結構的描述。
  • 在redis中對外提供五大類型實際上都是redis的一個抽象對象叫做redisobject。在內部映射了我們redis內部的數據結構
  • 針對commonset和cs兩個集合在內部數據結構大概可以這麼理解

何時使用intset

  • 你可以單純地認爲只要是數字就會使用intset結構來存儲,我恐怕要給你當頭一棒了。實際上並不是這樣的
  • 需要同時滿足以下兩個條件:

intset

  • 圖中表示得很清楚了,在intset中的encoding有三種取值分別代表contents保存數據類型。這裏有人可能會有疑問了contents的類型不就是int8_t嗎?爲什麼還需要encoding呢?這裏通過源碼跟蹤內部的確跟int8_t沒啥關係。而且數據的默認類型就是int16_t 。關於length這裏無需太多解釋,記住一點表示contents元素的個數並非表示contents數組的長度!
  • 瞭解intset的同學都知道在encoding三種取值範圍中涉及了升級的操作!在講升級之前我們先來了解下C、C++中int的取值範圍是如何定義的
  • int8_t的取值範圍是【-128,127】 。 類似於java中byte佔1個字節也就是8位。它的取值範圍是

−27∼27−1即−128∼127-2^{7} \sim 2^{7}-1 \ 即 \ -128 \sim 127−27∼27−1即−128∼127

添加元素

sadd juejin -123
sadd juejin -6
sadd juejin 12
sadd juejin 56
sadd juejin 321 
  • juejin這個key內部就是intset 。
  • 上面我們添加了5個元素且這五個元素的長度都在16之內!所以當前的intset的encoding=INTSET_ENC_INT16。-123在contents中佔前16位。
  • 所以當前五個元素佔contents的長度是16*5=80 ;
  • 注意set在存儲int類型數據時,內部是按照從小到大的順序存儲的。

類型變動

  • 上面的問題不知道你有沒有考慮過,或者說有沒有遇到過!intset默認是int16位,正如我們上面添加的五個元素。加入此時我們添加第6個元素是65535(32位)。那麼此時16位的長度就不夠存儲了這個時候intset會怎麼做!
  • 另外當我們添加第6個元素後又將65535刪除了之後,結構和添加之前是否一樣!下面我們帶着這兩個問題來一探究竟!!!

升級

  • 首先我們針對第一個問題來看看。原來五個元素都是16位就可以滿足了,這個時候添加的65535是32位長度的。那麼是不是可以直接追加32位分配給65535呢?
  • 答案是肯定不行,首先直接追加無法保證數組元素的大小順序!其次如果前五個分別是16位,第6個是32位那麼在intset結構中沒有多餘的字段來進行標記。也就是說在解析的時候就無法判斷應該解析16位還是32位了.
  • redis爲了方便解析所以在有高長度加入時會將整個contents進行升級。意思就是將整個contents先進行擴容,然後再重新填充數據

加入65535

  • 首先根據length可以確定擴容後元素個數爲6 , 每個佔位32,所以contents長度爲32*6=192 。 此時前80位內容保持不變

舊數據移位

  • 開闢了足夠的空間後,我們就可以對舊數據進行移位了這裏我們從原數組的末尾開始移動,在移動之前需要明確在新數組中的排序位置。
  • 此時我們首先將321進行比對確定在新數組中他的排名是第五名,那麼他將佔用新contents中128~159區間。
  • 最終前5 元素就會被移動好
  • 最後將新加入的元素填充進去。當發生升級時肯定是因爲新元素的長度大於原有長度了。那麼他的值一定會是在新數組的兩端。負數在最左側,正數在最右側

降級

  • 接下來就是第二個問題當新加入的65535又被刪除了redis該怎麼辦,這個時候元素長度實際16位就可以滿足了,但是此時encoding卻是32位的。按照我的看法應該在實現降級!
  • 但是遺憾的是redis並沒有,那麼請思考爲什麼沒有?如果讓你實現你將如何實現

爲什麼不實現降級

  • 當加入元素超過當前長度我們很容易就知道此時需要進行升級操作,但是當我們刪除一個數據時我們如何判斷是否需要降級卻很困難,我們需要重新遍歷一遍剩下的元素是否小於當前長度,實現複雜度O(N) 。這就是爲什麼不進行降級原因之一
  • 你可能會說重新遍歷一遍很快地反正在內存中,那麼你有沒有想過如果降級之後又遇到升級情況,這樣來回的升級降級就降低了我們程序的性能了。我們知道升級是必須的所以這裏降級redis採取的是忽略的策略
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章