跳錶是一種可以替代平衡樹的數據結構。跳錶追求的是概率性平衡,而不是嚴格平衡。因此,跟平衡二叉樹相比,跳錶的插入和刪除操作要簡單得多,執行也更快。
二叉樹可以用來實現字典和有序表等抽象數據結構。在元素隨機插入的場景,二叉樹可以很好應對。然而,在有序插入的情況下,二叉樹就退化了(鏈表),性能非常差。如果有辦法對待插入元素進行隨機排列,二叉樹大概率可以運行良好。大部分情況下,插入是在線進行的,因此隨機排列並不具有可行性。平衡樹在操作時對樹結構進行調整以滿足平衡條件,因此獲得理想性能。
跳錶是一種概率性可行的平衡二叉樹替代數據結構。跳錶通過一個隨機數生成器實現平衡。雖然跳錶最壞情況下(worst-case
)性能也很差,但是沒有任何輸入序列必然會導致最壞情況發生(這點類似劃分元素(pivot point
)隨機選定的快排)。跳錶極度不平衡發生的概率非常低(一個包含250
個元素的字典,一次查找需要花3
倍期望時間的概率小於百萬分之一)。跳錶平衡概率跟隨機插入的二叉樹差不多,好處是插入順序不要求隨機。
實現概率性平衡比嚴格控制平衡要簡單得多。對很多應用來說,跳錶用起來比平衡樹更自然,而且算法更簡單。跳錶算法簡單性意味着更容易實現,而且與平衡樹和自適應樹相比有常數倍數的性能提升。跳錶在空間上也比較高效。平均每個元素只需要額外耗費個2指針(甚至可以配置得更低),並不需要在每個節點上都存與平衡和優先級相關的數據。
結構
搜索一個鏈表時,我們需要遍歷每個節點(如圖 1a)。如果列表是有序的,偶數節點另存一個指向下一個偶數節點的指針(如圖 1b),我們只需要檢查最多(n/2)+1
個節點(n
是鏈表規模)。如果序號爲4
的倍數的節點都有一個往前跳4
步的節點,那麼最多只需要檢查(n/4)+2
次。如果,序號爲2^i
的節點有一個向前跳2^i
步的指針,那麼則需要檢查log2 n
次了!這種數據結構可以用來做快速搜索,但是插入和刪除並沒有可行性。
有k
個前進指針的節點成爲k
層節點。如果第2^i
個節點有一個向前跳2^i
步的指針,那麼每層節點數滿足以下關係:第1
層有50%
的節點;第2
層有25%
的節點;第3
層有12.5%
的節點;以此類推。假設每層的比例還是一樣,但是節點隨機選擇,會怎樣呢(圖 1e)?節點第i
個前進指針不嚴格跳2^i
步,而是可以跳任意步。由於不需要維持特殊條件,插入節點層數隨機生成,插入和刪除只需要做局部修改。極端情況下,有些層次分佈會導致極差的性能,不過接下來我們會看到這種情況非常罕見。這種數據結構在鏈表的基礎上加上額外指針以跳過一些中間節點,因此命名爲跳錶。
算法
這小節介紹用於搜索、插入、刪除的算法。搜索操作返回與給定鍵(key
)關聯的值(value
),鍵不存在時則失敗。插入操作將給定鍵關聯到新的值,如果鍵不存在則插入新的節點。刪除操作刪除給定鍵。另外,類似最小鍵和下一鍵這類操作實現起來也非常簡單。
每個元素由一個節點表示,層次由節點在插入時隨機選定,與已有元素無關。層次爲i
的節點擁有i
個前進指針,下標分別是1
至i
。節點不需要存儲層數。選定一個合適的常量MaxLevel
,層數在這個範圍內。跳錶的層數時當前所有節點層數的最大值,或者當跳錶爲空是,層數爲1
。用一個頭向量存儲從層次1
到MaxLevel
的向前指針。指針高於當前跳錶層數的部分直接指向NIL
。
初始化
約定NIL
元素,其鍵比所有合法建都大(上限)。跳錶的任意層都以NIL
結尾。新的跳錶初始化成層數只有1
,並且所有表頭所有前進指針都指向NIL
。
查找
查找某個元素時,需要逐層遍歷所有鍵不超過給定鍵的節點。如果當前層前進節點已經不符合條件了,往下一層開始遍歷。當遍歷進行到第1
層時,下一個節點就是目標節點(如存在)。
Search(list, searchKey)
x := list->header
for i := list->level downto 1 do
while x->forward[i]->key < searchKey do
x = x->forward[i]
x := x->forward[1]
if x->key = searchKey
then
return x->value
else
return failure
插入/刪除
插入或者刪除節點,只需先執行搜索操作(圖 3),然後視情況重新拼接。僞代碼如下所示:
Insert(list, searchKey, newValue)
local update[1..MaxLevel]
x := list-header
for i := list->level downto 1 do
while x->forward[i]->key < searchKey do
x := x->forward[i]
update[i] := x
x := x->forward[i]
if x->key = searchKey then
x->value := newValue
else
lvl := randomLevel()
if lvl > list->level then
for i := list->level+1 to lvl do
update[i] := list->header
list->level = lvl
x := makeNode(lvl, searchKey, value)
for i := 1 to lvl do
x->forward[i] = update[i]->forward[i]
update[i]->forward[i] := x
圖3展示了搜索過程。注意到,搜索的過程中維護了一個名爲update
的向量,在每次降層搜索時更新。搜索完成後,update
剛好記錄了各層在操作位置(圖中環)左邊最近的節點:
元素 | 節點 |
---|---|
update[1] | 12 |
update[2] | 9 |
update[3] | 6 |
update[4] | 6 |
如果插入時生成了一個比當前最大層更大的層數,則需要更新跳錶層數並且初始化update
向量對應部分。
接下來,看看刪除操作的僞代碼:
Delete(list, searchKey)
local update[1..MaxLevel]
x := list-header
for i := list->level downto 1 do
while x->forward[i]->key < searchKey do
x := x->forward[i]
update[i] := x
x := x->forward[i]
if x->key < searchKey then
for i := 1 to list->level do
if update[i]->forward[i] != x then break
update[i]->forward[i] = x->forward[i]
free(x)
while list->level > 1 and list->header->forward[list->level] = NIL do
list->level := list->level - 1
在每次刪除時,需要檢查被刪除節點是否是最大層節點。如果是,需要對跳錶層數做對應調整。
隨機函數
接下來,需啊確定一個隨機數生成函數,其概率分佈使得第i
層中有50%
的節點同時數據第i+1
層。先拋開具體數值,我們在討論一個分數p
,對於有i
層指針的節點中p
部分,同時擁有i+1
層指針。以下便是一個非常理想的隨機數生成函數,隨機層數生成與跳錶元素及規模無關:
randomLevel()
lvl := 1
while random() < p and lvl < MaxLevel do
lvl := lvl + 1
return lvl