在數據庫中存儲分層數據

樹形結構的數據庫表Schema設計

程序設計過程中，我們常常用樹形結構來表徵某些數據的關聯關係，如企業上下級部門、欄目結構、商品分類等等，通常而言，這些樹狀結構需要藉助於數據庫完成持久化。然而目前的各種基於關係的數據庫，都是以二維表的形式記錄存儲數據信息，因此是不能直接將Tree存入DBMS，設計合適的Schema及其對應的CRUD算法是實現關係型數據庫中存儲樹形結構的關鍵。

理想中樹形結構應該具備如下特徵：數據存儲冗餘度小、直觀性強；檢索遍歷過程簡單高效；節點增刪改查CRUD操作高效。無意中在網上搜索到一種很巧妙的設計，原文是英文，看過後感覺有點意思，於是便整理了一下。本文將介紹兩種樹形結構的Schema設計方案：一種是直觀而簡單的設計思路，另一種是基於左右值編碼的改進方案。

一、基本數據

本文列舉了一個食品族譜的例子進行講解，通過類別、顏色和品種組織食品，樹形結構圖如下：

二、繼承關係驅動的Schema設計

對樹形結構最直觀的分析莫過於節點之間的繼承關係上，通過顯示地描述某一節點的父節點，從而能夠建立二維的關係表，則這種方案的Tree表結構通常設計爲：{Node_id,Parent_id}，上述數據可以描述爲如下圖所示：

這種方案的優點很明顯：設計和實現自然而然，非常直觀和方便。缺點當然也是非常的突出：由於直接地記錄了節點之間的繼承關係，因此對Tree的任何CRUD操作都將是低效的，這主要歸根於頻繁的“遞歸”操作，遞歸過程不斷地訪問數據庫，每次數據庫IO都會有時間開銷。當然，這種方案並非沒有用武之地，在Tree規模相對較小的情況下，我們可以藉助於緩存機制來做優化，將Tree的信息載入內存進行處理，避免直接對數據庫IO操作的性能開銷。

三、基於左右值編碼的Schema設計

在基於數據庫的一般應用中，查詢的需求總要大於刪除和修改。爲了避免對於樹形結構查詢時的“遞歸”過程，基於Tree的前序遍歷設計一種全新的無遞歸查詢、無限分組的左右值編碼方案，來保存該樹的數據。

第一次看見這種表結構，相信大部分人都不清楚左值（Lft）和右值（Rgt）是如何計算出來的，而且這種表設計似乎並沒有保存父子節點的繼承關係。但當你用手指指着表中的數字從1數到18，你應該會發現點什麼吧。對，你手指移動的順序就是對這棵樹進行前序遍歷的順序，如下圖所示。當我們從根節點Food左側開始，標記爲1，並沿前序遍歷的方向，依次在遍歷的路徑上標註數字，最後我們回到了根節點Food，並在右邊寫上了18。

依據此設計，我們可以推斷出所有左值大於2，並且右值小於11的節點都是Fruit的後續節點，整棵樹的結構通過左值和右值存儲了下來。然而，這還不夠，我們的目的是能夠對樹進行CRUD操作，即需要構造出與之配套的相關算法。

四、樹形結構CRUD算法

（1）獲取某節點的子孫節點

只需要一條SQL語句，即可返回該節點子孫節點的前序遍歷列表，以Fruit爲例：SELECT* FROM Tree WHERE Lft BETWEEN 2 AND 11 ORDER BY Lft ASC。查詢結果如下所示：

那麼某個節點到底有多少的子孫節點呢？通過該節點的左、右值我們可以將其子孫節點圈進來，則子孫總數 = (右值 – 左值– 1) / 2，以Fruit爲例，其子孫總數爲：(11 –2 – 1) / 2 = 4。同時，爲了更爲直觀地展現樹形結構，我們需要知道節點在樹中所處的層次，通過左、右值的SQL查詢即可實現，以Fruit爲例：SELECTCOUNT(*) FROM Tree WHERE Lft <= 2 AND Rgt >=11。爲了方便描述，我們可以爲Tree建立一個視圖，添加一個層次數列，該列數值可以寫一個自定義函數來計算，函數定義如下：

[sql] view plain copy

CREATE FUNCTION dbo.CountLayer
(
@node_id int
)
RETURNS int
AS
begin
declare @result int
set @result = 0
declare @lft int
declare @rgt int
if exists(select Node_id from Tree where Node_id = @node_id)
begin
select @lft = Lft, @rgt = Rgt from Tree where node_id = @node_id
select @result = count(*) from Tree where Lft <= @lft and Rgt >= @rgt
end
return @result
end
GO

基於層次計算函數，我們創建一個視圖，添加了新的記錄節點層次的數列：

[sql] view plain copy

CREATE VIEW dbo.TreeView
AS
SELECT Node_id, Name, Lft, Rgt, dbo.CountLayer(Node_id) AS Layer FROM dbo.Tree ORDER BY Lft
GO

創建存儲過程，用於計算給定節點的所有子孫節點及相應的層次：

[sql] view plain copy

CREATE PROCEDURE [dbo].[GetChildrenNodeList]
(
@node_id int
)
AS
declare @lft int
declare @rgt int
if exists(select Node_id from Tree where node_id = @node_id)
begin
select @lft = Lft, @rgt = Rgt from Tree where Node_id = @node_id
select * from TreeView where Lft between @lft and @rgt order by Lft ASC
end
GO

現在，我們使用上面的存儲過程來計算節點Fruit所有子孫節點及對應層次，查詢結果如下：

從上面的實現中，我們可以看出採用左右值編碼的設計方案，在進行樹的查詢遍歷時，只需要進行2次數據庫查詢，消除了遞歸，再加上查詢條件都是數字的比較，查詢的效率是極高的，隨着樹規模的不斷擴大，基於左右值編碼的設計方案將比傳統的遞歸方案查詢效率提高更多。當然，前面我們只給出了一個簡單的獲取節點子孫的算法，真正地使用這棵樹我們需要實現插入、刪除同層平移節點等功能。

（2）獲取某節點的族譜路徑

假定我們要獲得某節點的族譜路徑，則根據左、右值分析只需要一條SQL語句即可完成，以Fruit爲例：SELECT* FROM Tree WHERE Lft < 2 AND Rgt > 11 ORDER BY Lft ASC ，相對完整的存儲過程：

[sql] view plain copy

CREATE PROCEDURE [dbo].[GetParentNodePath]
(
@node_id int
)
AS
declare @lft int
declare @rgt int
if exists(select Node_id from Tree where Node_id = @node_id)
begin
select @lft = Lft, @rgt = Rgt from Tree where Node_id = @node_id
select * from TreeView where Lft < @lft and Rgt > @rgt order by Lft ASC
end
GO

（3）爲某節點添加子孫節點

假定我們要在節點“Red”下添加一個新的子節點“Apple”，該樹將變成如下圖所示，其中紅色節點爲新增節點。

仔細觀察圖中節點左右值變化，相信大家都應該能夠推斷出如何寫SQL腳本了吧。我們可以給出相對完整的插入子節點的存儲過程：

[sql] view plain copy

CREATE PROCEDURE [dbo].[AddSubNode]
(
@node_id int,
@node_name varchar(50)
)
AS
declare @rgt int
if exists(select Node_id from Tree where Node_id = @node_id)
begin
SET XACT_ABORT ON
BEGIN TRANSCTION
select @rgt = Rgt from Tree where Node_id = @node_id
update Tree set Rgt = Rgt + 2 where Rgt >= @rgt
update Tree set Lft = Lft + 2 where Lft >= @rgt
insert into Tree(Name, Lft, Rgt) values(@node_name, @rgt, @rgt + 1)
COMMIT TRANSACTION
SET XACT_ABORT OFF
end
GO

（4）刪除某節點

如果我們想要刪除某個節點，會同時刪除該節點的所有子孫節點，而這些被刪除的節點的個數爲：(被刪除節點的右值 – 被刪除節點的左值+ 1) / 2，而剩下的節點左、右值在大於被刪除節點左、右值的情況下會進行調整。來看看樹會發生什麼變化，以Beef爲例，刪除效果如下圖所示。

則我們可以構造出相應的存儲過程：

[sql] view plain copy

CREATE PROCEDURE [dbo].[DelNode]
(
@node_id int
)
AS
declare @lft int
declare @rgt int
if exists(select Node_id from Tree where Node_id = @node_id)
begin
SET XACT_ABORT ON
BEGIN TRANSCTION
select @lft = Lft, @rgt = Rgt from Tree where Node_id = @node_id
delete from Tree where Lft >= @lft and Rgt <= @rgt
update Tree set Lft = Lft – (@rgt - @lft + 1) where Lft > @lft
update Tree set Rgt = Rgt – (@rgt - @lft + 1) where Rgt > @rgt
COMMIT TRANSACTION
SET XACT_ABORT OFF
end
GO

五、總結

我們可以對這種通過左右值編碼實現無限分組的樹形結構Schema設計方案做一個總結：

（1）優點：在消除了遞歸操作的前提下實現了無限分組，而且查詢條件是基於整形數字的比較，效率很高。

（2）缺點：節點的添加、刪除及修改代價較大，將會涉及到表中多方面數據的改動。

當然，本文只給出了幾種比較常見的CRUD算法的實現，我們同樣可以自己添加諸如同層節點平移、節點下移、節點上移等操作。有興趣的朋友可以自己動手編碼實現一下，這裏不在列舉了。值得注意的是，實現這些算法可能會比較麻煩，會涉及到很多條update語句的順序執行，如果順序調度考慮不周詳，出現Bug的話將會對整個樹形結構表產生驚人的破壞。因此，在對樹形結構進行大規模修改的時候，可以採用臨時表做中介，以降低代碼的複雜度，同時，強烈推薦在做修改之前對錶進行完整備份，以備不時之需。在以查詢爲主的絕大多數基於數據庫的應用系統中，該方案相比傳統的由父子繼承關係構建的數據庫Schema更爲適用。

參考文獻：《Storing Hierarchical Data in a Database Article》

在數據庫中存儲分層數據

關於curl的命令行的總結與實踐

H5中FileReader的認識

WEB安全小結

近期工作覆盤

linux安裝lanmp環境出現錯誤一覽

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結