源文章鏈接 http://blog.nosqlfan.com/html/3515.html
MongoDB數據文件內部結構
有人在Quora上提問:MongoDB數據文件內部的組織結構是什麼樣的。隨後10gen的工程師Jared Rosoff出來做了簡短的回答。
每一個數據庫都有自己獨立的文件(不是一個)。如果你開啓了directoryperdb選項,那你每個庫的文件會單獨放在一個文件夾裏。
數據庫文件在內部會被切分成單個的塊,每個塊只保存一個名字空間的數據。在MongoDB中,名字空間用於區分不同的存儲類別。比如每個collection有一個獨立的名字空間,每個索引也有自己的名字空間。
在一個塊中,會保存多條記錄,每條記錄是BSON格式的,記錄與記錄之間通過雙向鏈表進行連接。(因爲是MMAP,所以文件是內存的映射)
索引數據也存在數據文件中,不過索引是被組織成B Tree結構,而不是雙向鏈表。
對每個數據庫,有一個命名空間文件,用於保存每個名字空間對應的元數據。我們通過查詢這些元數據來找到對應的名字空間的存儲塊位置。
如果你開啓了jorunaling日誌,那麼還會有一些文件存儲着你所有的操作記錄。
下面圖片摘自10gen工程師Mathias Stearn在MongoSV2011大會上的發言稿,手繪的數據文件結構。
1.每個數據庫有相應的數據文件和命名空間文件
2.數據文件從16MB開始,新的數據文件比上一個文件大一倍,最大爲2GB
3.文件使用MMAP進行內存映射,會將所有數據文件映射到內存中,但是隻是虛擬內存,只有訪問到這塊數據時纔會交換到物理內存。
4.(32位機中)MongoDB的數據文件映射到內存表中的位置
5.使用32位機器的話,內存地址最大可以標識4GB內存
6.但是在32位機器上,4GB內存會有1GB被內核戰用,大約0.5GB會用於mongod進程的stack空間,只剩下大約2.5GB可用於映射數據文件。
7.在64位機器上則最多可以表示128TB的空間
8.每個數據文件會被分成一個一個的數據塊(用於存儲數據),塊與塊之間用雙向鏈表連接
(腫麼還有個接地線?)
9.在名字空間文件(數據庫名.ns)中,保存的是一個hash table,保存了每個名字空間的存儲信息元數據(NamespaceDetails),包括其:大小,塊數,第一塊位置,最後一塊位置,被刪除的塊的鏈表以及索引信息
10.這些位置通過DiskLoc數據結構[A pointer to a location on disk]進行存儲,存儲了數據文件編號和塊在文件中的位置
11.對每一個塊(Extent)來說,其頭部包含了一些塊的元數據:
- 比如自己的位置(myLoc,8B=DiskLoc[ation]),
- 上一個和下一個塊的位置(Extent's DiskLoc[ation])
- 以及塊中第一條和最後一條記錄[record]的位置指針(offset 4B,塊中地內部偏移都是4B大小)。
- (length with Headers,整個Extent的大小)
- 剩下的部分用於存儲具體的數據[record中包括extentOfs,record本身的偏移,next,pre,data],具體數據之間也是通過雙向鏈接來進行連接。
12.下面是B Tree的存儲結構和工作原理