MongoDB數據存儲結構
1.基本概念
在MongoDB中數據存儲的基本概念是數據庫、集合、文檔。
文檔(document)是MongoDB中數據的基本存儲單元,非常類似與關係型數據庫管理系統中的行,當更有表現力。
集合(collection)可以看作是一個擁有動態模式(dynamic schema)的表。
MongoDB的一個實例可以擁有多個相互獨立的數據庫(database),每一個數據庫都擁有自己的集合。
MongoDB 將數據存儲爲一個文檔,數據結構由鍵值(key=>value)對組成。MongoDB 文檔類似於 JSON 對象。字段值可以包含其他文檔,數組及文檔數組。
下表將幫助您更容易理解Mongo中的一些概念
SQL術語/概念 | MongoDB術語/概念 | 解釋/說明 |
---|---|---|
database | database | 數據庫 |
table | collection | 數據庫表/集合 |
row | document | 數據記錄行/文檔 |
column | field | 數據字段/域 |
index | index | 索引 |
table joins | 表連接,MongoDB不支持 | |
primary key | primary key | 主鍵,MongoDB自動將_id字段設置爲主鍵 |
2.數據庫(database)
在MongoDB中,多個文檔組成集合,而多個集合可以組成數據庫,一個MongoDB實例可以建立多個數據庫。
MongoDB的默認數據庫爲"db",該數據庫存儲在data目錄中。
MongoDB的單個實例可以容納多個獨立的數據庫,每一個都有自己的集合和權限,不同的數據庫也放置在不同的文件中。
數據庫也通過名字來標識。數據庫名可以是滿足以下條件的任意UTF-8字符串。
- 不能是空字符串("")。
- 不得含有' '(空格)、.、$、/、\和\0 (空字符)。
- 應全部小寫。
- 最多64字節。
有一些數據庫名是保留的,可以直接訪問這些有特殊作用的數據庫。
- admin: 從權限的角度來看,這是"root"數據庫。要是將一個用戶添加到這個數據庫,這個用戶自動繼承所有數據庫的權限。一些特定的服務器端命令也只能從這個數據庫運行,比如列出所有的數據庫或者關閉服務器。
- local: 這個數據永遠不會被複制,可以用來存儲限於本地單臺服務器的任意集合
- config: 當Mongo用於分片設置時,config數據庫在內部使用,用於保存分片的相關信息。
數據庫最終會變成文件系統裏的文件,而數據庫名就是相應的文件名。這是數據庫名有如此之多限制的原因。
"show dbs" 命令可以顯示所有數據的列表。
$ ./mongo
MongoDB shell version: 3.0.6
connecting to: test
> show dbs
local 0.078GB
test 0.078GB
>
執行 "db" 命令可以顯示當前數據庫對象或集合。
$ ./mongo
MongoDB shell version: 3.0.6
connecting to: test
> db
test
>
運行"use"命令,可以連接到一個指定的數據庫。
> use local
switched to db local
> db
local
>
3.文檔(Document)
文檔MongoDB核心概念。文檔就是鍵值對的一個有序集合。MongoDB 的文檔不需要設置相同的字段,並且相同的字段不需要相同的數據類型,這與關係型數據庫有很大的區別,也是 MongoDB 非常突出的特點。
一個簡單的文檔例子如下:
{"hand":"hello","foot":3}
文檔中的鍵是字符串,文檔中的值可以是多種不同的數據類型,甚至可以是一個完整的內嵌文檔。
除少數例外情況,鍵可以是任意UTF-8字符。文檔鍵命名規範:
- 鍵不能含有\0 (空字符)。這個字符用來表示鍵的結尾。
- .和$有特別的意義,只有在特定環境下才能使用。
- 以下劃線"_"開頭的鍵是保留的(不是嚴格要求的)。
MongoDB的文檔不能有重複的鍵。
MongoDB不但區分類型,而且區分大小寫。
{"Foot":"3"}
{"foot":"3"}
{"foot": 3 }
這三個文檔是不同的
文檔中的鍵值對是有序的:
{"x":1,"y":2}
{"y":2,"x":1}
兩者不同
4.集合(collection)
集合就是 一組文檔,類似於 RDBMS (關係數據庫管理系統:Relational Database Management System)中的表格。
集合是動態模式的,也就意味着集合沒有固定的結構,集合可以插入不同格式和類型的數據,但通常情況下我們插入集合的數據都會有一定的關聯性。
比如,我們可以將以下不同數據結構的文檔插入到集合中:
{"site":"www.baidu.com"}
{"site":"www.google.com","name":"Google"}
當第一個文檔插入時,集合就會被創建。
隨之而來的一個問題是:既然沒有必要區分不同類型文檔的模式,一個數據庫還有必要使用多個集合嗎?
這裏的不區分僅僅是物理結構的不區分,但實際開發中由於業務的分區,會產生多個邏輯集合單元。例如一個博格網站,利用集合既存儲了文章文檔和作者信息,那麼在只查詢博客文章時還要剔除作者數據的文檔,在混合的物理數據結構下,這會帶來很大的困擾。此外,從三各特定類型的集合中查詢數據,必然在一個混合的集合中查詢特定數據要快的多,且更有利於磁盤尋道和索引構建。
合法的集合名
- 集合名不能是空字符串""。
- 集合名不能含有\0字符(空字符),這個字符表示集合名的結尾。
- 集合名不能以"system."開頭,這是爲系統集合保留的前綴。
- 用戶創建的集合名字不能含有保留字符。有些驅動程序的確支持在集合名裏面包含,這是因爲某些系統生成的集合中包含該字符。除非你要訪問這種系統創建的集合,否則千萬不要在名字裏出現$。
子集合
組織集合的慣例是使用“ . ”分割不同命名空間的子集合。例如一個具有博客功能的應用可能包含兩個集合,分別是blog.posts和blog.authors。這是爲了使組織結構更清晰,這裏的blog集合(這個集合甚至不需要存在)跟它的子集合沒有任何關係。
5.元數據
數據庫的信息是存儲在集合中。它們使用了系統的命名空間:
dbname.system.*
在MongoDB數據庫中名字空間 <dbname>.system.* 是包含多種系統信息的特殊集合(Collection),如下:
集合命名空間 | 描述 |
---|---|
dbname.system.namespaces | 列出所有名字空間。 |
dbname.system.indexes | 列出所有索引。 |
dbname.system.profile | 包含數據庫概要(profile)信息。 |
dbname.system.users | 列出所有可訪問數據庫的用戶。 |
dbname.local.sources | 包含複製對端(slave)的服務器信息和狀態。 |
對於修改系統集合中的對象有如下限制。
在{{system.indexes}}插入數據,可以創建索引。但除此之外該表信息是不可變的(特殊的drop index命令將自動更新相關信息)。
{{system.users}}是可修改的。 {{system.profile}}是可刪
MongoDB 數據類型
在概念上MongoDB的文檔與JavaScript中的對象相近,因而可以認爲它類似與JSON。MongoDB在JSON六種數據類型(null,布爾,數字、字符長、對象和數組)的基礎上上添加了一些其他數據類型,以實現對時間、浮點數、正則函數等的操作。
下表爲MongoDB中數據類型。
數據類型 | 例子 | 描述 |
---|---|---|
String | { "x" : "foot" } | 字符串。存儲數據常用的數據類型。在 MongoDB 中,UTF-8 編碼的字符串纔是合法的。 |
Integer | { "x" : 1 } | 整型數值。用於存儲數值。根據你所採用的服務器,可分爲 32 位或 64 位。 |
Boolean | { "x" : true } | 布爾值。用於存儲布爾值(真/假)。 |
Double | { "x" : 3.14 } | 雙精度浮點值。用於存儲浮點值。 |
Min/Max keys | 將一個值與 BSON(二進制的 JSON)元素的最低值和最高值相對比。 | |
Array | { "x" : [ "a" , "b" ] } | 用於將數組或列表或多個值存儲爲一個鍵。 |
Timestamp | 時間戳。記錄文檔修改或添加的具體時間。 | |
Object | { "x" : { "y" : "foot" } } | 用於內嵌文檔。 |
Null | { "x" : null } | 用於創建空值。 |
Symbol | 符號。該數據類型基本上等同於字符串類型,但不同的是,它一般用於採用特殊符號類型的語言。 | |
Date | { "x" : new Date() } | 日期時間。用 UNIX 時間格式來存儲當前日期或時間。你可以指定自己的日期時間:創建 Date 對象,傳入年月日信息。 |
Object ID | { "x" : ObjectId() } | 對象 ID。用於創建文檔的 ID。 |
Binary Data | 二進制數據。用於存儲二進制數據。 | |
Code | { "x" : function(){/*..*/} } | 代碼類型。用於在文檔中存儲 JavaScript 代碼。 |
Regular expression | { "x" : /foot/i } | 正則表達式類型。用於存儲正則表達式。 |
下面說明下幾種重要的數據類型
1.日期
與JavaScript使用Date對象一樣,使用 new Date()創建日期對象,或者使用ISODate()創建日期對象。注意Date()函數與Js中一樣,是返回日期格式的字符串,日期對象和字符串是無法匹配的,所以執行刪除、更新和查詢操作時對導致很多問題。
> var mydate1 = new Date() //格林尼治時間
> mydate1
ISODate("2018-03-04T14:58:51.233Z")
> typeof mydate1
object
> var mydate2 = ISODate() //格林尼治時間
> mydate2
ISODate("2018-03-04T15:00:45.479Z")
> typeof mydate2
object
> Date()
Sun Mar 04 2018 15:02:59 GMT+0000 (UTC)
2.時間戳
BSON 有一個特殊的時間戳類型用於 MongoDB 內部使用,與普通的 日期 類型不相關。 時間戳值是一個 64 位的值。其中:
- 前32位是一個 time_t 值(與Unix新紀元相差的秒數)
- 後32位是在某秒中操作的一個遞增的
序數
在單個 mongod 實例中,時間戳值通常是唯一的。
在複製集中, oplog 有一個 ts 字段。這個字段中的值使用BSON時間戳表示了操作時間。
BSON 時間戳類型主要用於 MongoDB 內部使用。在大多數情況下的應用開發中,你可以使用 BSON 日期類型。
3.數組
數組是一組值,它既能作爲有序對象(列表、棧或隊列),又能作爲無序對象(數據集)。
下面的文檔中things這個鍵的值是一個數組
{ "things" : [ "foot" , 3.14 ] }
此例表述數組可包含不同數據類型的元素。
數組也可嵌套數組。
MongDB能理解數組結構,並能深入其中構建索引,執行查詢或更新操作。
4.ObjectId
ObjectId 類似唯一主鍵,可以很快的去生成和排序,包含 12 bytes,含義是:
- 前 4 個字節表示創建 unix 時間戳,格林尼治時間 UTC 時間,比北京時間晚了 8 個小時
- 接下來的 3 個字節是機器標識碼
- 緊接的兩個字節由進程 id 組成 PID
- 最後三個字節是隨機數
MongoDB 中存儲的文檔必須有一個 _id 鍵。這個鍵的值可以是任何類型的,默認是個 ObjectId 對象。在一個集合裏面,每個文檔都有唯一的_id值,確保一個集合裏每個文檔都能被唯一標識。多個集合之間_id可以重複(與關係數據庫表的主鍵一樣)。
由於 ObjectId 中保存了創建的時間戳,所以你不需要爲你的文檔保存時間戳字段,你可以通過 getTimestamp 函數來獲取文檔的創建時間: