【MongoDB】——數據存儲結構與基本數據類型

MongoDB數據存儲結構

1.基本概念

在MongoDB中數據存儲的基本概念是數據庫、集合、文檔。

文檔(document)是MongoDB中數據的基本存儲單元,非常類似與關係型數據庫管理系統中的行,當更有表現力。

集合(collection)可以看作是一個擁有動態模式(dynamic schema)的表。

MongoDB的一個實例可以擁有多個相互獨立的數據庫(database),每一個數據庫都擁有自己的集合。

MongoDB 將數據存儲爲一個文檔,數據結構由鍵值(key=>value)對組成。MongoDB 文檔類似於 JSON 對象。字段值可以包含其他文檔,數組及文檔數組。

下表將幫助您更容易理解Mongo中的一些概念

SQL術語/概念 MongoDB術語/概念 解釋/說明
database database 數據庫
table collection 數據庫表/集合
row document 數據記錄行/文檔
column field 數據字段/域
index index 索引
table joins   表連接,MongoDB不支持
primary key primary key 主鍵,MongoDB自動將_id字段設置爲主鍵

 

2.數據庫(database)

在MongoDB中,多個文檔組成集合,而多個集合可以組成數據庫,一個MongoDB實例可以建立多個數據庫。

MongoDB的默認數據庫爲"db",該數據庫存儲在data目錄中。

MongoDB的單個實例可以容納多個獨立的數據庫,每一個都有自己的集合和權限,不同的數據庫也放置在不同的文件中。

數據庫也通過名字來標識。數據庫名可以是滿足以下條件的任意UTF-8字符串。

  • 不能是空字符串("")。
  • 不得含有' '(空格)、.、$、/、\和\0 (空字符)。
  • 應全部小寫。
  • 最多64字節。

有一些數據庫名是保留的,可以直接訪問這些有特殊作用的數據庫。

  • admin: 從權限的角度來看,這是"root"數據庫。要是將一個用戶添加到這個數據庫,這個用戶自動繼承所有數據庫的權限。一些特定的服務器端命令也只能從這個數據庫運行,比如列出所有的數據庫或者關閉服務器。
  • local: 這個數據永遠不會被複制,可以用來存儲限於本地單臺服務器的任意集合
  • config: 當Mongo用於分片設置時,config數據庫在內部使用,用於保存分片的相關信息。

數據庫最終會變成文件系統裏的文件,而數據庫名就是相應的文件名。這是數據庫名有如此之多限制的原因。

"show dbs" 命令可以顯示所有數據的列表。

$ ./mongo
MongoDB shell version: 3.0.6
connecting to: test
> show dbs
local  0.078GB
test   0.078GB
>

執行 "db" 命令可以顯示當前數據庫對象或集合。

$ ./mongo
MongoDB shell version: 3.0.6
connecting to: test
> db
test
>

運行"use"命令,可以連接到一個指定的數據庫。

> use local
switched to db local
> db
local
>

 

3.文檔(Document)

文檔MongoDB核心概念。文檔就是鍵值對的一個有序集合。MongoDB 的文檔不需要設置相同的字段,並且相同的字段不需要相同的數據類型,這與關係型數據庫有很大的區別,也是 MongoDB 非常突出的特點。

一個簡單的文檔例子如下:

{"hand":"hello","foot":3}

文檔中的鍵是字符串,文檔中的值可以是多種不同的數據類型,甚至可以是一個完整的內嵌文檔。

除少數例外情況,鍵可以是任意UTF-8字符。文檔鍵命名規範:

  • 鍵不能含有\0 (空字符)。這個字符用來表示鍵的結尾。
  • .和$有特別的意義,只有在特定環境下才能使用。
  • 以下劃線"_"開頭的鍵是保留的(不是嚴格要求的)。

MongoDB的文檔不能有重複的鍵。

MongoDB不但區分類型,而且區分大小寫。

{"Foot":"3"}
{"foot":"3"}
{"foot": 3 }

這三個文檔是不同的

文檔中的鍵值對是有序的:

{"x":1,"y":2}
{"y":2,"x":1}

兩者不同

 

4.集合(collection)

集合就是 一組文檔,類似於 RDBMS (關係數據庫管理系統:Relational Database Management System)中的表格。

集合是動態模式的,也就意味着集合沒有固定的結構,集合可以插入不同格式和類型的數據,但通常情況下我們插入集合的數據都會有一定的關聯性。

比如,我們可以將以下不同數據結構的文檔插入到集合中:

{"site":"www.baidu.com"}
{"site":"www.google.com","name":"Google"}

當第一個文檔插入時,集合就會被創建。

隨之而來的一個問題是:既然沒有必要區分不同類型文檔的模式,一個數據庫還有必要使用多個集合嗎?

這裏的不區分僅僅是物理結構的不區分,但實際開發中由於業務的分區,會產生多個邏輯集合單元。例如一個博格網站,利用集合既存儲了文章文檔和作者信息,那麼在只查詢博客文章時還要剔除作者數據的文檔,在混合的物理數據結構下,這會帶來很大的困擾。此外,從三各特定類型的集合中查詢數據,必然在一個混合的集合中查詢特定數據要快的多,且更有利於磁盤尋道和索引構建。

合法的集合名

  • 集合名不能是空字符串""。
  • 集合名不能含有\0字符(空字符),這個字符表示集合名的結尾。
  • 集合名不能以"system."開頭,這是爲系統集合保留的前綴。
  • 用戶創建的集合名字不能含有保留字符。有些驅動程序的確支持在集合名裏面包含,這是因爲某些系統生成的集合中包含該字符。除非你要訪問這種系統創建的集合,否則千萬不要在名字裏出現$。 

子集合

組織集合的慣例是使用“ . ”分割不同命名空間的子集合。例如一個具有博客功能的應用可能包含兩個集合,分別是blog.posts和blog.authors。這是爲了使組織結構更清晰,這裏的blog集合(這個集合甚至不需要存在)跟它的子集合沒有任何關係。

 

5.元數據

數據庫的信息是存儲在集合中。它們使用了系統的命名空間:

dbname.system.*

在MongoDB數據庫中名字空間 <dbname>.system.* 是包含多種系統信息的特殊集合(Collection),如下:

集合命名空間 描述
dbname.system.namespaces 列出所有名字空間。
dbname.system.indexes 列出所有索引。
dbname.system.profile 包含數據庫概要(profile)信息。
dbname.system.users 列出所有可訪問數據庫的用戶。
dbname.local.sources 包含複製對端(slave)的服務器信息和狀態。

對於修改系統集合中的對象有如下限制。

在{{system.indexes}}插入數據,可以創建索引。但除此之外該表信息是不可變的(特殊的drop index命令將自動更新相關信息)。

{{system.users}}是可修改的。 {{system.profile}}是可刪

 

MongoDB 數據類型

在概念上MongoDB的文檔與JavaScript中的對象相近,因而可以認爲它類似與JSON。MongoDB在JSON六種數據類型(null,布爾,數字、字符長、對象和數組)的基礎上上添加了一些其他數據類型,以實現對時間、浮點數、正則函數等的操作。

下表爲MongoDB中數據類型。

數據類型 例子 描述
String { "x" : "foot" } 字符串。存儲數據常用的數據類型。在 MongoDB 中,UTF-8 編碼的字符串纔是合法的。
Integer { "x" : 1 } 整型數值。用於存儲數值。根據你所採用的服務器,可分爲 32 位或 64 位。
Boolean { "x" : true } 布爾值。用於存儲布爾值(真/假)。
Double { "x" : 3.14 } 雙精度浮點值。用於存儲浮點值。
Min/Max keys   將一個值與 BSON(二進制的 JSON)元素的最低值和最高值相對比。
Array { "x" : [ "a" , "b" ] } 用於將數組或列表或多個值存儲爲一個鍵。
Timestamp   時間戳。記錄文檔修改或添加的具體時間。
Object { "x" : { "y" : "foot" } } 用於內嵌文檔。
Null { "x" : null } 用於創建空值。
Symbol   符號。該數據類型基本上等同於字符串類型,但不同的是,它一般用於採用特殊符號類型的語言。
Date { "x" : new Date() } 日期時間。用 UNIX 時間格式來存儲當前日期或時間。你可以指定自己的日期時間:創建 Date 對象,傳入年月日信息。
Object ID { "x" : ObjectId() } 對象 ID。用於創建文檔的 ID。
Binary Data   二進制數據。用於存儲二進制數據。
Code { "x" : function(){/*..*/} } 代碼類型。用於在文檔中存儲 JavaScript 代碼。
Regular expression { "x" : /foot/i } 正則表達式類型。用於存儲正則表達式。

下面說明下幾種重要的數據類型

1.日期

與JavaScript使用Date對象一樣,使用 new Date()創建日期對象,或者使用ISODate()創建日期對象。注意Date()函數與Js中一樣,是返回日期格式的字符串,日期對象和字符串是無法匹配的,所以執行刪除、更新和查詢操作時對導致很多問題。

> var mydate1 = new Date()     //格林尼治時間
> mydate1
ISODate("2018-03-04T14:58:51.233Z")
> typeof mydate1
object


> var mydate2 = ISODate() //格林尼治時間
> mydate2
ISODate("2018-03-04T15:00:45.479Z")
> typeof mydate2
object


> Date()
Sun Mar 04 2018 15:02:59 GMT+0000 (UTC)

2.時間戳

BSON 有一個特殊的時間戳類型用於 MongoDB 內部使用,與普通的 日期 類型不相關。 時間戳值是一個 64 位的值。其中:

  • 前32位是一個 time_t 值(與Unix新紀元相差的秒數)
  • 後32位是在某秒中操作的一個遞增的序數

在單個 mongod 實例中,時間戳值通常是唯一的。

在複製集中, oplog 有一個 ts 字段。這個字段中的值使用BSON時間戳表示了操作時間。

BSON 時間戳類型主要用於 MongoDB 內部使用。在大多數情況下的應用開發中,你可以使用 BSON 日期類型。

 3.數組

數組是一組值,它既能作爲有序對象(列表、棧或隊列),又能作爲無序對象(數據集)。

下面的文檔中things這個鍵的值是一個數組

{ "things" : [ "foot" , 3.14 ] }

此例表述數組可包含不同數據類型的元素。

數組也可嵌套數組。

MongDB能理解數組結構,並能深入其中構建索引,執行查詢或更新操作。

4.ObjectId

ObjectId 類似唯一主鍵,可以很快的去生成和排序,包含 12 bytes,含義是:

  • 前 4 個字節表示創建 unix 時間戳,格林尼治時間 UTC 時間,比北京時間晚了 8 個小時
  • 接下來的 3 個字節是機器標識碼
  • 緊接的兩個字節由進程 id 組成 PID
  • 最後三個字節是隨機數

MongoDB 中存儲的文檔必須有一個 _id 鍵。這個鍵的值可以是任何類型的,默認是個 ObjectId 對象。在一個集合裏面,每個文檔都有唯一的_id值,確保一個集合裏每個文檔都能被唯一標識。多個集合之間_id可以重複(與關係數據庫表的主鍵一樣)。

由於 ObjectId 中保存了創建的時間戳,所以你不需要爲你的文檔保存時間戳字段,你可以通過 getTimestamp 函數來獲取文檔的創建時間:

 

 

 

 

 


 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章