mysql總結(三)--Mysql分表和分區的區別、分庫分表介紹與區別

來自:https://www.cnblogs.com/langtianya/p/4997768.html

分表和分區的區別:

一,什麼是mysql分表,分區 

什麼是分表,從表面意思上看呢,就是把一張表分成N多個小表,具體請看:mysql分表的3種方法

什麼是分區,分區呢就是把一張表的數據分成N多個區塊,這些區塊可以在同一個磁盤上,也可以在不同的磁盤上,具體請參考mysql分區功能詳細介紹,以及實例 

二,mysql分表和分區有什麼區別呢 

1,實現方式上 

a),mysql的分表是真正的分表,一張表分成很多表後,每一個小表都是完正的一張表,都對應三個文件,一個.MYD數據文件,.MYI索引文件,.frm表結構文件。 

Sql代碼

[root@BlackGhost test]# ls |grep user
alluser.MRG
alluser.frm
user1.MYD
user1.MYI
user1.frm
user2.MYD
user2.MYI
user2.frm 


簡 單說明一下,上面的分表呢是利用了merge存儲引擎(分表的一種),alluser是總表,下面有二個分表,user1,user2。他們二個都是獨立 的表,取數據的時候,我們可以通過總表來取。這裏總表是沒有.MYD,.MYI這二個文件的,也就是說,總表他不是一張表,沒有數據,數據都放在分表裏面。我們來看看.MRG到底是什麼東西 

[root@BlackGhost test]# cat alluser.MRG |more
user1
user2
#INSERT_METHOD=LAST 


從上面我們可以看出,alluser.MRG裏面就存了一些分表的關係,以及插入數據的方式。可以把總表理解成一個外殼,或者是聯接池。 

b),分區不一樣,一張大表進行分區後,他還是一張表,不會變成二張表,但是他存放數據的區塊變多了。 

[root@BlackGhost test]# ls |grep aa
aa#P#p1.MYD
aa#P#p1.MYI
aa#P#p3.MYD
aa#P#p3.MYI
aa.frm
aa.par 


從 上面我們可以看出,aa這張表,分爲二個區,p1和p3,本來是三個區,被我刪了一個區。我們都知道一張表對應三個文件.MYD,.MYI,.frm。分 區呢根據一定的規則把數據文件和索引文件進行了分割,還多出了一個.par文件,打開.par文件後你可以看出他記錄了,這張表的分區信息,根分表中 的.MRG有點像。分區後,還是一張,而不是多張表。 
如orderid,userid,ordertime,.....
ordertime<2015-01-01 #p0
ordertime<2015-04-01 #p1
ordertime<2015-07-01 #p2
ordertime<2015-10-01 #p3
ordertime<2016-01-01 #p4
按照時間分區。大部分只查詢最近的訂單數據,那麼大部分只訪問一個分區,比整個表小多了,數據庫可以更加好的緩存,性能也提高了。這個是數據庫分的,應用程序透明,無需修改。


2,數據處理上 

a),分表後,數據都是存放在分表裏,總表只是一個外殼,存取數據發生在一個一個的分表裏面。看下面的例子: 

select * from alluser where id='12'表面上看,是對錶alluser進行操作的,其實不是的。是對alluser裏面的分表進行了操作。 

b),分區呢,不存在分表的概念,分區只不過把存放數據的文件分成了許多小塊,分區後的表呢,還是一張表。數據處理還是由自己來完成。 

3,提高性能上 

a), 分表後,單表的併發能力提高了,磁盤I/O性能也提高了。併發能力爲什麼提高了呢,因爲查尋一次所花的時間變短了,如果出現高併發的話,總表可以根據不同 的查詢,將併發壓力分到不同的小表裏面。磁盤I/O性能怎麼搞高了呢,本來一個非常大的.MYD文件現在也分攤到各個小表的.MYD中去了。 

b),mysql提出了分區的概念,我覺得就想突破磁盤I/O瓶頸,想提高磁盤的讀寫能力,來增加mysql性能。 
在這一點上,分區和分表的測重點不同,分表重點是存取數據時,如何提高mysql併發能力上;而分區呢,如何突破磁盤的讀寫能力,從而達到提高mysql性能的目的。 

4),實現的難易度上 

a),分表的方法有很多,用merge來分表,是最簡單的一種方式。這種方式根分區難易度差不多,並且對程序代碼來說可以做到透明的。如果是用其他分表方式就比分區麻煩了。 

b),分區實現是比較簡單的,建立分區表,根建平常的表沒什麼區別,並且對開代碼端來說是透明的。 

三,mysql分表和分區有什麼聯繫呢 

1,都能提高mysql的性高,在高併發狀態下都有一個良好的表面。 

2,分表和分區不矛盾,可以相互配合的,對於那些大訪問量,並且表數據比較多的表,我們可以採取分表和分區結合的方式(如果merge這種分表方式,不能和分區配合的話,可以用其他的分表試),訪問量不大,但是表數據很多的表,我們可以採取分區的方式等。

 

分庫分表區別:

1 基本思想之什麼是分庫分表?
從字面上簡單理解,就是把原本存儲於一個庫的數據分塊存儲到多個庫上,把原本存儲於一個表的數據分塊存儲到多個表上。


2 基本思想之爲什麼要分庫分表?
     數據庫中的數據量不一定是可控的,在未進行分庫分表的情況下,隨着時間和業務的發展,庫中的表會越來越多,表中的數據量也會越來越大,相應地,數據操作,增刪改查的開銷也會越來越大;另外,一臺服務器的資源(CPU、磁盤、內存、IO等)是有限的,最終數據庫所能承載的數據量、數據處理能力都將遭遇瓶頸,。


3 分庫分表的實施策略。
     如果你的單機性能很低了,那可以嘗試分庫。分庫,業務透明,在物理實現上分成多個服務器,不同的分庫在不同服務器上。分區可以把表分到不同的硬盤上,但不能分配到不同服務器上。一臺機器的性能是有限制的,用分庫可以解決單臺服務器性能不夠,或者成本過高問題。
當分區之後,表還是很大,處理不過來,這時候可以用分庫。
orderid,userid,ordertime,.....
userid%4=0,用分庫1
userid%4=1,用分庫2
userid%4=2, 用分庫3
userid%4=3,用分庫4
上面這個就是一個簡單的分庫路由,根據userid選擇分庫,即不同的服務器


分庫分表有垂直切分和水平切分兩種。
     3.1 何謂垂直切分,即將表按照功能模塊、關係密切程度劃分出來,部署到不同的庫上。例如,我們會建立定義數據庫workDB、商品數據庫payDB、用戶數據庫userDB、日誌數據庫logDB等,分別用於存儲項目數據定義表、商品定義表、用戶數據表、日誌數據表等。

如userid,name,addr一個表,爲了防止表過大,分成2個表。
userid,name
userid,addr


       3.2 何謂水平切分,當一個表中的數據量過大時,我們可以把該表的數據按照某種規則,例如userID散列、按性別、按省,進行劃分,然後存儲到多個結構相同的表,和不同的庫上。例如,我們的userDB中的用戶數據表中,每一個表的數據量都很大,就可以把userDB切分爲結構相同的多個userDB:part0DB、part1DB等,再將userDB上的用戶數據表userTable,切分爲很多userTable:userTable0、userTable1等,然後將這些表按照一定的規則存儲到多個userDB上。


      3.3 應該使用哪一種方式來實施數據庫分庫分表,這要看數據庫中數據量的瓶頸所在,並綜合項目的業務類型進行考慮。
如果數據庫是因爲表太多而造成海量數據,並且項目的各項業務邏輯劃分清晰、低耦合,那麼規則簡單明瞭、容易實施的垂直切分必是首選。
而如果數據庫中的表並不多,但單表的數據量很大、或數據熱度很高,這種情況之下就應該選擇水平切分,水平切分比垂直切分要複雜一些,它將原本邏輯上屬於一體的數據進行了物理分割,除了在分割時要對分割的粒度做好評估,考慮數據平均和負載平均,後期也將對項目人員及應用程序產生額外的數據管理負擔。
在現實項目中,往往是這兩種情況兼而有之,這就需要做出權衡,甚至既需要垂直切分,又需要水平切分。我們的遊戲項目便綜合使用了垂直與水平切分,我們首先對數據庫進行垂直切分,然後,再針對一部分表,通常是用戶數據表,進行水平切分。


4 分庫分表存在的問題。

4.1 事務問題。
       在執行分庫分表之後,由於數據存儲到了不同的庫上,數據庫事務管理出現了困難。如果依賴數據庫本身的分佈式事務管理功能去執行事務,將付出高昂的性能代價;如果由應用程序去協助控制,形成程序邏輯上的事務,又會造成編程方面的負擔。


4.2 跨庫跨表的join問題。
    在執行了分庫分表之後,難以避免會將原本邏輯關聯性很強的數據劃分到不同的表、不同的庫上,這時,表的關聯操作將受到限制,我們無法join位於不同分庫的表,也無法join分表粒度不同的表,結果原本一次查詢能夠完成的業務,可能需要多次查詢才能完成。


4.3 額外的數據管理負擔和數據運算壓力。
額外的數據管理負擔,最顯而易見的就是數據的定位問題和數據的增刪改查的重複執行問題,這些都可以通過應用程序解決,但必然引起額外的邏輯運算,例如,對於一個記錄用戶成績的用戶數據表userTable,業務要求查出成績最好的100位,在進行分表之前,只需一個order by語句就可以搞定,但是在進行分表之後,將需要n個order by語句,分別查出每一個分表的前100名用戶數據,然後再對這些數據進行合併計算,才能得出結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章