mysql分表方案


一、 概述

分表是個目前算是比較炒的比較流行的概念,特別是在大負載的情況下,分表是一個良好分散數據庫壓力的好方法。

首先要了解爲什麼要分表,分表的好處是什麼。我們先來大概瞭解以下一個數據庫執行SQL的過程:

接收到SQL --> 放入SQL執行隊列 --> 使用分析器分解SQL --> 按照分析結果進行數據的提取或者修改 --> 返回處理結果

當 然,這個流程圖不一定正確,這只是我自己主觀意識上這麼我認爲。那麼這個處理過程當中,最容易出現問題的是什麼?就是說,如果前一個SQL沒有執行完畢的 話,後面的SQL是不會執行的,因爲爲了保證數據的完整性,必須對數據表文件進行鎖定,包括共享鎖和獨享鎖兩種鎖定。共享鎖是在鎖定的期間,其它線程也可 以訪問這個數據文件,但是不允許修改操作,相應的,獨享鎖就是整個文件就是歸一個線程所有,其它線程無法訪問這個數據文件。一般MySQL中最快的存儲引 擎MyISAM,它是基於表鎖定的,就是說如果一鎖定的話,那麼整個數據文件外部都無法訪問,必須等前一個操作完成後,才能接收下一個操作,那麼在這個前 一個操作沒有執行完成,後一個操作等待在隊列裏無法執行的情況叫做阻塞,一般我們通俗意義上叫做鎖表

鎖表直接導致的後果是什麼?就是大量的SQL無法立即執行,必須等隊列前面的SQL全部執行完畢才能繼續執行。這個無法執行的SQL就會導致沒有結果,或者延遲嚴重,影響用戶體驗。

特別是對於一些使用比較頻繁的表,比如SNS系統中的用戶信息表、論壇系統中的帖子表等等,都是訪問量大很大的表,爲了保證數據的快速提取返回給用戶,必須使用一些處理方式來解決這個問題,這個就是我今天要聊到的分表技術。

分 表技術顧名思義,就是把若干個存儲相同類型數據的表分成幾個表分表存儲,在提取數據的時候,不同的用戶訪問不同的表,互不衝突,減少鎖表的機率。比如,目 前保存用戶分表有兩個表,一個是user_1表,還有一個是user_2 表,兩個表保存了不同的用戶信息,user_1 保存了前10萬的用戶信息,user_2保存了後10萬名用戶的信息,現在如果同時查詢用戶 heiyeluren1 和 heiyeluren2 這個兩個用戶,那麼就是分表從不同的表提取出來,減少鎖表的可能。

我下面要講述的兩種分表方法我自己都沒有實驗過,不保證準確能用,只是提供一個設計思路。下面關於分表的例子我假設是在一個貼吧系統的基礎上來進行處理和構建的。(如果沒有用過貼吧的用戶趕緊Google一下)

二、基於基礎表的分表處理

這 個基於基礎表的分表處理方式大致的思想就是:一個主要表,保存了所有的基本信息,如果某個項目需要找到它所存儲的表,那麼必須從這個基礎表中查找出對應的 表名等項目,好直接訪問這個表。如果覺得這個基礎錶速度不夠快,可以完全把整個基礎表保存在緩存或者內存中,方便有效的查詢。

我們基於貼吧的情況,構建假設如下的3張表:
1. 貼吧版塊表保存貼吧中版塊的信息
2. 貼吧主題表:保存貼吧中版塊中的主題信息,用於瀏覽
3. 貼吧回覆表:保存主題的原始內容和回覆內容

“貼吧版塊表包含如下字段:
版塊ID board_id int(10)
版塊名稱 board_name char(50)
子表ID table_id smallint(5)
產生時間 created datetime
“貼吧主題表包含如下字段:
主題ID topic_id int(10)
主題名稱 topic_name char(255)
版塊ID board_id int(10)
創建時間 created datetime
“貼吧回覆表的字段如下:
回覆ID reply_id int(10)
回覆內容 reply_text text
主題 ID topic_id int(10)
版塊ID board_id int(10)
創建時間 created datetime

那麼上面保存了我們整個貼吧中的表結構信息,三個表對應的關係是:
版塊 --> 多個主題
主題 --> 多個回覆
那麼就是說,表文件大小的關係是:
版塊表文件 主題表文件 回覆表文件

所以基本可以確定需要對主題表和回覆表進行分表,已增加我們數據檢索查詢更改時候的速度和性能。

看了上面的表結構,會明顯發現,在版塊表中保存了一個"table_id"字段,這個字段就是用於保存一個版塊對應的主題和回覆都是分表保存在什麼表裏的。

比如我們有一個叫做“PHP”的貼吧,board_id1,子表ID也是1,那麼這條記錄就是:
board_id | board_name | table_id | created
1 | PHP | 1 | 2007-01-19 00:30:12

相應的,如果我需要提取“PHP”吧裏的所有主題,那麼就必須按照表裏保存的table_id來組合一個存儲了主題的表名稱,比如我們主題表的前綴是 “topic_”,那麼組合出來“PHP”吧對應的主題表應該是:“topic_1”,那麼我們執行:

三 、基於Hash算法的分表處理

我們知道Hash表就是通過某個特殊的Hash算法計算出的一個值,這個值必須是惟一的,並且能夠使用這個計算出來的值查找到需要的值,這個叫做哈希表。

我們在分表裏的hash算法跟這個思想類似:通過一個原始目標的ID或者名稱通過一定的hash算法計算出數據存儲表的表名,然後訪問相應的表。

繼續拿上面的貼吧來說,每個貼吧有版塊名稱和版塊ID,那麼這兩項值是固定的,並且是惟一的,那麼我們就可以考慮通過對這兩項值中的一項進行一些運算得出一個目標表的名稱。

現在假如我們針對我們這個貼吧系統,假設系統最大允許1億條數據,考慮每個表保存100萬條記錄,那麼整個系統就不超過100個表就能夠容納。按照這個標準,我們假設在貼吧的版塊ID上進行hash,獲得一個key值,這個值就是我們的表名,然後訪問相應的表。

我們構造一個簡單的hash算法:
function get_hash($id){
$str = bin2hex($id);
$hash = substr($str, 0, 4);
if (strlen($hash)<4){
$hash = str_pad($hash, 4, "0");
}
return $hash;
}

算法大致就是傳入一個版塊ID值,然後函數返回一個4位的字符串,如果字符串長度不夠,使用0進行補全。

比 如:get_hash(1),輸出的結果是“3100”,輸入:get_hash(23819),得到的結果是:3233,那麼我們經過簡單的跟表前綴組 合,就能夠訪問這個表了。那麼我們需要訪問ID1的內容時候哦,組合的表將是:topic_3100reply_3100,那麼就可以直接對目標表進 行訪問了。

當然,使用hash算法後,有部分數據是可能在同一個表的,這一點跟hash表不同,hash表是儘量解決衝突,我們這裏不需要,當然同樣需要預測和分析表數據可能保存的表名。

如果需要存儲的數據更多,同樣的,可以對版塊的名字進行hash操作,比如也是上面的二進制轉換成十六進制,因爲漢字比數字和字母要多很多,那麼重複機率更小,但是可能組合成的表就更多了,相應就必須考慮一些其它的問題。

歸根結底,使用hash 方式的話必須選擇一個好的hash算法,才能生成更多的表,然數據查詢的更迅速。

【優點hash算法直接得出目標表名稱,效率很高】通過

【劣勢】擴展性比較差,選擇了一個hash算法,定義了多少數據量,以後只能在這個數據量上跑,不能超過過這個數據量,可擴展性稍差

四、其它問題

1. 搜索問題

現在我們已經進行分表了,那麼就無法直接對錶進行搜索,因爲你無法對可能系統中已經存在的幾十或者幾百個表進行檢索,所以搜索必須藉助第三方的組件來進行,比如Lucene作爲站內搜索引擎是個不錯的選擇。

2. 表文件問題

我 們知道MySQLMyISAM引擎每個表都會生成三個文件,*.frm*.MYD*.MYI 三個文件,分表用來保存表結構、表數據和表索引。Linux下面每個目錄下的文件數量最好不要超過1000個,不然檢索數據將更慢,那麼每個表都會生成三 個文件,相應的如果分表超過300個表,那麼將檢索非常慢,所以這時候就必須再進行分,比如在進行數據庫的分離。

使用基礎表,我們可以新增加一個字段,用來保存這個表保存在什麼數據。使用Hash的方式,我們必須截取hash值中第幾位來作爲數據庫的名字。這樣,完好的解決這個問題。

 一,先說一下爲什麼要分表

當一張的數據達到幾百萬時,你查詢一次所花的時間會變多,如果有聯合查詢的話,我想有可能會死在那兒了。分表的目的就在於此,減小數據庫的負擔,縮短查詢時間。

根據個人經驗,mysql執行一個sql的過程如下:
                                                                        1,接收到sql;2,sql放到排隊隊列中 ;3,執行sql;4,返回執行結果。

在這個執行過程中最花時間在什麼地方呢?

第一,是排隊等待的時間,

第二,sql的執行時間。

其實這二個是一回事,等待的同時,肯定有sql在執行。所以我們要縮短sql的執行時間。

mysql中有一種機制是表鎖定和行鎖定,爲什麼要出現這種機制,是爲了保證數據的完整性,我舉個例子來說吧,如果有二個sql都要修改同一張表的同一條數據,這個時候怎麼辦呢,是不是二個sql都可以同時修改這條數據呢?很顯然mysql對這種情況的處理是,一種是表鎖定(myisam存儲引擎),一個是行鎖定(innodb存儲引擎)。表鎖定表示你們都不能對這張表進行操作,必須等我對錶操作完才行。行鎖定也一樣,別的sql必須等我對這條數據操作完了,才能對這條數據進行操作。如果數據太多,一次執行的時間太長,等待的時間就越長,這也是我們爲什麼要分表的原因。

二,分表

1,做mysql集羣,例如:利用mysql cluster mysql proxymysql replicationdrdb等等

有人會問mysql集羣,根分表有什麼關係嗎?雖然它不是實際意義上的分表,但是它啓到了分表的作用,做集羣的意義是什麼呢?爲一個數據庫減輕負擔,說白了就是減少sql排隊隊列中的sql的數量,舉個例子:有10sql請求,如果放在一個數據庫服務器的排隊隊列中,他要等很長時間,如果把這10sql請求,分配到5個數據庫服務器的排隊隊列中,一個數據庫服務器的隊列中只有2個,這樣等待時間是不是大大的縮短了呢?這已經很明顯了。所以我把它列到了分表的範圍以內,我做過一些mysql的集羣:

linux mysql proxy 的安裝,配置,以及讀寫分離

mysql replication 互爲主從的安裝及配置,以及數據同步

優點:擴展性好,沒有多個分表後的複雜操作(php代碼)

缺點:單個表的數據量還是沒有變,一次操作所花的時間還是那麼多,硬件開銷大。

2,預先估計會出現大數據量並且訪問頻繁的表,將其分爲若干個表

這種預估大差不差的,論壇裏面發表帖子的表,時間長了這張表肯定很大,幾十萬,幾百萬都有可能。 聊天室裏面信息表,幾十個人在一起一聊一個晚上,時間長了,這張表的數據肯定很大。像這樣的情況很多。所以這種能預估出來的大數據量表,我們就事先分出個 N個表,這個N是多少,根據實際情況而定。以聊天信息表爲例:

我事先建100個這樣的表,message_00,message_01,message_02……….message_98,message_99.然後根據用戶的ID來判斷這個用戶的聊天信息放到哪張表裏面,你可以用hash的方式來獲得,可以用求餘的方式來獲得,方法很多,各人想各人的吧。下面用hash的方法來獲得表名:

查看複製打印?
< ?php 
function get_hash_table($table,$userid) { 
$str = crc32($userid); 
if($str<0){ 
$hash = "0".substr(abs($str), 0, 1); 
}else{ 
$hash = substr($str, 0, 2); 


return $table."_".$hash; 


echo get_hash_table('message','user18991'); //結果爲message_10 
echo get_hash_table('message','user34523'); //結果爲message_13 
?> 

< ?php function get_hash_table($table,$userid) { $str = crc32($userid); if($str<0){ $hash = "0".substr(abs($str), 0, 1); }else{ $hash = substr($str, 0, 2); } return $table."_".$hash; } echo get_hash_table('message','user18991'); //結果爲message_10 echo get_hash_table('message','user34523'); //結果爲message_13 ?>

說明一下,上面的這個方法,告訴我們user18991這個用戶的消息都記錄在message_10這張表裏,user34523這個用戶的消息都記錄在message_13這張表裏,讀取的時候,只要從各自的表中讀取就行了。

優點:避免一張表出現幾百萬條數據,縮短了一條sql的執行時間

缺點:當一種規則確定時,打破這條規則會很麻煩,上面的例子中我用的hash算法是crc32,如果我現在不想用這個算法了,改用md5後,會使同一個用戶的消息被存儲到不同的表中,這樣數據亂套了。擴展性很差。

3,利用merge存儲引擎來實現分表

我覺得這種方法比較適合,那些沒有事先考慮,而已經出現了得,數據查詢慢的情況。這個時候如果要把已有的大數據量表分開比較痛苦,最痛苦的事就是改代碼,因爲程序裏面的sql語句已經寫好了,現在一張表要分成幾十張表,甚至上百張表,這樣sql 語句是不是要重寫呢?舉個例子,我很喜歡舉子

mysql>show engines;的時候你會發現mrg_myisam其實就是merge

查看複製打印?
mysql> CREATE TABLE IF NOT EXISTS `user1` ( 
-> `id` int(11) NOT NULL AUTO_INCREMENT, 
-> `name` varchar(50) DEFAULT NULL, 
-> `sex` int(1) NOT NULL DEFAULT '0', 
-> PRIMARY KEY (`id`) 
-> ) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ; 
Query OK, 0 rows affected (0.05 sec) 

mysql> CREATE TABLE IF NOT EXISTS `user2` ( 
-> `id` int(11) NOT NULL AUTO_INCREMENT, 
-> `name` varchar(50) DEFAULT NULL, 
-> `sex` int(1) NOT NULL DEFAULT '0', 
-> PRIMARY KEY (`id`) 
-> ) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ; 
Query OK, 0 rows affected (0.01 sec) 

mysql> INSERT INTO `user1` (`name`, `sex`) VALUES('張映', 0); 
Query OK, 1 row affected (0.00 sec) 

mysql> INSERT INTO `user2` (`name`, `sex`) VALUES('tank', 1); 
Query OK, 1 row affected (0.00 sec) 

mysql> CREATE TABLE IF NOT EXISTS `alluser` ( 
-> `id` int(11) NOT NULL AUTO_INCREMENT, 
-> `name` varchar(50) DEFAULT NULL, 
-> `sex` int(1) NOT NULL DEFAULT '0', 
-> INDEX(id) 
-> ) TYPE=MERGE UNION=(user1,user2) INSERT_METHOD=LAST AUTO_INCREMENT=1 ; 
Query OK, 0 rows affected, 1 warning (0.00 sec) 

mysql> select id,name,sex from alluser; 
+----+--------+-----+ 
| id | name | sex | 
+----+--------+-----+ 
| 1 | 張映 | 0 | 
| 1 | tank | 1 | 
+----+--------+-----+ 
2 rows in set (0.00 sec) 

mysql> INSERT INTO `alluser` (`name`, `sex`) VALUES('tank2', 0); 
Query OK, 1 row affected (0.00 sec) 

mysql> select id,name,sex from user2 
-> ; 
+----+-------+-----+ 
| id | name | sex | 
+----+-------+-----+ 
| 1 | tank | 1 | 
| 2 | tank2 | 0 | 
+----+-------+-----+ 
2 rows in set (0.00 sec) 

mysql> CREATE TABLE IF NOT EXISTS `user1` ( -> `id` int(11) NOT NULL AUTO_INCREMENT, -> `name` varchar(50) DEFAULT NULL, -> `sex` int(1) NOT NULL DEFAULT '0', -> PRIMARY KEY (`id`) -> ) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ; Query OK, 0 rows affected (0.05 sec) mysql> CREATE TABLE IF NOT EXISTS `user2` ( -> `id` int(11) NOT NULL AUTO_INCREMENT, -> `name` varchar(50) DEFAULT NULL, -> `sex` int(1) NOT NULL DEFAULT '0', -> PRIMARY KEY (`id`) -> ) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ; Query OK, 0 rows affected (0.01 sec) mysql> INSERT INTO `user1` (`name`, `sex`) VALUES('張映', 0); Query OK, 1 row affected (0.00 sec) mysql> INSERT INTO `user2` (`name`, `sex`) VALUES('tank', 1); Query OK, 1 row affected (0.00 sec) mysql> CREATE TABLE IF NOT EXISTS `alluser` ( -> `id` int(11) NOT NULL AUTO_INCREMENT, -> `name` varchar(50) DEFAULT NULL, -> `sex` int(1) NOT NULL DEFAULT '0', -> INDEX(id) -> ) TYPE=MERGE UNION=(user1,user2) INSERT_METHOD=LAST AUTO_INCREMENT=1 ; Query OK, 0 rows affected, 1 warning (0.00 sec) mysql> select id,name,sex from alluser; +----+--------+-----+ | id | name | sex | +----+--------+-----+ | 1 | 張映 | 0 | | 1 | tank | 1 | +----+--------+-----+ 2 rows in set (0.00 sec) mysql> INSERT INTO `alluser` (`name`, `sex`) VALUES('tank2', 0); Query OK, 1 row affected (0.00 sec) mysql> select id,name,sex from user2 -> ; +----+-------+-----+ | id | name | sex | +----+-------+-----+ | 1 | tank | 1 | | 2 | tank2 | 0 | +----+-------+-----+ 2 rows in set (0.00 sec)

從上面的操作中,我不知道你有沒有發現點什麼?假如我有一張用戶表user,有50W條數據,現在要拆成二張表user1user2,每張表25W條數據,

INSERT INTO user1(user1.id,user1.name,user1.sex)SELECT (user.id,user.name,user.sex)FROM user where user.id <= 250000

INSERT INTO user2(user2.id,user2.name,user2.sex)SELECT (user.id,user.name,user.sex)FROM user where user.id > 250000

這樣我就成功的將一張user表,分成了二個表,這個時候有一個問題,代碼中的sql語句怎麼辦,以前是一張表,現在變成二張表了,代碼改動很大,這樣給程序員帶來了很大的工作量,有沒有好的辦法解決這一點呢?辦法是把以前的user表備份一下,然後刪除掉,上面的操作中我建立了一個alluser表,只把這個alluser表的表名改成user就行了。但是,不是所有的mysql操作都能用的

a,如果你使用 alter table 來把 merge 表變爲其它表類型,到底層表的映射就被丟失了。取而代之的,來自底層myisam 表的行被複制到已更換的表中,該表隨後被指定新類型。

b,網上看到一些說replace不起作用,我試了一下可以起作用的。暈一個先

mysql> UPDATE alluser SET sex=REPLACE(sex, 0, 1) where id=2; 
Query OK, 1 row affected (0.00 sec) 
Rows matched: 1 Changed: 1 Warnings: 0 

mysql> select * from alluser; 
+----+--------+-----+ 
| id | name | sex | 
+----+--------+-----+ 
| 1 | 張映 | 0 | 
| 1 | tank | 1 | 
| 2 | tank2 | 1 | 
+----+--------+-----+ 
3 rows in set (0.00 sec) 

mysql> UPDATE alluser SET sex=REPLACE(sex, 0, 1) where id=2; Query OK, 1 row affected (0.00 sec) Rows matched: 1 Changed: 1 Warnings: 0 mysql> select * from alluser; +----+--------+-----+ | id | name | sex | +----+--------+-----+ | 1 | 張映 | 0 | | 1 | tank | 1 | | 2 | tank2 | 1 | +----+--------+-----+ 3 rows in set (0.00 sec)

c,一個 merge 表不能在整個表上維持 unique 約束。當你執行一個 insert,數據進入第一個或者最後一個 myisam表(取決於 insert_method 選項的值)。mysql 確保唯一鍵值在那個 myisam 表裏保持唯一,但不是跨集合裏所有的表。

d,當你創建一個 merge 表之時,沒有檢查去確保底層表的存在以及有相同的機構。當 merge 表被使用之時,mysql檢查每個被映射的表的記錄長度是否相等,但這並不十分可靠。如果你從不相似的 myisam 表創建一個 merge 表,你非常有可能撞見奇怪的問題。

好睏睡覺了,cd在網上看到的,沒有測試,大家試一下吧。

優點:擴展性好,並且程序代碼改動的不是很大

缺點:這種方法的效果比第二種要差一點

三,總結一下

上面提到的三種方法,我實際做過二種,第一種和第二種。第三種沒有做過,所以說的細一點。哈哈。做什麼事都有一個度,超過個度就過變得很差,不能一味的做數據庫服務器集羣,硬件是要花錢買的,也不要一味的分表,分出來1000表,mysql的存儲歸根到底還以文件的形勢存在硬盤上面,一張表對應三個文件,1000個分表就是對應3000個文件,這樣檢索起來也會變的很慢。我的建議是

方法1和方法2結合的方式來進行分表

方法1和方法3結合的方式來進行分表

我的二個建議適合不同的情況,根據個人情況而定,我覺得會有很多人選擇方法1和方法3結合的方式。


轉載自:http://lxy2330.iteye.com/blog/1672307


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章