本文內容出自劉欣的“碼農翻身”公衆號,強烈推薦劉欣大大的文章。
數據庫的前世今生
小李的數據庫之旅
無紙化辦公
小李是這個大學計算機科學與技術系的知名學生,他的編程能力了得,使用Pascal 爐火純青,這都是高中期間參加全國青少年信息學奧林匹克競賽打下的底子, 雖然沒有獲過獎,但在80年代末,90年代初很多人都不知道計算機是何物的時候,人家就可以在上面寫程序了, 是非常讓人敬佩的事情。
所以一入學,輔導員就找到小李讓他幫忙給系裏開發個信息系統, 記錄系裏的學生信息,課程信息, 還有選課, 這樣的話就可以無紙化辦公了 。
小李覺得這只是一個基於命令行的程序, 無非是增刪改查嘛,就滿口應承下來, 然後祭出Pascal 大法,準備大幹一場。
輔導員把相關的資料也送來了, 這學生信息無非是[學號,姓名,性別,身份號,入學日期,班級] 等信息。
課程信息也就是[課程號,課程名,授課老師] , 選課是[學號,課程號,成績]
有了基本的數據結構, 小李決定用三個獨立的文本文件來存儲這些信息, 比如說student.txt 中的內容是這樣:
第一行是表頭, 其他行是內容,都用逗號分開 。
剩下的兩個文件的格式和這個差不多。
編程工作進展的非常順利, 最重要的部分無非就是用Pascal讀寫文件而已, 一週不到就完工了, 現在程序架構是這個樣子的:
這個單機版的信息系統就這麼運行了起來,效果還不錯。
數據的冗餘和不一致
商學院的主任聽說計科系有了這麼一個系統, 不由的也打起來注意, 輔導員就讓小李用軟盤拷貝了一份過去, 商學院也順利用來起了。
可是有些計科系的學生到商學院去選修經濟學的課程時, 發現還得再輸入一遍學生信息, 這實在是太煩人了。
小李也沒辦法, 畢竟這是兩套系統啊, 只有採用土辦法, 把計科系的student.txt 複製了一份到商學院。
這樣一來數據的重複難於避免了, 更有可能出現數據不一致的地方, 比如地址信息在計科系改了, 但是商學院沒改。
後來輔導員說數學系自己也搞了一個類似的系統, 不是用Pascal而是用C寫的, 數據格式和小李定義的還不一樣, 小李想把Student.txt複製過去也不可能了。
小李想要是學校所有的院系都用這麼一套系統就好了。 其實學校領導也看到了這個問題, 只是現在的校內局域網還沒有建立起來, 大家用同一套系統並不現實。
李氏查詢
到了期末, 計科系和商學院的老師紛紛給小李打電話:
“小李,我想統計一下這個學期操作系統課有哪些人沒及格, 多少人在80分以上, 你能幫忙弄弄嗎?”
“小李,我想算一下經濟學的平均分, 能不能程序實現一下? 學生太多,手工算太麻煩了 ”
......
爲了應付這些“變態”的需求, 小李假期幾乎沒怎麼休息, 不停的用PASCAL寫各種各樣的功能。
可是這種需求似乎無窮無盡, 總結一下,無非就是對這些文件的各種各樣的查詢而已。
難道讓老師們直接去文件中查找和計算嗎? 顯然不行。
小李想起了一句話: “ 所有計算機的問題都可以通過增加一箇中間層來解決”
那提供一箇中間層吧, 把文件層屏蔽掉, 讓老師們在這個中間層用自己熟悉的術語進行查詢。
中間層上要有邏輯的數據結構,其實就是這些東西:
學生信息:[學號,姓名,性別,入學日期,班級,地址]
課程信息:[課程號,課程名,授課老師]
選課 :[學號,課程號,成績]
小李決定把這些東西稱爲“表” ,其中的每一項稱爲“列”/“字段”/“屬性”, 每一列都有類型,例如字符型,日期型,數字型等等
查詢的話是用類似這樣進行的:
SELECT 學號,姓名
FROM 學生信息
WHERE 入學日期='1991-9-1'
想把幾個表連接起來查詢也可以:
SELECT 學號,姓名, 課程名,成績
FROM 學生信息 s , 課程信息 c, 選課 sc
ON s.學號=sc.學號 AND c.課程號=sc.課程號
WHERE 課程名='操作系統' AND 成績<60
很明顯小李需要寫一個解析器, 把這樣的語句變成內部對文件的操作, 還好小李已經有一點編譯原理的基礎了, 努力一下還是能寫出來的。
小李把查詢規則給各個老師做了個簡單的培訓, 從此以後, 只要不是超級複雜的查詢, 老師們自己就搞定了,再也不用騷擾小李了。
無心插柳柳成蔭,小李忽然發現,自己的程序也可以調用這樣的抽象層來編程啊, 也不用直接操作文件了, 簡化了好多。
小李得意的把這套查詢稱爲“李氏查詢” , 李氏查詢用起來簡便快捷, 最大的好處是用戶完全不用考慮物理層的那些文件的結構,只需要關注邏輯層的“表”就可以了。
(碼農翻身注:其實就是SQL了)
可是小李一直是隱隱覺得不安, 不知道這種查詢方式有沒有漏洞, 後來看到埃德加·弗蘭克·科德 的論文 “A Relational Model of Data for Large Shared Data banks(大型共享數據庫的關係模型)”,
這才明白,其實這就是所謂的關係模型啊, 其背後的有着堅實的數學基礎, 肯定是沒有問題的。
有了一箇中間的邏輯層, 還帶來了一個額外的好處,現在小李可以對物理層的文件存儲做一些優化了, 爲了加快訪問速度, 小李不再採用簡單的逗號分隔的文件, 還增加了索引、B+樹,緩存等手段。
由於有中間層的存在,這些變化對應用層沒有什麼影響。
接上篇《小李的數據庫之旅(上)》, 上回說到小李用一箇中間邏輯層解決了普通人也能查詢數據的問題, 很快新的挑戰就來了。
併發訪問
校園的局域網很快就建立起來, 原來單機的軟件紛紛轉爲支持網絡訪問的系統, 學校爲了統一各系的信息系統管理, 要從現有的系統中擇優選擇一個,升級成局域網可訪問的, 然後全校擴展。
小李的軟件和數學系的,電子系的一起競爭, 相比而言,數學系的系統採用了網狀的結構, 電子系的採用了層次結構, 無論是哪種結構, 使用者都需要知道精確的內部結構以後纔有可能進行查詢, 相比“李氏查詢” 實在是太過繁瑣。 小李的系統以很大的優勢勝出了。
小李剛學會了C語言, 覺得這種語言更加貼近硬件,效率更高,更適合寫這些“系統級”的軟件, 於是決定保留之前的設計, 然後用C重寫。
當然不僅僅是重構, 還包含了重要的功能增強:網絡訪問, 從單機軟件變成了客戶端-服務器結構(C/S)的軟件。
學校購買了一個性能強勁的IBM服務器作爲服務全校的中心數據節點, 小李的軟件部署在了上面, 想着自己的軟件被這麼多教職工使用, 小李覺得很有成就感。
好景不長, 小李很快就發現網絡版軟件的複雜度要遠遠超過單機版, 這不馬上就有老師爆出了一個超級大問題。
王老師對一個學生的地址進行了更新, 張老師對另外一個學生的地址也做了更改, 後來發現王老師的修改不見了, 這是怎麼回事?
小李看了代碼,很快就發現在單機版的時候, 原來的操作都是基於整個文件的: 讀入文件內容, 做修改, 然後寫入文件, 很明顯, 王老師的修改在前,張老師的修改在後, 王老師的被覆蓋了。
真是個嚴重的問題, 恰逢週末, 小李趕緊通宵達旦的修改, 升級系統,把基於文件的操作改變成基於行的操作: 每個人的修改隻影響這一行。
小李覺得這樣應該沒問題了, 可是很快就發生了兩個人對同一行的修改:
電子系的賬戶有1000元, 劉老師支取了300, 金老師支取了200 , 最後賬戶的餘額竟然是800元 ! 實際應該是500元啊。
這是個極爲嚴重的錯誤, 系統被迫停止了幾天專門來修復這個問題。
一個解決的辦法就是給這一行加鎖, 在劉老師讀取了1000元, 扣除300元,並且把700 寫回到數據庫之前, 不允許金老師操作,這樣就不會亂掉了。
原子性問題
小李找了幾個同學,仔細的審查了程序,確保一些重要的更新操作都有行鎖, 這次稍微鬆了一口氣。
可是一次非常偶然的系統故障有暴露了一個從沒有想過的大問題:
當時電子系的賬戶有1000元, 數學系有2000元, 電子系要給數學系轉賬200元, 系統先扣除了電子系的賬戶錢的錢,變成了800 , 正要往數學系上面增加餘額的時候, 系統出了故障,崩潰了。
重啓以後,就發現電子系的餘額是對的, 可是數學系還是2000元, 那200元丟了 !
很明顯, 轉賬這個操作,必須得是原子的: 要麼全部發生, 要麼根本不發生。
小李決定把類似這樣的操作叫做“事務”, 但是怎麼實現呢?
小李苦思冥想, 終於放了一個大招: 記錄日誌 !
在做真正的操作之前,先把要做的事記錄下來形成日誌(Log),這個日誌中包括修改的數據項標識, 數據項的舊值(修改前的值)和新值(修改後的值), 然後再進行真正的數據庫修改。
剛開始的時候事務處於活動狀態, 只有所有的操作都正確無誤的寫入了磁盤,纔會進入提交狀態, 否則就要回滾修改。
(碼農翻身注: 除了原子性之外,事務還有持久性,隔離性,一致性,這裏就不展開了)
安全
有一天系主任找到小李,提了一個全新的問題:
“小李啊,能不能添加一點權限控制? 比方說系裏的財務狀況只能我和財務人員知道, 現在每個人都可以查詢,這成什麼樣子?”
小李心想確實是這樣, 一個沒有權限控制的系統是非常危險的, 尤其是隨意刪除, 那還了得?!
趕緊加上一個權限系統, 小李想了想, 先定義三大類權限:
1. 對數據操作的, 例如SELECT, UPDATE, INSERT等
2. 對結構操作的, 例如創建表,修改表,等
3. 做管理的, 例如備份數據, 創建用戶等
然後就可以把這些權限授予某個用戶了, 很多時候,還需要把表附加上, 像這樣:
GRANT SELECT on 財務表 to 系主任
GRANT CREATE_TABLE to 張老師
(碼農翻身注: 這裏模仿了mysql)
解決了如此多棘手的問題以後, 小李的信息系統已經非常複雜了,實際上,這個系統的中間層完全可以剝離出來,形成一個完整的軟件了, 小李把它稱爲:數據庫
丟失的數據
旺財是數據庫村的一個程序, 小強也是。
數據庫村有個特點, 很多數據支持共享操作,多個程序可以同時讀寫,他們倆經常會爲了讀寫同一個數據, 爭奪的不可開交。
這一天,當旺財和小強對同一個銀行賬戶A進行寫操作時候, 出現了這麼一個錯誤:
看看, 本來旺財要加上的20元就丟掉了。
同樣的事情發生的多了, 他倆給這種情況起了一個名字,叫“丟失修改”, 其實說白了就是倆人都去寫一個數據, 一個人的數據把另外一個給覆蓋了。
村裏的Mysql說: “你們兩個小傢伙,寫數據的時候連加鎖都不做,肯定會出大亂子!"
旺財說:“加什麼鎖?”
“來來來, 我教你們一個排他鎖(Exclusive Lock) , 簡稱X鎖, 旺財你要寫數據了, 就把它用X鎖鎖住, 鎖住後,除非你釋放, 否則小強無法獲得X鎖。 這不就解決你們的問題了? ”
小強想了想, 就把上面的操作過程用X鎖改了一下:
旺財說:“果然不錯, 確實可以解決兩個人同時修改導致的問題。”
髒數據
小強說:“旺財, 我們約定,寫數據的時候都用X鎖吧?”
旺財說: “這沒問題, 可是X鎖只在寫數據的時候用, 我們讀數據是不用加鎖的, 我想起了一種情況, 你看看怎麼辦?”
小強在旺財執行的途中讀了A的值, 但是旺財把對A的修改給回滾(Rollback)了, 這下小強尷尬了, 他讀到了髒數據。
“要不我們在讀取數據的時候也加個X鎖 ? ” 小強說。
“那樣太嚴格了, 就是讀一個數據啊, 值得嗎?”
“這樣吧, 我們再搞一個新的鎖出來, 專門用於共享數據的讀取, 就叫共享鎖(Share lock) ,簡稱S鎖, 這個鎖和之前的排他鎖X鎖有區別, 主要用於讀取數據, 如果一個數據加了X鎖, 就沒法加S鎖, 同樣加了S鎖, 就沒法加X鎖” 小強想出了一個點子。
“那如果我加了S鎖, 你還能加S鎖嗎? ” 旺財問。
“應該可以吧, 咱們倆都是讀數據, 互不影響啊。 還有爲了防止長時間的鎖住, 我們可以約定一下,不管我們要做的事情有多少, 讀一個數據之前加S鎖, 讀完之後立刻釋放該S鎖 ! ”
果然,這樣一來“髒數據”的問題就解決了 !
沒法重複讀?
旺財和小強兩個程序相安無事了很久, 但是S鎖在讀完數據後立刻釋放的約定, 導致出了一個新問題。
旺財在一次數據處理中, 先讀取了A和B的值, 相加得到了150 , 然後小強把B改成了30
旺財再次讀取A和B, 發現求和以後是130 , 剛纔的不一樣了!
(碼農翻身注: 假定旺財的處理是在一個事務當中)
旺財說: “小強, 我在讀取數據的時候你不能改啊 , 要不然我這裏會出現不一致, 你看剛開始是A+B是 150, 現在變成130了”
小強說: “我們之前的約定是讀數據時加S鎖, 讀完立馬釋放, 問題就出現在這裏了。”
“看來在讀數據的時候, 也需要一直鎖定了, 直到事務提交。”
幻覺出現
旺財和小強現在已經能靈活的使用X鎖和S鎖了。
他們倆總結了一下, 分爲了這麼幾種情況:
1. 寫數據時加上X鎖,直到事務結束, 讀的時候不加鎖。
雖然能夠避免丟失數據, 但是可以讀到沒有提交或者回滾的內容 (髒數據), 這其實就是數據庫最低的事務隔離級別 --- Read uncommitted
2. 寫數據的時候加上X鎖, 直到事務結束, 讀的時候加上S鎖, 讀完數據立刻釋放。
這能避免“丟失數據”和“髒數據”, 但是會出現“不可重複讀”的問題 , 這是第二級的事務隔離級別 -- Read committed
3. 寫數據的時候加上X鎖, 直到事務結束, 讀數據的時候加S鎖, 也是直到事務結束。
這能避免“丟失數據”和“髒數據”, “不可重複讀”三個問題 , 這是數據庫常用的隔離級別 --
Repeatable read
整個世界似乎清淨了。
有一次旺財對一個“學生表”進行操作,選取了年齡是18歲的所有行, 用X鎖鎖住, 並且做了修改。
改完以後旺財再次選擇所有年齡是18歲的行, 想做一個確認, 沒想到有一行竟然沒有修改!
這是怎麼回事? 出了幻覺嗎?
原來就在旺財查詢並修改的的時候, 小強也對學生表進行操作, 他插入了一個新的行,其中的年齡也是18歲! 雖然兩個人的修改都沒有問題, 互不影響, 但從最終效果看, 還是出了事。
(碼農翻身注: 正是小強的操作, 讓旺財出現了“幻讀”)
旺財說: “沒轍了, 我們倆非得串行執行不可, 你必須得等我執行完。 ”
這就是數據庫事務隔離級別的終極大招:Serializable
最後, 爲了方便記憶, 他們倆倒騰了半天, 整出了一張表, 用於記錄各種情況:
(點擊看大圖)
兩個人看着這張表, 感慨的說:“唉, 這數據庫村的事務隔離級別可真是不容易啊!”
Mysql 不屑一顧的說: “這都嫌麻煩了, 你們還沒遇到死鎖呢....”
微信公衆號【黃小斜】作者是螞蟻金服 JAVA 工程師,專注於 JAVA 後端技術棧:SpringBoot、SSM全家桶、MySQL、分佈式、中間件、微服務,同時也懂點投資理財,堅持學習和寫作,相信終身學習的力量!關注公衆號後回覆”架構師“即可領取 Java基礎、進階、項目和架構師等免費學習資料,更有數據庫、分佈式、微服務等熱門技術學習視頻,內容豐富,兼顧原理和實踐,另外也將贈送作者原創的Java學習指南、Java程序員面試指南等乾貨資源
添加描述