IO系統性能之二：緩存和RAID如何提高磁盤IO性能

從上一篇文章的計算中我們可以看到一個15k轉速的磁盤在隨機讀寫訪問的情況下IOPS竟然只有140左右，但在實際應用中我們卻能看到很多標有5000IOPS甚至更高的存儲系統，有這麼大IOPS的存儲系統怎麼來的呢？這就要歸結於各種存儲技術的使用了，在這些存儲技術中使用最廣的就是高速緩存(Cache)和磁盤冗餘陣列(RAID)了，本文就將探討緩存和磁盤陣列提高存儲IO性能的方法。

高速緩存(Cache)

在當下的各種存儲產品中，按照速度從快到慢應該就是內存>閃存>磁盤>磁帶了，然而速度越快也就意味着價格越高，閃存雖然說是發展勢頭很好，但目前來說卻還是因爲價格問題無法普及，因此現在還是一個磁盤作霸王的時代。與CPU和內存速度相比，磁盤的速度無疑是計算機系統中最大的瓶頸了，所以在必須使用磁盤而又想提高性能的情況下，人們想出了在磁盤中嵌入一塊高速的內存用來保存經常訪問的數據從而提高讀寫效率的方法來折中的解決，這塊嵌入的內存就被稱爲高速緩存。

說到緩存，這東西應用現在已經是無處不在，從處於上層的應用，到操作系統層，再到磁盤控制器，還有CPU內部，單個磁盤的內部也都存在緩存，所有這些緩存存在的目的都是相同的，就是提高系統執行的效率。當然在這裏我們只關心跟IO性能相關的緩存，與IO性能直接相關的幾個緩存分別是文件系統緩存(File System Cache)、磁盤控制器緩存(Disk Controller Cache)和磁盤緩存(Disk Cache,也稱爲Disk Buffer)，不過當在計算一個磁盤系統性能的時候文件系統緩存也是不會考慮在內的，因此我們重點考察的就是磁盤控制器緩存和磁盤緩存。

不管是控制器緩存還是磁盤緩存，他們所起的作用主要是分爲三部分：緩存數據、預讀(Read-ahead)和回寫(Write-back)。

緩存數據

首先是系統讀取過的數據會被緩存在高速緩存中，這樣下次再次需要讀取相同的數據的時候就不用在訪問磁盤，直接從緩存中取數據就可以了。當然使用過的數據也不可能在緩存中永久保留的，緩存的數據一般那是採取LRU算法來進行管理，目的是將長時間不用的數據清除出緩存，那些經常被訪問的卻能一直保留在緩存中，直到緩存被清空。

預讀

預讀是指採用預讀算法在沒有系統的IO請求的時候事先將數據從磁盤中讀入到緩存中，然後在系統發出讀IO請求的時候，就會實現去檢查看看緩存裏面是否存在要讀取的數據，如果存在（即命中）的話就直接將結果返回，這時候的磁盤不再需要尋址、旋轉等待、讀取數據這一序列的操作了，這樣是能節省很多時間的；如果沒有命中則再發出真正的讀取磁盤的命令去取所需要的數據。

緩存的命中率跟緩存的大小有很大的關係，理論上是緩存越大的話，所能緩存的數據也就越多，這樣命中率也自然越高，當然緩存不可能太大，畢竟成本在那兒呢。如果一個容量很大的存儲系統配備了一個很小的讀緩存的話，這時候問題會比較大的，因爲小緩存緩存的數據量非常小，相比整個存儲系統來說比例非常低，這樣隨機讀取（數據庫系統的大多數情況）的時候命中率也自然就很低，這樣的緩存不但不能提高效率（因爲絕大部分讀IO都還要讀取磁盤），反而會因爲每次去匹配緩存而浪費時間。

執行讀IO操作是讀取數據存在於緩存中的數量與全部要讀取數據的比值稱爲緩存命中率(Read Cache Hit Radio)，假設一個存儲系統在不使用緩存的情況下隨機小IO讀取能達到150IOPS，而它的緩存能提供10%的緩存命中率的話，那麼實際上它的IOPS可以達到150/(1-10%)=166。

回寫

首先說一下，用於回寫功能的那部分緩存被稱爲寫緩存(Write Cache)。在一套寫緩存打開的存儲中，操作系統所發出的一系列寫IO命令並不會被挨個的執行，這些寫IO的命令會先寫入緩存中，然後再一次性的將緩存中的修改推到磁盤中，這就相當於將那些相同的多個IO合併成一個，多個連續操作的小IO合併成一個大的IO，還有就是將多個隨機的寫IO變成一組連續的寫IO，這樣就能減少磁盤尋址等操作所消耗的時間，大大的提高磁盤寫入的效率。

讀緩存雖然對效率提高是很明顯的，但是它所帶來的問題也比較嚴重，因爲緩存和普通內存一樣，掉點以後數據會全部丟失，當操作系統發出的寫IO命令寫入到緩存中後即被認爲是寫入成功，而實際上數據是沒有被真正寫入磁盤的，此時如果掉電，緩存中的數據就會永遠的丟失了，這個對應用來說是災難性的，目前解決這個問題最好的方法就是給緩存配備電池了，保證存儲掉電之後緩存數據能如數保存下來。

和讀一樣，寫緩存也存在一個寫緩存命中率(Write Cache Hit Radio)，不過和讀緩存命中情況不一樣的是，儘管緩存命中，也不能將實際的IO操作免掉，只是被合併了而已。

控制器緩存和磁盤緩存除了上面的作用之外還承當着其他的作用，比如磁盤緩存有保存IO命令隊列的功能，單個的磁盤一次只能處理一個IO命令，但卻能接收多個IO命令，這些進入到磁盤而未被處理的命令就保存在緩存中的IO隊列中。

RAID(Redundant Array Of Inexpensive Disks)

如果你是一位數據庫管理員或者經常接觸服務器，那對RAID應該很熟悉了，作爲最廉價的存儲解決方案，RAID早已在服務器存儲中得到了普及。在RAID的各個級別中，應當以RAID10和RAID5（不過RAID5已經基本走到頭了，RAID6正在崛起中，看看這裏瞭解下原因）應用最廣了。下面將就RAID0，RAID1，RAID5，RAID6，RAID10這幾種級別的RAID展開說一下磁盤陣列對於磁盤性能的影響，當然在閱讀下面的內容之前你必須對各個級別的RAID的結構和工作原理要熟悉才行，這樣才不至於滿頭霧水，推薦查看wikipedia上面的如下條目：RAID，Standard RAID levels，Nested RAID levels。

RAID0

RAID0將數據條帶化(striping)將連續的數據分散在多個磁盤上進行存取，系統發出的IO命令（不管讀IO和寫IO都一樣）就可以在磁盤上被並行的執行，每個磁盤單獨執行自己的那一部分請求，這樣的並行的IO操作能大大的增強整個存儲系統的性能。假設一個RAID0陣列有n(n>=2)個磁盤組成，每個磁盤的隨機讀寫的IO能力都達到140的話，那麼整個磁盤陣列的IO能力將是140*n。同時如果在陣列總線的傳輸能力允許的話RAID0的吞吐率也將是單個磁盤的n倍。

RAID1

RAID1在容量上相當於是將兩個磁盤合併成一個磁盤來使用了，互爲鏡像的兩個磁盤裏面保存的數據是完全一樣的，因此在並行讀取的時候速度將是n個磁盤速度的總和，但是寫入就不一樣了，每次寫入都必須同時寫入到兩個磁盤中，因此寫入速度只有n/2。

RAID5

我們那一個有n(n>=3)個磁盤的RAID5陣列來看，首先看看RAID5陣列的讀IO，RAID5是支持並行IO的，而磁盤上的數據呈條帶狀的分佈在所有的磁盤上，因此讀IO的速度相當於所有磁盤速度的總和。不過這是在沒有磁盤損壞的情況下，當有一個磁盤故障的時候讀取速度也是會下降的，因爲中間需要花時間來計算丟失磁盤上面的數據。

讀取數據的情況相對就要複雜的多了，先來看下RAID5奇偶校驗數據寫入的過程，我們把寫入的數據稱爲D1，當磁盤拿到一個寫IO的命令的時候，它首先會讀取一次要入的地址的數據塊中修改之前的數據D0，然後再讀取到當前條帶中的校驗信息P0，接下來就根據D0，P0，D1這三組數據計算出數據寫入之後的條帶的奇偶校驗信息P1，最後發出兩個寫IO的命令，一個寫入D1，另一個寫入奇偶校驗信息P1。可以看出陣列在實際操作的時候需要讀、讀、寫、寫一共4個IO才能完成一次寫IO操作，也就是實際上的寫入速度只有所有磁盤速度總和的1/4。從這點可以看出RAID5是非常不適合用在要大批量寫入數據的系統上的。

RAID6

RAID6和RAID5很類似，差別就在於RAID6多了一個用於校驗的磁盤。就寫IO速度上來說這兩個是完全一樣的，都是所有磁盤IO速度的總和。

在寫IO上也很是類似，不同的是RAID將一個命令分成了三次讀、三次寫一共6次IO命令才能完成，也就是RAID6實際寫入磁盤的速度是全部磁盤速度之和的1/6。可以看出從寫IO看RAID6比RAID5差別是很大的。

RAID10

RAID0讀寫速度都很好，卻沒有冗餘保護；RAID5和RAID6都有同樣的毛病就是寫入的時候慢，讀取的時候快。那麼RAID1呢？嗯，這裏要說的就是RAID1，其實不管是RAID10還是RAID01，其實都是組合大於2塊磁盤時候的RAID1，當先鏡像後條帶時候就稱爲RAID10，先條帶後鏡像的時候稱爲RAID01。從性能上看RAID01和RAID10都是一樣的，都是RAID1嘛，但是RAID10在重建故障磁盤的時候性能比RAID01要快。

因爲RAID10其實就是RAID1，所以它的性能與RAID1也就是一樣的了，這裏不需要再做過多的討論。

四個性能指標的變化

IO響應時間(IO Response Time)

在任何時候IO響應時間值得都是單個IO的響應時間，因此，不管磁盤是否組成了磁盤陣列，它的IO響應時間應該都是一樣的。從前面的計算中我們可以看到，如果IO響應時間在10ms左右的話是很正常的，但是當IO響應時間比這個值超出太多的時候，你就要開始注意了，很可能就意味着此時你的磁盤系統已經成爲了一個瓶頸。

IOPS

綜合上面兩個部分的討論我們來估算一下陣列下的磁盤總體IOPS，在這裏我們先假設組成陣列的單個磁盤的隨機讀寫的IOPS爲140，讀寫緩存命中率都爲10%，組成陣列的磁盤個數爲4。

因爲不管是那種陣列，磁盤的讀取性能都是所有磁盤之和，所以可以得出下面的讀取IOPS：

read IOPS = disk_IOPS/(1-read_cache_hit_ratio)*disk_num =140/(1-10%)*4 = 622

而寫入性能就完全不一樣了，根據上面的討論我們可以得出下面結論：

RAID0: 1 IO request => need 1 actual IO on disk
RAID1: 1 IO request => need 2 actual IO on disk
RAID5: 1 IO request => need 4 actual IO on disk
RAID6: 1 IO request => need 6 actual IO on disk

由此我們也可以計算出寫入IOPS估算公式：

RAID0 write IOPS =disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num =140/(1-10%)*4/1 = 622
RAID1 write IOPS =disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num =140/(1-10%)*4/2 = 311
RAID5 write IOPS =disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num =140/(1-10%)*4/4 = 155
RAID6 write IOPS =disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num =140/(1-10%)*4/6 = 103

實際上從通過上面的計算方法我們還可以估算當給定一個要求的IOPS的情況下，估計下使用各個陣列級別所需要的磁盤的數量。當然我們上面的計算方法只是一個估算，我們忽略很多其他的因素，得出的只是一個大概的數值，不過在實際的應用還是有一定的參考作用的。

本篇最後附送一個計算磁盤系統IOPS的網站――wmarow’s disk & disk array calculator，這個網站提供的計算公式還考慮了諸如陣列條帶大小以及主機方面的因素，很有參考價值，至於怎麼選擇合適的條帶大小，請參考【延伸閱讀】部分。

傳輸速度(Transfer Rate)/吞吐率(Throughput)

實際上估算除了隨機讀寫的IOPS也就知道了隨機讀寫的吞吐率。對於順序讀寫的呢，還是跟前一篇所講的一樣，主要受限於磁盤的限制，不能再拿IOPS來衡量了。

random_throughtput = random_IOPS * IO_chunk_size

IO系統性能之二：緩存和RAID如何提高磁盤IO性能

高速緩存(Cache)

RAID(Redundant Array Of Inexpensive Disks)

四個性能指標的變化

IO響應時間(IO Response Time)

IOPS

傳輸速度(Transfer Rate)/吞吐率(Throughput)

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

完善匹配中文的Php正則表達式

HTTP協議

什麼是Socket？Socket協議的形象描述

常用正則表達式

PHP中的CURL函數庫（Client URL Library Function）詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結