菜狗雜談----淺談UNIX/Linux系統IO

IO模型:

英文術語 翻譯
blocking IO 阻塞IO
nonblocking IO 非阻塞IO
IO myltiplexing IO多路複用
signal driven IO 信號驅動IO
asynchronous IO 異步IO

IO是通過共享一條總線的方式來實現的,總線也就是一條或者多條物理上的導線,每個部件都接到這些導線上,導線上的電位每個時刻都是相等的,這樣總線上的所有部件都會受到相同的信號。也就是說,這條總線是共享的,同一個時刻只能有一個部件在接收或者發送,是全單工的工作模式
所有的部件按照另一條總線,也就是仲裁總線或者中斷總線上給出的信號來判斷這個時刻總線可以由哪個部件來使用。產生仲裁總線或者中斷電位的可以是CPU,也可以是總線上的其他設備

由於signal driven IO在實際中並不常用,這裏只看剩下的四種IO Model

當操作系統裏發生一個IO的讀操作時,會涉及到系統中的兩個對象,一個是調用這個IO的process(或者thread),另一個就是系統內核(kernel)

發生這個read讀操作時,在系統中通常會經歷兩個階段:
等待接收數據階段(waiting for data to be ready)
將數據從內核拷貝到進程中(copying data from kernel to process)
各種IO模型的區別就是這兩個階段中的不同操作

0x1.blocking IO(阻塞IO)

默認情況下,所有的socket都是blocking!
當用戶進程調用了recvfrom這個系統調用,kernel就開始IO第一個階段:準備數據
對於network IO來說,在還沒有收到一個完整的數據包的時候,kernel就要等待足夠的數據到來
在用戶進程這邊,整個進程會被阻塞。當kernel將數據準備好了,進程就會將數據從kernel空間拷貝到用戶內存中
然後kernel返回執行結果,用戶進程才解除block狀態,重新運行起來
所以,blocking IO的特點就是在IO執行的兩個階段都被block了

0x2.non-blocking IO(非阻塞IO)

linux中,可以通過設置socket使其變爲non-blocking

當用戶進程發出read操作時,kernel沒有準備好的時候,系統並不會block用戶進程,而是立刻返回一個error
對用戶來說,發起一個read操作後,並不需要等待,而是馬上就得到了一個結果。
用戶進程發現返回結果是一個error時,用戶進程就知道kernel數據還沒有準備好,於是用戶進程就可以再次發送read操作

等到kernel中的數據準備好了,並且又再次收到了用戶進程的系統調用(system call),recvfrom就馬上將數據拷貝到用戶內存,然後返回
在這段時間內,進程是被block的。所以用戶進程需要不斷的主動詢問kernel數據好了沒有

在網絡IO時候,非阻塞IO也會進行recvfrom的系統調用,檢查數據是否準備好。

與阻塞IO不一樣,非阻塞IO將大的整片時間的阻塞分成多個小的阻塞,所以非阻塞IO的recvfrom被系統調用之後,進程並沒有被阻塞,內核返回信息給用戶進程
如果數據沒準備好,返回信息就爲error。進程在返回之後,可以執行別的任務,然後再發起recvfrom系統調用。

重複上面的過程,循環往復的進行recvfrom系統調用,這個過程通常稱爲輪詢

輪詢檢查內核數據是否準備好,等到數據準備好,再拷貝數據到進程,由進程對數據進行處理
拷貝整個數據的過程,進程仍然是屬於阻塞的狀態

非阻塞IO的優點:
能夠在等待任務完成的時間裏執行其他任務
非阻塞IO的缺點:
每過一段時間輪詢一次,而任務可能在兩次輪詢之間的任意時間完成了,所以任務完成的響應延遲增大了,也會導致整體數據吞裏吐量的降低

0x3.IO multiplexing(IO多路複用)

IO multiplexing也可以稱作select或者epoll。
其好處就在於單個process就可以同時處理多個網絡連接的IO

其基本有原理就是select/epoll這個function會不斷的輪詢所負責的所有socket。
當某個socket有數據到達了,就通知用戶進程處理。
當用戶進程調用了select,那麼整個進程會被block,同時,kernel會“監視”所有select負責的socket
當任何一個socket中的數據準備好了,select就會返回。這個時候用戶進程再調用read操作,將數據從kernel拷貝到用戶進程

IO multiplexing和blocking IO其實並沒有太大的不同,因爲IO mmultiplexing需要使用兩個system call(select和recvfrom)
而blocking IO只需要一個system call。select/epoll的優勢並不是對於單個連接能處理得更快,而是在於能處理更多的連接。
如果處理的連接數不是很高的話,使用select/epoll的服務端不一定比使用multithreading+blocking IO的服務端性能更好,可能延遲還更大。

在IO multiplexing模型中,實際中,對於每一個socket,一般都設置成non-blocking。但是,整個用戶的process其實是一直被block的。只不過process是被select這個函數block,而不是被socket IO給block的

0x4.Asynchronous IO(異步IO)

用戶進程發起read操作後,立刻就可以開始去做其它的事
而從kernel的角度,當它受到一個異步讀取操作之後,首先評它會立刻返回,所以不會對用戶進程產生任何阻塞
然後,kernel會等待數據準備完成。然後將數據拷貝到用戶內存,拷貝完成後,kernel會給用戶進程發送一個signal,交由用戶進程操作

0x5.IO模塊比較分析

blocking與non-blocking的區別在於:
blocking IO會一直阻塞用戶進程直到操作完成
non-blocking IO在kernel還準備數據的情況下會立刻返回,執行別的操作,直到kernel給出數據已準備好的信號,再執行這個操作

synchronous IO和asynchronous IO的區別就在於:
synchronous IO做IO操作的時候會將process阻塞
按照這個說法,之前所述的blocking IO,non-blocking IO,IO multiplexing都屬於synchronous IO
而asynchronous IO則不一樣,當進程發起IO 操作之後,就不管了。直到kernel發送一個信號,告訴進程說IO完成。在這整個過程中,進程完全沒有被block

如圖所示:

在這裏插入圖片描述

總結

經過上面的比較,會發現non-blocking IO和asynchronous IO的區別還是很明顯的

在non-blocking IO中,雖然進程大部分時間都不會被block,但是它仍然要求進程去主動的check,並且當數據準備完成以後,也需要進程主動的再次調用recvfrom來將數據拷貝到用戶內存。

而asynchronous IO則完全不同。它是用戶進程將整個IO操作交給kernel操作,然後kernel操作完成後發信號通知用戶進程。在此期間,用戶進程不需要去檢查IO操作的狀態,也不需要主動的去拷貝數據

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章