NIO需要了解的一些概念

幾個概念:

緩衝區(Buffers)

新的 Buffer 類是常規 Java 類和通道之間的紐帶。原始數據元素組成的固定長度數組,封裝在包含狀態信息的對象中,存入緩衝區。緩衝區提供了一個會合點:通道既可提取放在緩衝區中的數 據(寫),也可向緩衝區存入數據供讀取(讀)。此外,還有一種特殊類型的緩衝區,用於內存映射文件。

通道(Channels)

NIO 新引入的最重要的抽象是通道的概念。Channel 對象模擬了通信連接,管道既可以是單向的(進或出),也可以是雙向的(進和出)。可以把通道想象成連接緩衝區和 I/O 服務的捷徑

文件鎖定和內存映射文件(File locking and memory-mapped files)

新的 FileChannel 對象包含在 java.nio.channels 軟件包內,提供許多面向文件的新特 性,其中最有趣的兩個是文件鎖定和內存映射文件。
在多個進程協同工作的情況下,要協調各個進程對共享數據的訪問,文件鎖定是必不可少的工具。

將文件映射到內存,這樣在您看來,磁盤上的文件數據就像是在內存中一樣。這利用了操作系統的虛擬內存功能,無需在內存中實際保留一份文件的拷貝,就可實現文件內容的動態高速緩存。

套接字(Sockets)

套 接字通道類爲使用網絡套接字實現交互提供了新方法。套接字通道可工作於非塊模式,並可與選擇器一同使用。因此,多個套接字可實現多路傳輸,管理效率也比 java.net 提供的傳統套接字更高。三個新套接字通道,即 ServerSocketChannel、SocketChannel 和 DatagramChannel

選擇器(Selectors)

選擇器可實現就緒性選擇。Selector 類提供了確定一或多個通道當前狀態的機制。使用選擇 器,藉助單一線程,就可對數量龐大的活動 I/O 通道實施監控和維護。

正則表達式(Regular expressions)

新增的 java.util.regex 軟件包將類似 Perl 語言的正則表達式處理機制引入 Java。這一人 們期盼已久的特性有着廣泛用途。

新的正則表達式 API 之所以被看成是 NIO 的組成部分,是因 JSR 51 把它與其他 NIO 特性放在一起作了詳細說明。雖然它在許多方面與 NIO 的其他組成部分缺乏平行關係,但它在文件處理等衆多領域都是極其有用的。

字符集(Character sets)
java.nio.charsets 提供了新類用於處理字符與字節流之間的映射關係。您可以對字符轉換映射方式進行選擇,也可以自己創建映射。

磁盤I/O的示例

圖中明顯忽略了很多細節,僅顯示了涉及到的基本步驟。

如圖

注 意圖中用戶空間和內核空間的概念。用戶空間是常規進程所在區域。JVM 就是常規進程,駐守於用戶空間。用戶空間是非特權區域:比如,在該區域執行的代碼就不能直接訪問硬件設備。內核空間是操作系統所在區域。內核代碼有特別的 權力:它能與設備控制器通訊,控制着用戶區域進程的運行狀態,等等。最重要的是,所有 I/O 都直接(如這裏所述)或間接(見 1.4.2 小節)通過內核空間。

當進程請求 I/O 操作的時候,它執行一個系統調用(有時稱爲陷阱)將控制權移交給內核。C/C++程序員所熟知的底層函數 open( )、read( )、write( )和 close( )要做的無非就是建立和執行適當 的系統調用。當內核以這種方式被調用,它隨即採取任何必要步驟,找到進程所需數據,並把數據傳送到用戶空間內的指定緩衝區。內核試圖對數據進行高速緩存或 預讀取,因此進程所需數據可能已經在內核空間裏了。如果是這樣,該數據只需簡單地拷貝出來即可。如果數據不在內核空間,則進程被掛起,內核着手把數據讀進 內存。

看了圖 1-1,您可能會覺得,把數據從內核空間拷貝到用戶空間似乎有些多餘。爲什麼不直接讓磁盤控制器把數據送到用戶空間的緩衝區呢?這樣做有幾個問題。首先, 硬件通常不能直接訪問用戶空間 1。其次,像磁盤這樣基於塊存儲的硬件設備操作的是固定大小的數據塊,而用戶進程請求的可能是任意大小的或非對齊的數據塊。在數據往來於用戶空間與存儲設 備的過程中,內核負責數據的分解、再組合工作,因此充當着中間人的角色。

發散/匯聚

許 多操作系統能把組裝/分解過程進行得更加高效。根據發散/匯聚的概念,進程只需一個系統調用,就能把一連串緩衝區地址傳遞給操作系統。然後,內核就可以順 序填充或排幹多個緩衝區,讀的時候就把數據發散到多個用戶空間緩衝區,寫的時候再從多個緩衝區把數據匯聚起來這樣用戶進程就不必多次執行系統調用(那樣做 可能代價不菲),內核也可以優化數據的處理過程,因爲它已掌握待傳輸數據的全部信息。如果系統配有多個 CPU,甚至可以同時填充或排幹多個緩衝區。

虛擬內存

所有現代操作系統都使用虛擬內存。虛擬內存意爲使用虛假(或虛擬)地址取代物理(硬件RAM)內存地址。這樣做好處頗多,總結起來可分爲兩大類:

1. 一個以上的虛擬地址可指向同一個物理內存地址。

2. 虛擬內存空間可大於實際可用的硬件內存。

設備控制器不能通過 DMA 直接存儲到用戶空間,但通過利用上面提到的第一項,則可以達到相同效果。把內核空間地址與用戶空間的虛擬地址映射到同一個物理地址,這樣,DMA 硬件(只能訪問物理內存地址)就可以填充對內核與用戶空間進程同時可見的緩衝區

如圖,進程虛擬內存和內核虛擬內存映射到的物理地址都一樣,這樣DMA寫到實際的物理內存後,兩個緩衝區指向的物理地址都一樣,那麼他們就同時能訪問到數據了。

但 前提條件是,內核與用戶緩衝區必須使用相同的頁對齊,緩衝區的大小還必須是磁盤控制器塊大小(通常爲 512 字節磁盤扇區)的倍數。操作系統把內存地址空間劃分爲頁,即固定大小的字節組。內存頁的大小總是磁盤塊大小的倍數,通常爲 2 次冪(這樣可簡化尋址操作)。典型的內存頁爲 1,024、2,048 和 4,096 字節。虛擬和物理內存頁的大小總是相同的。

如上圖顯示了來自多個虛擬地址的虛擬內存頁是如何映射到物理內。

內存頁面調度

爲 了支持虛擬內存的第二個特性(尋址空間大於物理內存),就必須進行虛擬內存分頁(經常稱爲交換,雖然真正的交換是在進程層面完成,而非頁層面)。依照該方 案,虛擬內存空間的頁面能夠繼續存在於外部磁盤存儲,這樣就爲物理內存中的其他虛擬頁面騰出了空間。從本質上說,物理內存充當了分頁區的高速緩存;而所謂 分頁區,即從物理內存置換出來,轉而存儲於磁盤上的內存頁面。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章