10分鐘看懂， Java NIO 底層原理

1.1. Java IO讀寫原理

無論是Socket的讀寫還是文件的讀寫，在Java層面的應用開發或者是linux系統底層開發，都屬於輸入input和輸出output的處理，簡稱爲IO讀寫。在原理上和處理流程上，都是一致的。區別在於參數的不同。

用戶程序進行IO的讀寫，基本上會用到read&write兩大系統調用。可能不同操作系統，名稱不完全一樣，但是功能是一樣的。

先強調一個基礎知識：read系統調用，並不是把數據直接從物理設備，讀數據到內存。write系統調用，也不是直接把數據，寫入到物理設備。

read系統調用，是把數據從內核緩衝區複製到進程緩衝區；而write系統調用，是把數據從進程緩衝區複製到內核緩衝區。這個兩個系統調用，都不負責數據在內核緩衝區和磁盤之間的交換。底層的讀寫交換，是由操作系統kernel內核完成的。

1.1.1. 內核緩衝與進程緩衝區

緩衝區的目的，是爲了減少頻繁的系統IO調用。大家都知道，系統調用需要保存之前的進程數據和狀態等信息，而結束調用之後回來還需要恢復之前的信息，爲了減少這種損耗時間、也損耗性能的系統調用，於是出現了緩衝區。

有了緩衝區，操作系統使用read函數把數據從內核緩衝區複製到進程緩衝區，write把數據從進程緩衝區複製到內核緩衝區中。等待緩衝區達到一定數量的時候，再進行IO的調用，提升性能。至於什麼時候讀取和存儲則由內核來決定，用戶程序不需要關心。

在linux系統中，系統內核也有個緩衝區叫做內核緩衝區。每個進程有自己獨立的緩衝區，叫做進程緩衝區。

所以，用戶程序的IO讀寫程序，大多數情況下，並沒有進行實際的IO操作，而是在讀寫自己的進程緩衝區。

1.1.2. java IO讀寫的底層流程

用戶程序進行IO的讀寫，基本上會用到系統調用read&write，read把數據從內核緩衝區複製到進程緩衝區，write把數據從進程緩衝區複製到內核緩衝區，它們不等價於數據在內核緩衝區和磁盤之間的交換。

首先看看一個典型Java 服務端處理網絡請求的典型過程：

（1）客戶端請求

Linux通過網卡，讀取客戶斷的請求數據，將數據讀取到內核緩衝區。

（2）獲取請求數據

服務器從內核緩衝區讀取數據到Java進程緩衝區。

（1）服務器端業務處理

Java服務端在自己的用戶空間中，處理客戶端的請求。

（2）服務器端返回數據

Java服務端已構建好的響應，從用戶緩衝區寫入系統緩衝區。

（3）發送給客戶端

Linux內核通過網絡 I/O ，將內核緩衝區中的數據，寫入網卡，網卡通過底層的通訊協議，會將數據發送給目標客戶端。

1.2. 四種主要的IO模型

服務器端編程經常需要構造高性能的IO模型，常見的IO模型有四種：

（1）同步阻塞IO（Blocking IO）

首先，解釋一下這裏的阻塞與非阻塞：

阻塞IO，指的是需要內核IO操作徹底完成後，才返回到用戶空間，執行用戶的操作。阻塞指的是用戶空間程序的執行狀態，用戶空間程序需等到IO操作徹底完成。傳統的IO模型都是同步阻塞IO。在java中，默認創建的socket都是阻塞的。

其次，解釋一下同步與異步：

同步IO，是一種用戶空間與內核空間的調用發起方式。同步IO是指用戶空間線程是主動發起IO請求的一方，內核空間是被動接受方。異步IO則反過來，是指內核kernel是主動發起IO請求的一方，用戶線程是被動接受方。

（4）同步非阻塞IO（Non-blocking IO）

非阻塞IO，指的是用戶程序不需要等待內核IO操作完成後，內核立即返回給用戶一個狀態值，用戶空間無需等到內核的IO操作徹底完成，可以立即返回用戶空間，執行用戶的操作，處於非阻塞的狀態。

簡單的說：阻塞是指用戶空間（調用線程）一直在等待，而且別的事情什麼都不做；非阻塞是指用戶空間（調用線程）拿到狀態就返回，IO操作可以幹就幹，不可以幹，就去幹的事情。

非阻塞IO要求socket被設置爲NONBLOCK。

強調一下，這裏所說的NIO（同步非阻塞IO）模型，並非Java的NIO（New IO）庫。

（3）IO多路複用（IO Multiplexing）

即經典的Reactor設計模式，有時也稱爲異步阻塞IO，Java中的Selector和Linux中的epoll都是這種模型。

（5）異步IO（Asynchronous IO）

異步IO，指的是用戶空間與內核空間的調用方式反過來。用戶空間線程是變成被動接受的，內核空間是主動調用者。

這一點，有點類似於Java中比較典型的模式是回調模式，用戶空間線程向內核空間註冊各種IO事件的回調函數，由內核去主動調用。

1.3. 同步阻塞IO（Blocking IO）

在linux中的Java進程中，默認情況下所有的socket都是blocking IO。在阻塞式 I/O 模型中，應用程序在從IO系統調用開始，一直到到系統調用返回，這段時間是阻塞的。返回成功後，應用進程開始處理用戶空間的緩存數據。

舉個栗子，發起一個blocking socket的read讀操作系統調用，流程大概是這樣：

（1）當用戶線程調用了read系統調用，內核（kernel）就開始了IO的第一個階段：準備數據。很多時候，數據在一開始還沒有到達（比如，還沒有收到一個完整的Socket數據包），這個時候kernel就要等待足夠的數據到來。

（2）當kernel一直等到數據準備好了，它就會將數據從kernel內核緩衝區，拷貝到用戶緩衝區（用戶內存），然後kernel返回結果。

（3）從開始IO讀的read系統調用開始，用戶線程就進入阻塞狀態。一直到kernel返回結果後，用戶線程才解除block的狀態，重新運行起來。

所以，blocking IO的特點就是在內核進行IO執行的兩個階段，用戶線程都被block了。

BIO的優點：

程序簡單，在阻塞等待數據期間，用戶線程掛起。用戶線程基本不會佔用 CPU 資源。

BIO的缺點：

一般情況下，會爲每個連接配套一條獨立的線程，或者說一條線程維護一個連接成功的IO流的讀寫。在併發量小的情況下，這個沒有什麼問題。但是，當在高併發的場景下，需要大量的線程來維護大量的網絡連接，內存、線程切換開銷會非常巨大。因此，基本上，BIO模型在高併發場景下是不可用的。

1.4. 同步非阻塞NIO（None Blocking IO）

在linux系統下，可以通過設置socket使其變爲non-blocking。NIO 模型中應用程序在一旦開始IO系統調用，會出現以下兩種情況：

（1）在內核緩衝區沒有數據的情況下，系統調用會立即返回，返回一個調用失敗的信息。

（2）在內核緩衝區有數據的情況下，是阻塞的，直到數據從內核緩衝複製到用戶進程緩衝。複製完成後，系統調用返回成功，應用進程開始處理用戶空間的緩存數據。

舉個栗子。發起一個non-blocking socket的read讀操作系統調用，流程是這個樣子：

（1）在內核數據沒有準備好的階段，用戶線程發起IO請求時，立即返回。用戶線程需要不斷地發起IO系統調用。

（2）內核數據到達後，用戶線程發起系統調用，用戶線程阻塞。內核開始複製數據。它就會將數據從kernel內核緩衝區，拷貝到用戶緩衝區（用戶內存），然後kernel返回結果。

（3）用戶線程才解除block的狀態，重新運行起來。經過多次的嘗試，用戶線程終於真正讀取到數據，繼續執行。

NIO的特點：

應用程序的線程需要不斷的進行 I/O 系統調用，輪詢數據是否已經準備好，如果沒有準備好，繼續輪詢，直到完成系統調用爲止。

NIO的優點：每次發起的 IO 系統調用，在內核的等待數據過程中可以立即返回。用戶線程不會阻塞，實時性較好。

NIO的缺點：需要不斷的重複發起IO系統調用，這種不斷的輪詢，將會不斷地詢問內核，這將佔用大量的 CPU 時間，系統資源利用率較低。

總之，NIO模型在高併發場景下，也是不可用的。一般 Web 服務器不使用這種 IO 模型。一般很少直接使用這種模型，而是在其他IO模型中使用非阻塞IO這一特性。java的實際開發中，也不會涉及這種IO模型。

再次說明，Java NIO（New IO）不是IO模型中的NIO模型，而是另外的一種模型，叫做IO多路複用模型（ IO multiplexing ）。

1.5. IO多路複用模型(I/O multiplexing）

如何避免同步非阻塞NIO模型中輪詢等待的問題呢？這就是IO多路複用模型。

IO多路複用模型，就是通過一種新的系統調用，一個進程可以監視多個文件描述符，一旦某個描述符就緒（一般是內核緩衝區可讀/可寫），內核kernel能夠通知程序進行相應的IO系統調用。

目前支持IO多路複用的系統調用，有 select，epoll等等。select系統調用，是目前幾乎在所有的操作系統上都有支持，具有良好跨平臺特性。epoll是在linux 2.6內核中提出的，是select系統調用的linux增強版本。

IO多路複用模型的基本原理就是select/epoll系統調用，單個線程不斷的輪詢select/epoll系統調用所負責的成百上千的socket連接，當某個或者某些socket網絡連接有數據到達了，就返回這些可以讀寫的連接。因此，好處也就顯而易見了——通過一次select/epoll系統調用，就查詢到到可以讀寫的一個甚至是成百上千的網絡連接。

舉個栗子。發起一個多路複用IO的的read讀操作系統調用，流程是這個樣子：

在這種模式中，首先不是進行read系統調動，而是進行select/epoll系統調用。當然，這裏有一個前提，需要將目標網絡連接，提前註冊到select/epoll的可查詢socket列表中。然後，纔可以開啓整個的IO多路複用模型的讀流程。

（1）進行select/epoll系統調用，查詢可以讀的連接。kernel會查詢所有select的可查詢socket列表，當任何一個socket中的數據準備好了，select就會返回。

當用戶進程調用了select，那麼整個線程會被block（阻塞掉）。

（2）用戶線程獲得了目標連接後，發起read系統調用，用戶線程阻塞。內核開始複製數據。它就會將數據從kernel內核緩衝區，拷貝到用戶緩衝區（用戶內存），然後kernel返回結果。

（3）用戶線程才解除block的狀態，用戶線程終於真正讀取到數據，繼續執行。

多路複用IO的特點：

IO多路複用模型，建立在操作系統kernel內核能夠提供的多路分離系統調用select/epoll基礎之上的。多路複用IO需要用到兩個系統調用（system call），一個select/epoll查詢調用，一個是IO的讀取調用。

和NIO模型相似，多路複用IO需要輪詢。負責select/epoll查詢調用的線程，需要不斷的進行select/epoll輪詢，查找出可以進行IO操作的連接。

另外，多路複用IO模型與前面的NIO模型，是有關係的。對於每一個可以查詢的socket，一般都設置成爲non-blocking模型。只是這一點，對於用戶程序是透明的（不感知）。

多路複用IO的優點：

用select/epoll的優勢在於，它可以同時處理成千上萬個連接（connection）。與一條線程維護一個連接相比，I/O多路複用技術的最大優勢是：系統不必創建線程，也不必維護這些線程，從而大大減小了系統的開銷。

Java的NIO（new IO）技術，使用的就是IO多路複用模型。在linux系統上，使用的是epoll系統調用。

多路複用IO的缺點：

本質上，select/epoll系統調用，屬於同步IO，也是阻塞IO。都需要在讀寫事件就緒後，自己負責進行讀寫，也就是說這個讀寫過程是阻塞的。

如何充分的解除線程的阻塞呢？那就是異步IO模型。

1.6. 異步IO模型（asynchronous IO）

如何進一步提升效率，解除最後一點阻塞呢？這就是異步IO模型，全稱asynchronous I/O，簡稱爲AIO。

AIO的基本流程是：用戶線程通過系統調用，告知kernel內核啓動某個IO操作，用戶線程返回。kernel內核在整個IO操作（包括數據準備、數據複製）完成後，通知用戶程序，用戶執行後續的業務操作。

kernel的數據準備是將數據從網絡物理設備（網卡）讀取到內核緩衝區；kernel的數據複製是將數據從內核緩衝區拷貝到用戶程序空間的緩衝區。

（1）當用戶線程調用了read系統調用，立刻就可以開始去做其它的事，用戶線程不阻塞。

（2）內核（kernel）就開始了IO的第一個階段：準備數據。當kernel一直等到數據準備好了，它就會將數據從kernel內核緩衝區，拷貝到用戶緩衝區（用戶內存）。

（3）kernel會給用戶線程發送一個信號（signal），或者回調用戶線程註冊的回調接口，告訴用戶線程read操作完成了。

（4）用戶線程讀取用戶緩衝區的數據，完成後續的業務操作。

異步IO模型的特點：

在內核kernel的等待數據和複製數據的兩個階段，用戶線程都不是block(阻塞)的。用戶線程需要接受kernel的IO操作完成的事件，或者說註冊IO操作完成的回調函數，到操作系統的內核。所以說，異步IO有的時候，也叫做信號驅動 IO 。

異步IO模型缺點：

需要完成事件的註冊與傳遞，這裏邊需要底層操作系統提供大量的支持，去做大量的工作。

目前來說， Windows 系統下通過 IOCP 實現了真正的異步 I/O。但是，就目前的業界形式來說，Windows 系統，很少作爲百萬級以上或者說高併發應用的服務器操作系統來使用。

而在 Linux 系統下，異步IO模型在2.6版本才引入，目前並不完善。所以，這也是在 Linux 下，實現高併發網絡編程時都是以 IO 複用模型模式爲主。

小結一下：

四種IO模型，理論上越往後，阻塞越少，效率也是最優。在這四種 I/O 模型中，前三種屬於同步 I/O，因爲其中真正的 I/O 操作將阻塞線程。只有最後一種，纔是真正的異步 I/O 模型，可惜目前Linux 操作系統尚欠完善。

本文轉自自：https://www.cnblogs.com/crazymakercircle/p/10225159.html

10分鐘看懂， Java NIO 底層原理

1.1. Java IO讀寫原理

1.1.1. 內核緩衝與進程緩衝區

1.1.2. java IO讀寫的底層流程

1.2. 四種主要的IO模型

1.3. 同步阻塞IO（Blocking IO）

1.4. 同步非阻塞NIO（None Blocking IO）

1.5. IO多路複用模型(I/O multiplexing）

1.6. 異步IO模型（asynchronous IO）

小結一下：

Springboot配置log4j2異步輸出日誌

SpringBoot默認200個線程對於Websocket長連接夠用嗎？（一）

如何獲取Apollo上項目下的所有namespace？

如何截取頁面長圖？任意頁面，無敵截圖

Springboot整合WebSocket，實現向指定頁面推送信息

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結