深入分析Netty的高性能

點擊上方疾風先生可以訂閱哦

在講述Netty的高性能特性之前,基於之前的epoll技術分析中談到C10K問題,其實是屬於一個性能優化問題,目的是爲了能夠在單臺機器上支撐更多的併發連接調度所做的性能優化,爲了達到上述目標,需要要求我們設計的web服務採用合理的IO模型,並在對應的IO模型基礎上引入多線程與併發庫技術的使用來支撐更多的連接調度,同時考慮到計算機資源的限制,我們需要在設計web服務的時候合理對資源進行分配優化,比如內存,網絡帶寬以及CPU核數的充分利用,也就是說我們還需要考慮到可伸縮性的問題,通過增加資源來使得我們的web服務能夠得到線性提升效果.接下來我們就來結合部分源碼分析Netty技術是如何體現高性能這一個特性.

C10K&C10M問題分析

C10K&C10M解決方案

C10K問題

C10K,即要讓單個web服務能夠支撐1w的併發連接請求的資源調度,關於C10K的性能與可伸縮性問題,基於自身的理解如下:

採用線程連接架構TBA模型,也就是1個客戶端連接對應1個線程,那麼對於內核而言,假設這個時候需要10k個連接,那麼也就意味着要10k個線程,此時內核需要從這個10k個線程中輪詢遍歷哪個線程是有數據流量進來的,對於服務器本身而言,不論線程數量多少,線程上下文切換的時間是恆定的,即使再多的連接分配給再多的線程,其性能也不會上去,線程調度仍然無法擴展,除了本身線程資源的瓶頸之外,我們可以看到的一個現象就是線程調度無法擴展.
相對地,採用選擇/輪詢來處理連接事件,也就是面向事件驅動設計EDA模式,我們在分析select/poll/epoll技術中講到,它們都是對一個socket集合fds進行監聽,每個數據包都會經過socket套接字,即使套接字增加,我們同樣可以通過選擇和輪詢的方式來遍歷socket數據流量進來的事件,這個時候單線程是可以完成一個選擇和輪詢就緒事件的操作,同時還可以實現連接的擴展性,隨着IO技術的發展,現代服務器都會引入可擴展的epoll技術與異步IO Compeletion Port在指定時間內查詢就緒的socket集合並返回給應用程序.

因此,優化一個C10K的問題可以從以下幾個方面考慮:

選用的IO模型能夠支持web實現可伸縮性
結合IO模型設計的線程模型,能夠通過增加適當的線程數量來支撐web服務更多的併發連接
最後一個可以理解爲性能問題,一個Web服務的性能可以參考以下幾個因素: 數據複製問題/線程上下文切換問題/內存分配問題以及鎖爭用(無鎖編程是一個我們理想的選擇)

C10M問題

隨着互聯網技術發展,又提出了一個C10M的優化問題,即如何讓我們的單臺機器支撐1000w的併發連接,這個時候Errata Security首席執行官Robert Graham從歷史的角度出發講述Unix最開始設計不是通用的服務器OS,而是作爲電話網絡的控制系統,實際上是電話網絡在控制數據傳輸,因而控制平面與數據平面存在清晰的分隔,於是指出一個問題,即當前我們使用的Unix服務器是作爲數據平面的一部分,這也是他所說的內核不是解決方案,而是問題所在,什麼意思呢?就是不要讓內核承擔所有繁重的工作.將數據包處理,內存管理和處理器調度從內核中移出,並將其放入應用程序中,可以在其中高效地完成它.讓Linux處理控制平面,讓應用程序處理數據平面.因而可以從以下幾個方面來了解一個C10M問題面臨的挑戰:

支撐1000w/s的併發連接
支撐一個持續時間約爲10s的100w併發連接
一個連接要處理接近1000M/s大小的數據包,意味着能夠快速與互聯網建立連接
1000w個數據包/秒-而當前的服務器每秒處理5w個數據包，這將達到更高的水平。過去服務器每秒能夠處理100K次中斷，每個數據包都會引起中斷。
10微秒延遲-可伸縮服務器可能會處理規模，但延遲會增加。
10微秒抖動-限制最大延遲
10個連貫的CPU內核-軟件應擴展到更大數量的內核。通常，軟件只能輕鬆擴展到四個內核。服務器可以擴展到更多的內核，因此需要重寫軟件以支持更大的內核計算機(在C10K的基礎上)

爲了構建一個能夠支撐1000w/s的併發連接系統,我們需要讓數據平面系統能夠處理1000w/s個數據包,而對於一個控制平面系統而言,持續10s的最多也就只能處理100w個併發連接,爲了實現這個目標,我們借鑑C10K問題的解決方案,C10K問題主要是從構建一個可伸縮性的IO模型的web服務來達到支撐10K併發連接的目的,同時也引入線程模型與性能優化手段來配合實現達到目的,從這裏我們也可以看到可伸縮性是我們設計的目標,同時爲了支撐1000w的連接,我們不能將性能優化外包給操作系統,那麼我們要編寫一個可伸縮性的軟件來達到上述的目標,這個時候就需要解決以下的問題:

數據包可擴展: 編寫一個自定義驅動程序以繞過TCP堆棧,直接將數據包發送到應用程序.如PF_RING，Netmap，Intel DPDK
多核可擴展: 多核編碼並不是多線程編碼,而是讓我們的應用程序分佈在每個CPU核心上,保證我們能夠隨着內核的增加以線性擴展我們應用程序的處理能力.即一個是保持每個cpu核心數的數據結構,一個是每個cpu保證原子性操作,一個是使用無鎖技術的數據結構,一個是使用線程模型完成流水工作,最後一個是利用處理器的親和力,即保持運行在每個cpu核數上分配的線程是固定的,即每個cpu對應着專有的線程來完成工作.
內存可擴展: 一個是使用連續內存分配技術,增加數據的緩存命中率,一個是分頁表運用高效的緩存數據結果並對數據壓縮,一個是使用池化技術管理內存,一個是合理分配線程以降低內存訪問延遲,最後一個是使用預分配的內存技術.

因此,我們可以借鑑C10K與C10M的優化思路來推導一個具備高併發且可伸縮性的web服務設計,高併發連接調度我們可以從IO模型以及線程模型思考,高性能的指標我們可以從計算機資源分配管理與資源優化方面思考(比如內存/無鎖編程),而一個可伸縮性的web服務,我們則會從資源方面來考慮,通過增加相關的資源配置是否能夠得到線性的性能提升.

高併發問題

高併發關注指標

響應時間(Response Time):發起一個request請求,執行這個request請求從開始到最後返回響應結果所花費的總體時間,也就是客戶端發起請求到最後收到服務端返回響應結果的時間.比如http請求響應時間爲200ms,200ms表示RT.
每秒併發連接(併發用戶數): 每秒可支撐的連接調度/同時承載正常使用系統功能的用戶數量,併發連接/用戶數更關注的是能夠處理調度連接而不在於處理速度.
QPS/TPS(每秒查詢量/每秒事物處理量): 比如現在客戶端發起一個下單操作(用戶鑑權/訂單校驗/下單操作三個步驟),這個下單操作形成一個TPS,而下單裏的每個步驟形成一個QPS,也就是說TPS包含3個QPS操作,因而對於TPS理解是一個完整的事物請求的操作結果,而QPS是針對一個request請求的操作結果,對此TPS是衡量軟件測試結果的度量單位,而QPS是特定的查詢服務器在指定的時間段內處理流量度量標準的數量,域名服務器的機器性能通常用QPS來衡量,QPS與TPS更關注處理速度.
吞吐量(Throughput): 取決於我們關注系統的業務指標,比如我們關注的是軟件測量結果相關的處理能力(處理速度),那麼這個時候的吞吐量我們需要關注的是TPS,如果是關注機器性能的流量,那麼我們關注的吞吐量是QPS,如果我們對接的是接入層的服務,那麼我們可能需要關注的是併發連接的調度,此時關注的吞吐量是支撐的併發連接調度數量.

併發連接/QPS/TPS

基於上述的高併發指標的理解,現將併發連接/QPS/TPS的區分通過以下圖解的方式展開:

併發連接: 主要體現在服務端程序高效的連接調度機制上,也就是說服務端能夠在一定的時間段內能夠正確地響應給每個連接的請求即可,至於何時響應以及如何響應不是併發連接關注的事情.
QPS/TPS: 主要體現在處理速度上,要求能夠正常完成對請求響應的處理,不僅是要對請求結果正確響應,同時還要求處理能力能夠儘可能快速.

IO與線程模型實現高併發連接調度

基於先前的高性能IO編程設計並結合上述的C10K與C10M問題,實現一個支撐高併發連接調度的web服務需要藉助具備可伸縮性的NIO或者AIO技術完成,通過監聽socket的數據流量出入事件來響應給應用程序,並且輪詢事件通過單線程的方式也能夠處理,還能實現擴展,只要操作系統的fd資源配置足夠大即可.
其次,爲了支撐更多更快的響應連接調度處理,我們可以適當地加入多線程處理方式來擴展上述單線程處理連接事件的能力.同時也會看到在IO相關設計,基於事件的編程,爲了簡化應用開發者編寫代碼的複雜度以及具備更好的擴展性,引入了基於EDA的Reactor與Proactor的模式設計.

C10K與C10M提升性能優化因素

結合之前的高性能IO編程文章以及C10K與C10M問題,我們可以考慮設計一個高性能的Web服務可以從以下幾個方面思考:

數據包的收發

socket接收數據流量的時候我們要考慮如何將數據包直接傳輸到應用程序,儘量避免數據的拷貝問題.
應用程序接收數據包的時候能不能緩存起來,同時如果加入緩存的話,有沒有辦法提高命中率.
數據存儲的區域能否重複利用,即使用池化技術進行管理分配,減少向計算機申請資源的性能.

應用程序的處理能力

對於處理處理能力,我們可以用一個詞來說明,那就是吞吐量,既然想要提升吞吐量,那麼我們的目標其實也是很明確的,即“快速響應”.

充分利用CPU資源,避免CPU一直處於空閒假死狀態(線程阻塞/空輪詢/線程過多)
在先前的文章高性能IO設計有說明到,我們可以在競爭環境下使用併發庫,底層原子操作等手段有助於提升IO的吞吐量,
同步環境下能夠使用無鎖來處理任務.

Netty高併發機制

在Netty技術中主要是採用NIO實現多連接的單線程複用機制以及藉助多線程異步處理方式來提升支撐併發連接調度的處理能力,在C10M問題中已經指出,爲了優化C10M問題,我們應該考慮在應用程序方面去設計數據平面系統來構建一個支撐1000W/s併發連接的調度處理機制.

可伸縮的IO模型

NIO多路複用技術具備可伸縮性,通過C10K問題的分析,我們知道單線程能夠處理更多的socket就緒事件,也就是說單線程面向事件驅動設計的複用技術實現可擴展性且能支撐更多併發連接的請求調度處理,這裏與線程連接不同的是我們關注的是事件而不是線程本身,因而不會受限於線程資源以及線程的調度分配問題.
其次Netty框架是基於Reactor模式進行演變,但與Reactor模式不同的是Netty是多線程異步處理,更像是Proactor模式,只不過異步處理是在應用程序通過回調的方式完成的,而Proactor是基於AIO的方式將異步操作傳輸到內核並在內核中進行回調返回.

Reactor模式

關於Netty框架的線程模式架構設計圖如下所示:

現在我們基於宏觀上對Netty的線程模型有一個基本認知之後,結合先前文章對Netty組件源碼以及事件流程的分析可知,在Netty中存在EventLoopGroup,通過EventLoopGroup來分配EventLoop,而每一個EventLoop既具備線程池的功能又承擔着事件輪詢的工作,同時每個EventLoop都分配對應的一個FastThread專有線程來負責對處理當前EventLoop的pipeline的流水工作,由於每一個啓動EventLoop都綁定專有的一個線程FastThread,那麼對於EventLoop處理的一系列流水工作也將會在當前的線程執行,從而保證了單線程資源無競爭高效串行化流水任務的執行,簡單點就是無鎖串行化地進行流水工作,這個在我們上述講到的C10M優化方案中體現的一個多核擴展問題,Netty框架很好地運用這一理念來提升我們web服務支撐高併發連接的調度處理.

關於Netty處理的單線程無鎖串行化的流水工作流程示意圖如下:

在瞭解上述的無鎖串行化任務執行流程之後,我們還需要關注Netty另一個問題,即在多Reactor模式中,我們看到服務端channel其實只完成一次創建,初始化以及註冊,相比客戶端channel,提供給客戶端的EventLoopGroup由於在客戶端有新連接進來的時候就會在Acceptor進行註冊,同時我們也分析channel的註冊流程,註冊的時候會在EventLoopGroup根據選舉策略分配一個EventLoop來完成channel到EventLoop的綁定,對此,我們知道對於客戶端channel而言,EventLoopGroup的作用是類似於我們分佈式的“集羣”機器服務來對外提供服務的,分擔高併發的連接壓力,那麼對於服務端channel而言呢,提供EventLoopGroup如果指定的線程數量大於1,這個時候EventLoopGroup又起到什麼作用呢?其實對於服務端的channel,我們很多時候並不僅僅是處理連接的接收,還要在處理連接之前做一些鑑權校驗抑或是風控等安全措施的處理,如果這些過程會比較耗時,那麼就需要在我們處理的handler上添加從EventLoopGroup選舉一個新的EventLoop事件輪詢活動來緩解我們併發連接調度處理能力,其實說到底EventLoopGroup還是類似於分佈式系統中的“集羣”來緩解併發調度的壓力,

於是基於上述的分析,我們對Netty支撐高併發採用的技術手段總結如下:

使用NIO模型實現多連接的可伸縮性擴展,同時引入Reactor模式以及責任鏈設計提升web服務的擴展性(程序擴展性,服務伸縮性),能夠支撐更多的併發連接調度.
其次,Netty設計通過爲每個執行的事件輪詢EventLoop分配獨有的線程,保證了每個事件輪詢器之間處理的流水工作相互獨立,同時也保證了在當前EventLoop下執行的所有流水工作都是專屬於專有的線程,不存在資源競爭以及鎖爭用的情況,基於此,在多核環境下我們可以充分利用多核技術進一步去提升我們的併發連接調度處理能力.
最後一個就是Netty通過EventLoopGroup的“集羣”手段來分擔我們web服務的併發連接調度處理能力,有效緩解對單個線程處理併發連接的壓力,提升併發連接調度的處理能力.

高性能的ByteBuf

支持堆外內存讀寫

對於linux操作系統讀取數據塊一般流程是:先從硬件設備將數據塊加載數據到內核緩衝區,然後由內核將內核緩衝區的數據複製到用戶空間的緩衝區,最後喚醒應用程序讀取用戶空間的緩衝區,對於Java程序而言,其無法直接操作OS系統內存區域,必須通過JVM堆申請內存區域來存放數據塊,於是需要再從OS內存中的數據緩衝區將數據塊複製到JVM堆中才能夠進行操作數據,於是對於JVM操作socket的數據包,數據包拷貝的路徑如下圖示:

網卡設備接收到數據包流量事件,內核將數據塊加載到內核緩衝區中,並且通過socket傳輸數據到用戶空間的緩衝區,最後JVM要操作socket緩衝區的數據,需要將其讀取到JVM堆中存儲,這個時候需要再JVM堆中申請一個內存區域用於存放數據包數據,而如果直接通過堆外內存讀取數據,則可以減少一次數據的拷貝以及內存資源的損耗,如下圖所示:

Netty的堆外內存操作通過底層操作系統Unsfe的方式獲取其內存位置來直接操作內存,相比使用堆內存分配更爲高性能便利,同時也減少了數據拷貝,直接通過Unsafe指向的堆外內存引用來進行操作.

分片&複合緩存的零拷貝機制

// 假設buffer1以及buffer2都存儲在堆外內存,堆內內存同理(只是在JVM中)
ByteBuf httpHeader = buffer1.silice(OFFSET_PAYLOAD, buffer1.readableBytes() - OFFSET_PAYLOAD);
ByteBuf httpBody = buffer2.silice(OFFSET_PAYLOAD, buffer2.readableBytes() - OFFSET_PAYLOAD);
// 邏輯上的複製,header與body仍然存儲在原有的內存區域中,http爲JVM在堆中創建的對象,指向一個邏輯結構上的ByteBuf
ByteBuf http = ChannelBuffers.wrappedBuffer(httpHeader, httpBody);

上述的零拷貝機制示意圖如下:

這個時候在應用程序中可以直接通過http的ByteBuf操作合併之後的header+body的ByteBuf緩衝區,http的byteBuf是屬於邏輯上的合併,實際上並沒有發生數據拷貝,只是在JVM中創建一個http的ByteBuf引用指向並操作合併之後的bytebuf.

動態擴容

核心源代碼

@Override
    public int calculateNewCapacity(int minNewCapacity, int maxCapacity) {
        checkPositiveOrZero(minNewCapacity, "minNewCapacity");
        if (minNewCapacity > maxCapacity) {
            throw new IllegalArgumentException(String.format(
                    "minNewCapacity: %d (expected: not greater than maxCapacity(%d)",
                    minNewCapacity, maxCapacity));
        }
        final int threshold = CALCULATE_THRESHOLD; // 4 MiB page

        if (minNewCapacity == threshold) {
            return threshold;
        }

        // If over threshold, do not double but just increase by threshold.
        //  > 4M
        // cap / 4 * 4 + 4
        if (minNewCapacity > threshold) {
            int newCapacity = minNewCapacity / threshold * threshold;
            if (newCapacity > maxCapacity - threshold) {
                newCapacity = maxCapacity;
            } else {
                newCapacity += threshold;
            }
            return newCapacity;
        }

        // Not over threshold. Double up to 4 MiB, starting from 64.
        // < 4M 進行以2的倍數進行增長
        // 2096，此時分配的內存爲3072byte
        int newCapacity = 64;
        while (newCapacity < minNewCapacity) {
            newCapacity <<= 1;
        }

        return Math.min(newCapacity, maxCapacity);
    }

通過上述源碼可知:

當寫出的數據不足4M的時候,將以64byte爲起始值,以2的倍數進行增長擴容
當寫出的數據大於4M的時候,將以一個公式newCapacity = capacity/4*4+4進行計算
當寫出的數據爲4M的時候,直接返回4M預定的默認空間大小

引用計數器與資源管理

在ByteBuf添加引用計數能夠計算當前對象持有的資源引用活動情況,通常以活動的引用計數爲1作爲開始,當引用計數大於0的時候,就能夠保證對象不會被釋放,當引用計數減少到0的時候說明當前對象實例就會被釋放,將會被JVM的GC進行回收,對於池化技術而言則是存放到內存池中以便於重複利用.因此使用池化技術的PooledByteBufAllocator而言,使用引用計數能夠降低內存分配的開銷,有助於優化內存使用和性能的提升.

ByteBuf的實現接口ReferenceCounted

// ByteBuf.java
public abstract class ByteBuf implements ReferenceCounted, Comparable<ByteBuf>{
  boolean isAccessible() {
        return refCnt() != 0;
    }
}

//AbstractByteBuf.java
public abstract class AbstractByteBuf extends ByteBuf {
  // 對於引用計數爲0的實例將無法訪問,會拋出異常IllegalReferenceCountException
  protected final void ensureAccessible() {
        if (checkAccessible && !isAccessible()) {
            throw new IllegalReferenceCountException(0);
        }
    }
}

//ReferenceCounted.java
public interface ReferenceCounted {
		// 調用retain(increament) 將會增加引用計數increament
   // 調用release(increament)將會減少引用計數increament
}

ChannelHandler的資源管理

// 對於入站事件,如果當前消費入站數據並且沒有事件進行傳播的話,那麼就需要手動釋放資源
public void channelRead(ChannelHandlerContext ctx, Object msg){
  // ...
  // not call fireChannelRead,事件傳播在當前handler終止,這個時候需要手動清除
  ReferenceCountUtil.release(msg);
  // SimpleChannelInboundHandler能夠手動清除,但是一般入站事件我個人習慣用ChannelInboundHandlerAdapter並且自己手動管理,方法單一,處理簡單,可以手動管理,同理出站事件也是用Adapter
}

// 對於出站事件,如果當前需要對非法消息採取丟棄操作,則也需要手動進行處理釋放資源
public void channelWrite(ChannelHandlerContext ctx, Object msg, ChannelPromise promise){
  ReferenceCountUtil.release(msg);
  promise.setSuccess(); // 丟棄消息意味着不會將數據傳輸到出站事件的責任鏈上,這個時候FutureListener無法監聽到消息處理情況,需要手動通知處理結果
}

Netty的資源監控類ResourceLeakDetector

## 關於監控類的級別詳細可查看Netty類下的ResourceLeakDetector
## 通過java配置並執行可以查看資源泄漏情況以及輸出報告
java -Dio.netty.leakDetection.level=ADVANCED

內存分配算法

內存分配策略

內存分配策略源碼

//  buf = directArena.allocate(cache, initialCapacity, maxCapacity);
PooledByteBuf<T> allocate(PoolThreadCache cache, int reqCapacity, int maxCapacity) {
  
  // 創建池化的ByteBuf
  // 核心處理流程: 先從線程緩存獲取棧，從棧獲取buf，如果不存在則將創建ByteBuf並存儲棧中,最後更新棧數據並一併更新到到線程的cache中最後返回的時候會重置buf的引用計數器
  PooledByteBuf<T> buf = newByteBuf(maxCapacity);
  
  // 從內存中申請資源存儲數據
  allocate(cache, buf, reqCapacity);
  return buf;
}

// 分配策略
// PoolArena.java
private void allocate(PoolThreadCache cache, PooledByteBuf<T> buf, final int reqCapacity) {
  // 計算合適的一個區域
  // 比如現在申請一個資源爲19byte,則會爲其創建一個2的臨近整數方,這個時候會分配一個32byte的數據
  final int normCapacity = normalizeCapacity(reqCapacity);

  // 申請的容量小於8kb
  if (isTinyOrSmall(normCapacity)) {
    int tableIdx;
    PoolSubpage<T>[] table;
    boolean tiny = isTiny(normCapacity);
    // 容量小於512byte
    if (tiny) {
      // 從緩存中獲取
      if (cache.allocateTiny(this, buf, reqCapacity, normCapacity)) {
        return;
      }
      tableIdx = tinyIdx(normCapacity);
      table = tinySubpagePools;
    } else {
      // 分配的容量大於512byte小於8kb
      if (cache.allocateSmall(this, buf, reqCapacity, normCapacity)) {
        return;
      }
      tableIdx = smallIdx(normCapacity);
      table = smallSubpagePools;
    }

    final PoolSubpage<T> head = table[tableIdx];
    synchronized (head) {
      final PoolSubpage<T> s = head.next;
      if (s != head) {
        assert s.doNotDestroy && s.elemSize == normCapacity;
        long handle = s.allocate();
        assert handle >= 0;
        s.chunk.initBufWithSubpage(buf, null, handle, reqCapacity);
        incTinySmallAllocation(tiny);
        return;
      }
    }
    
    // 如果線程緩存沒有數據則直接申請OS內存資源,存在競爭,需要同步加鎖保證線程安全
    synchronized (this) {
      allocateNormal(buf, reqCapacity, normCapacity);
    }

    // 併發原子操作更新數據
    incTinySmallAllocation(tiny);
    return;
  }

  // 容量大於等於8kb小於16M
  if (normCapacity <= chunkSize) {
    if (cache.allocateNormal(this, buf, reqCapacity, normCapacity)) {
      return;
    }
    synchronized (this) {
      allocateNormal(buf, reqCapacity, normCapacity);
      ++allocationsNormal;
    }
  } else {
    // > 16M,直接從操作系統中申請資源並且不做緩存和池化處理,於是不會添加到arena中
    // Huge allocations are never served via the cache so just call allocateHuge
    allocateHuge(buf, reqCapacity);
  }
}

// 最後使用ByteBuf進行回收添加到cache中
void free(PoolChunk<T> chunk, ByteBuffer nioBuffer, long handle, int normCapacity, PoolThreadCache cache) {
  if (chunk.unpooled) {
    int size = chunk.chunkSize();
    destroyChunk(chunk);
    activeBytesHuge.add(-size);
    deallocationsHuge.increment();
  } else {
    SizeClass sizeClass = sizeClass(normCapacity);
    // 可以看到這裏將數據添加到線程緩存中
    if (cache != null && cache.add(this, chunk, nioBuffer, handle, normCapacity, sizeClass)) {
      // cached so not free it.
      return;
    }

    freeChunk(chunk, handle, sizeClass, nioBuffer, false);
  }
}

核心流程

至此,Netty從分配到回收一個池化的ByteBuf工作流程如下:

Netty內存分配邏輯結構視圖

從宏觀上看,線程與Arena之間的關係:

從微觀上看每個arena存儲數據過程,在上述源碼中我們看到在沒有使用線程緩存的時候,會創建一個PoolChunk對象,在這個PoolChunk中對於小於8kb的數據會通過維護着一個subpage類型的數組來組成一個page,我們可以認爲把存儲數據的buffer存放在一個chunk的一個page,並且每個page的容量都是2冪次方且單位爲byte,在chunk爲了便於搜索可用的page,於是在邏輯上將page以完全二叉樹的數據結構進行存儲,方便進行搜索查詢,每個二叉樹節點存儲對應一個可分配的容量,根容量爲16M,深度每增加1,容量就減半.如下圖所示:

接着我們看下線程緩存存儲的邏輯結構(基於可伸縮性的jemalloc算法):

上述的Tiny MemoryRegionCache對應於TinySubPageCache,Small MemoryRegionCache對應於SmallSubPageCache,而Normal MemoryRegionCache對應於NormalCache.

我們根據源碼將內存分配策略如下:

高效的程序處理能力

Netty高效處理機制

解決空輪詢的源碼

// NioEventLoop.java
// 僅摘錄部分代碼
static{
  // 可配置select的循環次數,當網絡數據包一直不可達的時候,通過次數控制減少當前selector不斷無結果的空輪詢,一旦超過次數將會重建selector,將原有的selector關閉,避免cpu飆升.
    int selectorAutoRebuildThreshold = SystemPropertyUtil.getInt("io.netty.selectorAutoRebuildThreshold", 512);
    if (selectorAutoRebuildThreshold < MIN_PREMATURE_SELECTOR_RETURNS) {
      selectorAutoRebuildThreshold = 0;
    }

    SELECTOR_AUTO_REBUILD_THRESHOLD = selectorAutoRebuildThreshold;
}
void run(){
  for(;;){
     try{
       select();
     }catch(){}
     
     selectCnt++;
    
    // 處理就緒事件
    processSelectedKeys();
    // 執行任務
    ranTasks = runAllTasks();
    
    if (ranTasks || strategy > 0) {
      if (selectCnt > MIN_PREMATURE_SELECTOR_RETURNS && logger.isDebugEnabled()) {
       logger.debug(...);
      selectCnt = 0;
      // unexpectedSelectorWakeup處理空輪詢
    } else if (unexpectedSelectorWakeup(selectCnt)) { // Unexpected wakeup (unusual case)
      selectCnt = 0;
    }
  }
}

// unexpectedSelectorWakeup方法
// 解決空輪詢根據輪詢次數判斷是否重建selector,丟棄原有的selector,降低CPU的負載
private boolean unexpectedSelectorWakeup(int selectCnt) {
       
  if (SELECTOR_AUTO_REBUILD_THRESHOLD > 0 &&
      selectCnt >= SELECTOR_AUTO_REBUILD_THRESHOLD) {
    // 超過一定的次數之後重建selector,如何重建這裏不貼代碼
    rebuildSelector();
    return true;
  }
  return false;
}

使用責任鏈機制實現無鎖串行化任務

基於事件輪詢器的源碼與線程模型可知,分配給每個EventLoop的專屬線程都會負責處理select之後的就緒事件集合以及所有在阻塞隊列中的任務,且線程與EventLoop通過FastThreadLocal進行綁定,也就是說所有事件的處理與任務的執行都是處於一個線程中,從而保證事件處理與任務處理都是保持在同一個線程中,同時爲了保持一個channelHandler實例能夠共享於多個pipeline中,需要通過註解@Shareble方式來保證線程安全.於是對於Netty處理的任務還是channelHandler下的完成事件處理都是能夠得到線程安全的保證,於是對於無鎖串行化的描述如下圖:

使用併發庫

在先前的高性能IO設計一文中有說到,在資源競爭的環境下,使用併發庫甚至是無鎖編程能夠提升程序的性能,避免鎖的爭搶與等待.

參考資料

C10K & C10M

http://highscalability.com/blog/2013/5/13/the-secret-to-10-million-concurrent-connections-the-kernel-i.html
https://en.wikipedia.org/wiki/C10k_problem

高性能

http://pl.atyp.us/content/tech/servers.html

基於可伸縮性的jemalloc算法

http://people.freebsd.org/~jasone/jemalloc/bsdcan2006/jemalloc.pdf
https://www.facebook.com/notes/facebook-engineering/scalable-memory-allocation-using-jemalloc/480222803919

深入分析Netty的高性能

DAPPER 事務 TRANSACTION

Java中線程的創建方式

跨境電商 Shopee 的實時數倉之路

置信學習：讓樣本中的“髒數據“原形畢露

MySQL優化CPU消耗

MAT分析OOM問題

Flutter升級到1.12填坑指南

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結