什麼是TCP擁塞控制算法？

最近花了些時間在學習TCP/IP協議上，首要原因是由於本人長期以來對TCP/IP的認識就只限於三次握手四次分手上，所以希望深入瞭解一下。再者，TCP/IP和Linux系統層級的很多設計都可以用於中間件系統架構上，比如說TCP 擁塞控制算法也可以用在以響應時間來限流的中間件上。更深一層，像TCP/IP協議這種基礎知識和原理性的技術，都是經過長時間的考驗的，都是前人智慧的結晶，可以給大家很多啓示和幫助。

本文中會出現一些縮寫，因爲篇幅問題，無法每個都進行解釋，如果你不明白它的含義，請自己去搜索瞭解，做一個主動尋求知識的人。

TCP協議有兩個比較重要的控制算法，一個是流量控制，另一個就是阻塞控制。

TCP協議通過滑動窗口來進行流量控制，它是控制發送方的發送速度從而使接受者來得及接收並處理。而擁塞控制作用於整體網絡，它是防止過多的包被髮送到網絡中，避免出現網絡負載過大，網絡擁塞的情況。

擁塞算法需要掌握其狀態機和四種算法。擁塞控制狀態機的狀態有五種，分別是："Open，Disorder、CWR、Recovery和Loss狀態"。四個算法爲"慢啓動，擁塞避免，擁塞發生時算法和快速恢復"。

Congestion Control State Machine

和TCP一樣，擁塞控制算法也有其狀態機。當發送方收到一個ACK時，Linux TCP通過狀態機的狀態來決定其接下來的行爲，是應該降低擁塞窗口cwnd大小，或者保持cwnd不變，還是繼續增加cwnd。如果處理不當，可能會導致丟包或者超時。

1、Open狀態

Open狀態是擁塞控制狀態機的默認狀態。這種狀態下，當ACK到達時，發送方根據擁塞窗口cwnd(Congestion Window)是小於還是大於慢啓動閾值ssthresh(slow start threshold)，來按照慢啓動或者擁塞避免算法來調整擁塞窗口。

2、Disorder狀態

當發送方檢測到DACK(重複確認)或者SACK(選擇性確認)時，狀態機將轉變爲Disorder狀態。在此狀態下，發送方遵循飛行(in-flight)包守恆原則，即一個新包只有在一個老包離開網絡後才發送，也就是發送方收到老包的ACK後，纔會再發送一個新包。

3、CWR狀態

發送方接收到一個顯示擁塞通知時，並不會立刻減少擁塞窗口cwnd，而是每收到兩個ACK就減少一個段，直到窗口的大小減半爲止。當cwnd正在減小並且網絡中有沒有重傳包時，這個狀態就叫CWR(Congestion Window Reduced，擁塞窗口減少)狀態。CWR狀態可以轉變成Recovery或者Loss狀態。

4、Recovery狀態

當發送方接收到足夠(推薦爲三個)的DACK(重複確認)後，進入該狀態。在該狀態下，擁塞窗口cnwd每收到兩個ACK就減少一個段(segment)，直到cwnd等於慢啓動閾值ssthresh，也就是剛進入Recover狀態時cwnd的一半大小。發送方保持 Recovery 狀態直到所有進入 Recovery狀態時正在發送的數據段都成功地被確認，然後發送方恢復成Open狀態，重傳超時有可能中斷 Recovery 狀態，進入Loss狀態。

5、Loss狀態

當一個RTO(重傳超時時間)到期後，發送方進入Loss狀態。所有正在發送的數據標記爲丟失，擁塞窗口cwnd設置爲一個段(segment)，發送方再次以慢啓動算法增大擁塞窗口cwnd。

Loss 和 Recovery 狀態的區別是:Loss狀態下，擁塞窗口在發送方設置爲一個段後增大，而 Recovery 狀態下，擁塞窗口只能被減小。Loss 狀態不能被其他的狀態中斷，因此，發送方只有在所有 Loss 開始時正在傳輸的數據都得到成功確認後，才能退到 Open 狀態。

四大算法

擁塞控制主要是四個算法：

1）慢啓動;

2）擁塞避免;

3）擁塞發生;

4）快速恢復。

這四個算法不是一天都搞出來的，這個四算法的發展經歷了很多時間，到今天都還在優化中。

慢熱啓動算法 – Slow Start

所謂慢啓動，也就是TCP連接剛建立，一點一點地提速，試探一下網絡的承受能力，以免直接擾亂了網絡通道的秩序。

慢啓動算法：

1) 、連接建好的開始先初始化擁塞窗口cwnd大小爲1，表明可以傳一個MSS大小的數據。

2)、每當收到一個ACK，cwnd大小加一，呈線性上升。

3)、每當過了一個往返延遲時間RTT(Round-Trip Time)，cwnd大小直接翻倍，乘以2，呈指數上升。

4)、還有一個ssthresh（slow start threshold），是一個上限，當cwnd >= ssthresh時，就會進入“擁塞避免算法”（後面會說這個算法）。

擁塞避免算法 – Congestion Avoidance

如同前邊說的，當擁塞窗口大小cwnd大於等於慢啓動閾值ssthresh後，就進入擁塞避免算法。算法如下：

1)、收到一個ACK，則cwnd = cwnd + 1 / cwnd。

2)、每當過了一個往返延遲時間RTT，cwnd大小加一。

過了慢啓動閾值後，擁塞避免算法可以避免窗口增長過快導致窗口擁塞，而是緩慢的增加調整到網絡的最佳值。

擁塞狀態時的算法

一般來說，TCP擁塞控制默認認爲網絡丟包是由於網絡擁塞導致的，所以一般的TCP擁塞控制算法以丟包爲網絡進入擁塞狀態的信號。對於丟包有兩種判定方式，一種是超時重傳RTO[Retransmission Timeout]超時，另一個是收到三個重複確認ACK。

超時重傳是TCP協議保證數據可靠性的一個重要機制，其原理是在發送一個數據以後就開啓一個計時器，在一定時間內如果沒有得到發送數據報的ACK報文，那麼就重新發送數據，直到發送成功爲止。

但是如果發送端接收到3個以上的重複ACK，TCP就意識到數據發生丟失，需要重傳。這個機制不需要等到重傳定時器超時，所以叫做快速重傳，而快速重傳後沒有使用慢啓動算法，而是擁塞避免算法，所以這又叫做快速恢復算法。

超時重傳RTO[Retransmission Timeout]超時，TCP會重傳數據包。TCP認爲這種情況比較糟糕，反應也比較強烈：

由於發生丟包，將慢啓動閾值ssthresh設置爲當前cwnd的一半，即ssthresh = cwnd / 2.
cwnd重置爲1
進入慢啓動過程

最爲早期的TCP Tahoe算法就使用上述處理辦法，但是由於一丟包就一切重來，導致cwnd重置爲1，十分不利於網絡數據的穩定傳遞。

所以，TCP Reno算法進行了優化。當收到三個重複確認ACK時，TCP開啓快速重傳Fast Retransmit算法，而不用等到RTO超時再進行重傳：

cwnd大小縮小爲當前的一半
ssthresh設置爲縮小後的cwnd大小
然後進入快速恢復算法Fast Recovery。

快速恢復算法 – Fast Recovery

TCP Tahoe是早期的算法，所以沒有快速恢復算法，而Reno算法有。在進入快速恢復之前，cwnd和ssthresh已經被更改爲原有cwnd的一半。快速恢復算法的邏輯如下：

cwnd = cwnd + 3 MSS，加3 MSS的原因是因爲收到3個重複的ACK。
重傳DACKs指定的數據包。
如果再收到DACKs，那麼cwnd大小增加一。
如果收到新的ACK，表明重傳的包成功了，那麼退出快速恢復算法。將cwnd設置爲ssthresh，然後進入擁塞避免算法。

如圖所示，第五個包發生了丟失，所以導致接收方接收到三次重複ACK，也就是ACK5。所以將ssthresh設置爲當時cwnd的一半，也就是6/2 = 3，cwnd設置爲3 + 3 = 6。然後重傳第五個包。當收到新的ACK時，也就是ACK11，則退出快速恢復階段，將cwnd重新設置爲當前的ssthresh，也就是3，然後進入擁塞避免算法階段。

後記

本文爲大家大致描述了TCP擁塞控制的一些機制，但是這些擁塞控制還是有很多缺陷和待優化的地方，業界也在不斷推出新的擁塞控制算法，比如說谷歌的BBR。這些我們後續也會繼續探討，請大家繼續關注。

寫在最後：

歡迎大家關注我新開通的公衆號【風平浪靜如碼】，海量Java相關文章，學習資料都會在裏面更新，整理的資料也會放在裏面。

覺得寫的還不錯的就點個贊，加個關注唄！點關注，不迷路，持續更新！！！

海量面試、架構資料分享

什麼是TCP擁塞控制算法？

Congestion Control State Machine

四大算法

慢熱啓動算法 – Slow Start

擁塞避免算法 – Congestion Avoidance

擁塞狀態時的算法

快速恢復算法 – Fast Recovery

後記

寫在最後：

AI模型 Llama 3體驗筆記

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

超值乾貨 | 值得收藏：精選BATJ面試突擊500題詳解：JVM篇！

備戰詳解22道Java面試常問集合框架面試真題，讓面試官無話可說！

面試害怕被問Nginx？一文帶你解析Nginx基本概念！（附資料分享）

面試官：看到你熟練性能調優，可以說一下你對MySQL索引的理解？

超硬核！16000 字 Redis 面試知識點總結，這還不趕緊收藏？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結