Swoole TCP 流數據邊界問題解決方案

1. 數據發送過程

我的官方羣點擊此處

首先由客戶端將數據發往緩衝區 (服務端並不是直接收到的), 對於客戶端來說,這次的數據即是發送成功了, 對於服務端是否真正的收到他是不知道的, 然後再由服務端從緩衝區中讀取數據。圖解:

 

 

 

2. 什麼是數據邊界

 

因爲 TCP 是流式傳輸,對於服務端來說並不知道此時在緩衝區內的數據是一次請求還是兩次請求的,所以在服務端接收數據時需要根據指定字符或約定長度來對數據進行分包,這個分包的標誌即是數據邊界。否則可能會出現一次讀取兩條或多條數據,造成讀取、解析數據出錯。

 

 

 

2.1 代碼演示

可以用代碼實現一下,假設客戶端死循環往緩衝區不停輸入 “1”,即相當於每次的報文內容都是 1, 那麼在服務端讀取時收到的數據就是隨機長度的。

客戶端代碼

$client = new Swoole\Client(SWOOLE_SOCK_TCP);
if ($client->connect('127.0.0.1', 9501, -1)) {
    while(true) {
        $client->send(1);        
    }
}
$client->close();

服務端代碼

$server = new Swoole\Server('127.0.0.1', 9501);
$server->on('connect', function($server, $fd){
    echo "client : ".$fd." connect";
});

$server->on('receive', function($server, $fd, $from_id, $data){
    echo "receive:". $data.PHP_EOL;
});

$server->on('close', function($server){

});

運行結果

 

 

 

可以看到運行結果,服務端獲取到的數據完全是隨機的,有長有短,那麼接下來我們說下如何解決這個問題。

 

3.EOF 解決方案

第一種解決方案類似於我們 http 請求頭的分隔符,在每次發送的數據包結尾處使用 \r\n (可以配置) 來結尾, 當服務端從緩衝區中讀取數據, 根據指定字符來分割數據包,EOF 有兩種配置方案:

3.1 open_eof_check

首先放出配置方式:

$server->set([
    'open_eof_check' => true,
    'package_eof' => "\r\n"
]);

這種配置方式會對客戶端發來的數據包進行檢測, 當發現結尾是 \r\n 時,纔會投遞給 worker 進程, 也就是我們的 onReceive 回調,否則會一直拼接數據包,直到超出緩衝區或者超時才終止。 但此方法有一個問題是可能會一次性收到多個數據包,因爲他是從數據包的結尾處來進行檢查的,在數據內容中存在 \r\n 時程序並不會發現,需要我們自己在應用代碼中再次使用 \r\n 來拆分數據包。

客戶端運行代碼

$client = new Swoole\Client(SWOOLE_SOCK_TCP);

if ($client->connect('127.0.0.1', 9501, -1)) {

    while(true) {
        $send2 = "Hello World \r\n";
        $client->send($send2);        
    }
}

$client->close();

服務端代碼

$server = new Swoole\Server('127.0.0.1', 9501);
$server->set([
    'open_eof_check' => true,
    'package_eof' => "\r\n"
]);

$server->on('connect', function($server, $fd){
    echo "client : ".$fd." connect";
});

$server->on('receive', function($server, $fd, $from_id, $data){
    echo "receive:". $data;
});

$server->on('close', function($server){

});

$server->start();

 

運行結果

 

 

 

3.2 open_eof_split

配置方式:

$server->set([
    'open_eof_split' => true,
    'package_eof' => "\r\n"
]);

這種配置方式,服務端會對客戶端發來的數據逐個字符進行檢查,遇到 \r\n 就發送給 worker 進程,可以有效實現分包,但缺點是性能比較差。

運行結果:可以看到每次接收到一個 Hello World(代碼我就不貼了, 只把服務端 set 配置改一下, 其他都一樣)

 

 

3.3 open_eof_check 和 open_eof_split 差異

 

  • open_eof_check 只檢查接收數據的末尾是否爲 EOF,因此它的性能最好,幾乎沒有消耗
  • open_eof_check 無法解決多個數據包合併的問題,比如同時發送兩條帶有 EOF 的數據,底層可能會一次全部返回
  • open_eof_split 會從左到右對數據進行逐字節對比,查找數據中的 EOF 進行分包,性能較差。但是每次只會返回一個數據包

4. 固定包頭 + 包體解決方案

引用一段官方文檔的描述:

包長檢測提供了固定包頭 + 包體這種格式協議的解析。啓用後,可以保證 Worker 進程 onReceive 每次都會收到一個完整的數據包。
長度檢測協議,只需要計算一次長度,數據處理僅進行指針偏移,性能非常高,推薦使用。

 

可見官方是推薦使用這種方式的,就是配置比其他方案要複雜一些, 首先貼一下配置:

$server->set([
// 打開包長檢測特性
'package_length_check' => true,
// 包頭中某個字段作爲包長度的值,底層支持了 10 種長度類型。可參考 pack() 方法
'package_length_type' => 'N',
// length 長度值在包頭的第幾個字節。
'package_length_offset' => 8,
// 從第幾個字節開始計算長度,一般有 2 種情況:
//length 的值包含了整個包(包頭 + 包體),package_body_offset 爲 0
//包頭長度爲 N 字節,length 的值不包含包頭,僅包含包體,package_body_offset 設置爲 N
'package_body_offset' => 16,
// 設置最大數據包尺寸,單位爲字節
'package_max_length' => 81920
]);

下面是一個數據包結構例子,可以很好的體現了字段含義。

 

 

以上通信協議的設計中,包頭長度爲 4 個整型,16 字節,length 長度值在第 3 個整型處。因此 package_length_offset 設置爲 8,0-3 字節爲 type,4-7 字節爲 uid,8-11 字節爲 length,12-15 字節爲 serid。

 

下面來說一下代碼實現:

客戶端代碼:

 

$client = new Swoole\Client(SWOOLE_SOCK_TCP);

$data = "123456789012345678901234567890";
$type = 0x30;
$uid = 0x123;
$length = strlen($data);
$serid = 0x15;
$head = pack("N4", $type, $uid, $length, $serid);
$body = pack("a{$length}", $data);
$message = $head.$body;


if ($client->connect('127.0.0.1', 9502, -1)) {
    $client->send($message);
    echo $client->recv();
}

$client->close();

服務端代碼:

$serv = new Swoole\Server('127.0.0.1', 9502);
$serv->set([
    'open_length_check'     => true,
      'package_max_length'    => 81920,
      'package_length_type'   => 'N',
      'package_length_offset' => 8,
      'package_body_offset'   => 16,    
]);

$serv->on('connect', function($server, $fd){
    echo $fd. " Connect !".PHP_EOL;
});

$serv->on('receive', function($server, $fd, $from_id, $data){
    var_dump($data);            // 源數據
    $tmp = unpack("Ntype/Nuid/Nlength", $data);
    $unpacking = unpack("Ntype/Nuid/Nlength/Nserid/a{$tmp['length']}body", $data);
    var_dump($unpacking);        // 解包後數據
    $server->send($fd, " Server Receive Data: ". $unpacking['body']);
});


$serv->on('close', function($server){

});

$serv->start();

客戶端運行結果

 

 

 

服務端運行結果

 

 

 

可以看到 客戶端成功的把發送的數據回顯, 服務端也打印出了接收到的所有數據, 其中有些字段在發送時是 16 進制的, 所以服務端在接收到之後需要進行進制轉換, 我這裏沒有進行轉換, 所以顯示的數據是 10 進制的。

5. 總結

 

通過對比可以看出使用固定包頭 + 包體的方式是效率最高的一種, 因爲他是按照固定長度去讀取的。期間專門去了解了 pack 函數的使用方法,但也不確定這麼寫到底對不對,如果有其他了解的仁兄可以慷慨解答一下,網上相關資料有點少,官方文檔上也只給出了幾個字段的釋義。

 

6. 擴展知識:

 

6.1 字節序

計算機硬件有兩種儲存數據的方式:大端字節序(big endian)和小端字節序(little endian)。

 

舉例來說,數值 0x2211 使用兩個字節儲存:高位字節是 0x22,低位字節是 0x11。

 

  • 大端字節序:高位字節在前,低位字節在後,這是人類讀寫數值的方法。
  • 小端字節序:低位字節在前,高位字節在後,即以 0x1122 形式儲存。

這個前和後指的是內存地址,計算機處理字節時是不知道高低字節之分的,它只知道按順序讀取字節,先讀第一個字節,再讀第二個字節。

例如: 0x1234567 的讀取順序:

 

 

 

參考資料:

 

www.ruanyifeng.com/blog/2016/11/byt...

 

www.cnblogs.com/nr-zhang/p/9989390...

 

Swoole4 文檔...

 

推薦觀看:swoole

PHP—swoole通往大神修煉之路:av77924246

手把手教你用swoole+websocket實現戶外監控直播(總集篇):av79087951

教你用swoole開發網絡遊戲:av79264440

PHP高級技術手寫swoole分佈式框架:av78383962

PHP高級技術手寫swoole分佈式框架(二):av78632435

PHP高級技術手寫swoole分佈式框架(三):av78748923

PHP高級技術手寫swoole分佈式框架(框架優化):av78856427

PHP高級技術手寫swoole分佈式框架(分佈式RPC):av79012272

用swoole實現消息推送:av79874641

swoole+docker+redis主從複製及讀寫分離av78781841

 

更多學習內容請訪問:

騰訊T3-T4標準精品PHP架構師教程目錄大全,只要你看完保證薪資上升一個臺階(持續更新)

以上內容希望幫助到大家,很多PHPer在進階的時候總會遇到一些問題和瓶頸,業務代碼寫多了沒有方向感,不知道該從那裏入手去提升,對此我整理了一些資料,包括但不限於:分佈式架構、高可擴展、高性能、高併發、服務器性能調優、TP6,laravel,YII2,Redis,Swoole、Swoft、Kafka、Mysql優化、shell腳本、Docker、微服務、Nginx等多個知識點高級進階乾貨需要的可以免費分享給大家,需要的可以加入我的官方羣點擊此處

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章