Linux Socket編程中的心跳機制

在TCP網絡通信中,經常會出現客戶端和服務器之間的非正常斷開,需要實時檢測查詢鏈接狀態。常用的解決方法就是在程序中加入心跳機制。

從網絡上找到,主要有以下方法實現TCP異常斷開的檢測:

SO_KEEPALIVE,SIO_KEEPALIVE_VALS 和Heart-Beat線程。
(1)SO_KEEPALIVE 機制
        這是socket庫提供的功能,設置接口是setsockopt API:
   BOOL bSet=TRUE;
   setsockopt(hSocket,SOL_SOCKET,SO_KEEPALIVE,(const char*)&bSet,sizeof(BOOL));

       根據MSDN的文檔,如果爲socket設置了KEEPALIVE選項,TCP/IP棧在檢測到對方掉線後,
   任何在該socket上進行的調用(發送/接受調用)就會立刻返回,錯誤號是WSAENETRESET ;
   同時,此後的任何在該socket句柄的調用會立刻失敗,並返回WSAENOTCONN錯誤。

   該機制的缺點:

一、SO_KEEPALIVE無法控制,它會每時每刻都發;

二、SO_KEEPALIVE設置空閒2小時才發送一個“保持存活探測分節”,不能保證實時檢測。對於判斷網絡斷開時間太長,對於需要及時響應的程序不太適應。
   當然也可以修改時間間隔參數,但是會影響到所有打開此選項的套接口!關聯了完成端口的socket可能會忽略掉該套接字選項。
(2)SIO_KEEPALIVE_VALS 機制 
     設置接口是WSAIoctl API:
     DWORD dwError = 0L ;
     tcp_keepalive sKA_Settings = {0}, sReturned = {0} ;
     sKA_Settings.onoff = 1 ;
     sKA_Settings.keepalivetime = 5500 ; // Keep Alive in 5.5 sec.
     sKA_Settings.keepaliveinterval = 3000 ; // Resend if No-Reply
     if (WSAIoctl(skNewConnection, SIO_KEEPALIVE_VALS, &sKA_Settings,
          sizeof(sKA_Settings), &sReturned, sizeof(sReturned), &dwBytes,
          NULL, NULL) != 0)
     {
           dwError = WSAGetLastError() ;
     }
     實現時需要添加tcp_keepalive and SIO_KEEPALIVE_VALS的定義文件MSTCPiP.h
     該選項不同於SO_KEEPALIVE 機制的就是它是針對單個連接的,對系統其他的套接
     口並不影響。
        針對完成端口的socket,設置了SIO_KEEPALIVE_VALS後,激活包由TCP STACK來負責。
     當網絡連接斷開後,TCP STACK並不主動告訴上層的應用程序,但是當下一次RECV或者SEND操作
     進行後,馬上就會返回錯誤告訴上層這個連接已經斷開了.如果檢測到斷開的時候,在這個連接
     上有正在PENDING的IO操作,則馬上會失敗返回.
    該機制的缺點:

    不通用。MS的API只能用於Windows。   
(3)Heart-Beat線程
    這個是最常用的簡單方法。在接收和發送數據時個人設計一個守護進程,定時發送Heart-Beat包,客戶端/服務器收到該小包後,立刻返回相應的包即可檢測對方是否實時在線。

    該方法的好處是通用,但缺點就是會改變現有的通訊協議!大家一般都是使用業務層心跳來處理,主要是靈活可控。

UNIX網絡編程不推薦使用SO_KEEPALIVE來做心跳檢測,還是在業務層以心跳包做檢測比較好,也方便控制,樓上給的代碼是UNIX下的,WIN下不適用。Windows下此處的”非正常斷開”指TCP連接不是以優雅的方式斷開,如網線故障等物理鏈路的原因,還有突然主機斷電等原因。
有兩種方法可以檢測:1.TCP連接雙方定時發握手消息 2.利用TCP協議棧中的KeepAlive探測
第二種方法簡單可靠,只需對TCP連接兩個Socket設定KeepAlive探測。

 

第一種方法是自己給SOCKET設置個timeout,如果超時則認爲對方客戶端斷掉,需重新連接.

//處理通信

void do_client_work(int client_sock,struct sockaddr_in client)
{
    unsigned char cmd;
    int val;
    char *VideoPtr;
    send_client_info(client_sock,"hello",5);
    TCP_VIDEO_AGAIN_FLAG = 1;
    printf("\nrecv start ...\n");
    while(1) {
       fd_set rds;
       struct timeval step;
       int ret;
       FD_ZERO(&rds);
       FD_SET(client_sock,&rds);
       step.tv_sec = 0;
       step.tv_usec = 1000;
       ret = select(client_sock+1,&rds,NULL,NULL,&step);
       if(ret < 0) {
        perror("select");
        exit(-1);
       }
       if(ret == 0) {
           ...//執行等待超時命令
       } else if(FD_ISSET(client_sock,&rds)) {
          val = recv_client_info(client_sock,&cmd,1);
          if(val < 0) {
             break;
          } else {
           ...//執行讀寫客戶端數據操作
           if(TcpOutFlag==1) {
             TcpOutFlag=0;
             break;
           }
          }
       }
    }
}


//TCP接收數據

int  recv_client_info(int client_sock,char* info,int length)
{
    int num;
    struct timeval tv;
    tv.tv_sec = 15;
    tv.tv_usec = 0;
    if (setsockopt(client_sock, SOL_SOCKET, SO_RCVTIMEO, &tv, sizeof(tv))>=0) {
        num = recv(client_sock,info,length,MSG_NOSIGNAL);
        if(num < 0) {
         perror("recv");
         return 0;
        } else if(num == 0) {
         printf("recv over\n");
         return -2;
        } else {
         pthread_mutex_lock(&mutex);
         TCP_Timeout = 0;
         pthread_mutex_unlock(&mutex);
         return 0;
        }
    } else {
         printf("TCP CONNECT超時...\n");
         return -1;
    }
}

第二種方法在Linux,Window2000下的實現Windows 2000平臺下
頭文件

#include <mstcpip.h>
//定義結構及宏
struct TCP_KEEPALIVE {
u_longonoff;
u_longkeepalivetime;
u_longkeepaliveinterval;
} ;
tcp_keepalive live,liveout;  
live.keepaliveinterval=500;  
live.keepalivetime=3000;  
live.onoff=TRUE;  
int iRet = setsockopt(Socket,SOL_SOCKET,SO_KEEPALIVE,(char *)Opt,sizeof(int));  
if(iRet == 0){  
    DWORD dw;  
    if(WSAIoctl(Socket,SIO_KEEPALIVE_VALS,&live,sizeof(live),&liveout,sizeof(liveout),&dw,NULL,NULL)== SOCKET_ERROR){  
        //Delete Client  
        return;  
    }  
}  
 ACE下代碼
  int Opt = 1;
  //在測試過程中,發現檢測的次數是5次,即下面的設置中,從最近一次消息開始計算的10秒後,每次間隔5秒,連續發送5次,即
  //35秒發現網絡斷了
tcp_keepalive live,liveout;  
live.keepaliveinterval=5000; //每次檢測的間隔 (單位毫秒)
live.keepalivetime=10000;  //第一次開始發送的時間(單位毫秒)
live.onoff=TRUE;  
int iRet = stream.set_option(SOL_SOCKET,SO_KEEPALIVE,&Opt,sizeof(int));  
if(iRet == 0){  
   DWORD dw;  
   //此處顯示了在ACE下獲取套接字的方法,即句柄的(SOCKET)化就是句柄
   if(WSAIoctl((SOCKET)h,SIO_KEEPALIVE_VALS,&live,sizeof(live),&liveout,sizeof(liveout),&dw,NULL,NULL)== SOCKET_ERROR){  
          //Delete Client  
          return;  
   }  
}  

Linux平臺下

#include    "/usr/include/linux/tcp.h"
#include "/usr/include/linux/socket.h"
////KeepAlive實現,單位秒
//下面代碼要求有ACE,如果沒有包含ACE,則請把用到的ACE函數改成linux相應的接口
int keepAlive = 1;//設定KeepAlive
int keepIdle = 5;//開始首次KeepAlive探測前的TCP空閉時間
int keepInterval = 5;//兩次KeepAlive探測間的時間間隔
int keepCount = 3;//判定斷開前的KeepAlive探測次數
if(setsockopt(s,SOL_SOCKET,SO_KEEPALIVE,(void*)&keepAlive,sizeof(keepAlive)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t) setsockopt SO_KEEPALIVE error!n")));
}

if(setsockopt(s,SOL_TCP,TCP_KEEPIDLE,(void *)&keepIdle,sizeof(keepIdle)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t) setsockopt TCP_KEEPIDLE error!n")));
}

if(setsockopt(s,SOL_TCP,TCP_KEEPINTVL,(void *)&keepInterval,sizeof(keepInterval)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t) setsockopt TCP_KEEPINTVL error!n")));
}

if(setsockopt(s,SOL_TCP,TCP_KEEPCNT,(void *)&keepCount,sizeof(keepCount)) == -1)
{
ACE_DEBUG ((LM_INFO,
ACE_TEXT ("(%P|%t)setsockopt TCP_KEEPCNT error!n")));
}

假設一種情況:一個socket TCP監聽進程監聽數據的時候如何接收關閉文件的socket連接?

不用併發

 read/recv函數返回0均表示正常結束。此時關閉即可。如果用select/poll/epoll管理,該套接字也會讀就緒,然後調用recv/read返回0。
  對於異常關閉如網絡崩潰、主機宕機等,可通過設置SO_KEEPALIVE設置保活,協議會按照設定間隔自動發送探測分節。該選項分爲設置無數據首次探測時間、探測間隔、探測次數控制TCP是否出錯。如果你設置首次探測在10秒之後、探測間隔3次,探測次數3次,則最多30秒之後將給應用層返回一個對方非正常關閉的異常,此時可通過獲得errno得到對應錯誤,read/recv返回爲-1。具體代碼是:

void setKeepAlive( int iSockfd , socklen_t iIdleTime , socklen_t iInterval , socklen_t iCount )
{
    setsockopt( iSockfd , SOL_SOCKET , SO_KEEPALIVE , (const char*)&iSockAttrOn , sizeof(iSockAttrOn) );
    setsockopt( iSockfd , SOL_TCP , TCP_KEEPIDLE , (const char*)&iIdleTime , sizeof(iIdleTime) );
    setsockopt( iSockfd , SOL_TCP , TCP_KEEPINTVL , (const char*)&iInterval,sizeof(iInterval) );
    setsockopt( iSockfd , SOL_TCP , TCP_KEEPCNT , (const char*)&iCount,sizeof(iCount) );
}

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章