在默認的情況下,TCP連接是沒有保活的心跳的。這就是說,當一個TCP的socket,客戶端與服務端誰也不發送數據,會一直保持着連接。這其中如果有一方異常掉線,另一端永遠也不可能知道。這對於一些服務型的程序來說,將是災難性的後果。
所以,必須對創建的socket,啓用保活心跳,即Keepalive選項。
啓用Keepalive
對於WIN32或者Linux平臺來說,設置socket的Keepalive都很簡單,只需使用setsockopt設置SO_KEEPALIVE即可。
setsockopt的函數原型在Linux環境下爲:
- #include <sys/types.h>
- #include <sys/socket.h>
- int setsockopt(int s, int level, int optname,
- const void *optval,
- socklen_t optlen);
- #include <winsock2.h>
- int setsockopt(int s, int level, int optname,
- const char *optval,
- int optlen);
因爲const void *可以接受const char *型的參數,所以爲了代碼的跨平臺編譯考慮,可以採用以下代碼來設置TCP的Keepalive選項。
- alive = 1;
- if (setsockopt
- (fd, SOL_SOCKET, SO_KEEPALIVE, (const char *) &alive,
- sizeof alive) != 0)
- {
- log_warn ("Set keep alive error: %s.\n", strerror (errno));
- return -1;
- }
這樣,對於TCP的連接,就啓用了系統默認值的保活心跳。
Linux環境下的TCP Keepalive參數設置
爲什麼說是系統默認值的呢?因爲有這樣幾個值,我們並沒有手動設置,是採用的系統默認值。即,
- 多長時間發送一次保活心跳?
- 如果沒有返回,多長時間再重試發送?
- 重試幾次爲失敗?
如果是Linux操作系統,這三個值分別爲
- # cat /proc/sys/net/ipv4/tcp_keepalive_time
- 7200
- # cat /proc/sys/net/ipv4/tcp_keepalive_intvl
- 75
- # cat /proc/sys/net/ipv4/tcp_keepalive_probes
- 9
這就是說,在Linux系統下,如果對於TCP的socket啓用了Keepalive選項,則會在7200秒(即兩個小時)沒有數據後,發起KEEPALIVE報文。如果沒有迴應,則會在75秒後再次重試。如果重試9次均失敗,則認定連接已經失效。TCP的讀取操作,將返回0。
這對於我們大多數應用來說,前兩個時間值都有點太長了。
我們可以通過重設上面三個值,來使得操作系統上運行的所有啓用了Keepalive選項的TCP的socket的行爲更改。
我們也可以只針對我們自己創建的socket,重設這三個值。它們分別對應TCP_KEEPIDLE、TCP_KEEPINTL和TCP_KEEPCNT的選項值,同樣可以使用setsockopt進行設置。
- #include <stdlib.h>
- #include <fcntl.h>
- #include <errno.h>
- #include <sys/socket.h>
- #include <netinet/tcp.h>
- #include <netinet/in.h>
- #include <netdb.h>
- #include <arpa/inet.h>
- int
- socket_set_keepalive (int fd)
- {
- int ret, error, flag, alive, idle, cnt, intv;
- /* Set: use keepalive on fd */
- alive = 1;
- if (setsockopt
- (fd, SOL_SOCKET, SO_KEEPALIVE, &alive,
- sizeof alive) != 0)
- {
- log_warn ("Set keepalive error: %s.\n", strerror (errno));
- return -1;
- }
- /* 10秒鐘無數據,觸發保活機制,發送保活包 */
- idle = 10;
- if (setsockopt (fd, SOL_TCP, TCP_KEEPIDLE, &idle, sizeof idle) != 0)
- {
- log_warn ("Set keepalive idle error: %s.\n", strerror (errno));
- return -1;
- }
- /* 如果沒有收到迴應,則5秒鐘後重發保活包 */
- intv = 5;
- if (setsockopt (fd, SOL_TCP, TCP_KEEPINTVL, &intv, sizeof intv) != 0)
- {
- log_warn ("Set keepalive intv error: %s.\n", strerror (errno));
- return -1;
- }
- /* 連續3次沒收到保活包,視爲連接失效 */
- cnt = 3;
- if (setsockopt (fd, SOL_TCP, TCP_KEEPCNT, &cnt, sizeof cnt) != 0)
- {
- log_warn ("Set keepalive cnt error: %s.\n", strerror (errno));
- return -1;
- }
- return 0;
- }
WIN32環境下的TCP Keepalive參數設置
而WIN32環境下的參數設置,就要麻煩一些,需要使用另外的一個函數WSAIoctl和一個結構struct tcp_keepalive。
它們的原型分別爲:
- #include <winsock2.h>
- #include <mstcpip.h>
- int WSAIoctl(
- SOCKET s,
- DWORD dwIoControlCode,
- LPVOID lpvInBuffer,
- DWORD cbInBuffer,
- LPVOID lpvOutBuffer,
- DWORD cbOutBuffer,
- LPDWORD lpcbBytesReturned,
- LPWSAOVERLAPPED lpOverlapped,
- LPWSAOVERLAPPED_COMPLETION lpCompletionRoutine
- );
- struct tcp_keepalive {
- u_long onoff;
- u_long keepalivetime;
- u_long keepaliveinterval;
- };
struct tcp_keepalive結構的參數意義爲:
onoff,是否開啓KEEPALIVE; keepalivetime,多長時間觸發Keepalive報文的發送; keepaliveinterval,多長時間沒有迴應觸發下一次發送。
注意:這裏兩個時間單位都是毫秒而不是秒。
- #include <winsock2.h>
- #include <mstcpip.h>
- int
- socket_set_keepalive (int fd)
- {
- struct tcp_keepalive kavars[1] = {
- 1,
- 10 * 1000, /* 10 seconds */
- 5 * 1000 /* 5 seconds */
- };
- /* Set: use keepalive on fd */
- alive = 1;
- if (setsockopt
- (fd, SOL_SOCKET, SO_KEEPALIVE, (const char *) &alive,
- sizeof alive) != 0)
- {
- log_warn ("Set keep alive error: %s.\n", strerror (errno));
- return -1;
- }
- if (WSAIoctl
- (fd, SIO_KEEPALIVE_VALS, kavars, sizeof kavars, NULL, sizeof (int), &ret, NULL,
- NULL) != 0)
- {
- log_warn ("Set keep alive error: %s.\n", strerror (WSAGetLastError ()));
- return -1;
- }
- return 0;
- }
http://blog.csdn.net/weiwangchao_/article/details/7225338
一、問題起因:
a》
在文章:http://tldp.org/HOWTO/html_single/TCP-Keepalive-HOWTO/ 寫到:
There are also three other socket options you can set for keepalive when you write your application.
They all use the SOL_TCP level instead of SOL_SOCKET, and they override system-wide variables
only for the current socket. If you read without writing first,
the current system-wide parameters will be returned.
TCP_KEEPCNT: overrides tcp_keepalive_probes
TCP_KEEPIDLE: overrides tcp_keepalive_time
TCP_KEEPINTVL: overrides tcp_keepalive_intvl
上面說:設置 socket 的keepalive 屬性選項, 只對當前socket起作用
-----they override system-wide variables only for the current socket。
b》
可是:《TCP/IP詳解 卷1:協議》page 252 中寫到:
“一個被人們不斷討論的關於保活選項的問題就是兩個小時的空閒時間是否可以改
變。通常他們希望該數值可以小得多,處在分鐘的數量級。正如我們在附錄E看到的,
這個值通常可以改變,但是在該附錄所描述的所有系統中,保活間隔時間是系統級的
變量,因此改變它會影響到所有使用該功能的用戶。
Host Requirements RFC提到一個實現可提供保活的功能,但是除非應用程序指明
要這樣,否則就不能使用該功能。而且,保活間隔必須是可配置的,但是其默認值必
須不小於兩個小時。”
我的理解是:這裏兩處的描述,有些矛盾。
到底 keepalive 屬性是隻對單個socket起作用,還是會影響其他socket?
爲此,用來下面的程序來測試。
在下面的程序中,在服務器端使用TCP保活選項,客戶端沒有使用。
客戶端也可以使用這個選項,但通常都是服務器設置這個功能。
如果雙方都特別需要了解對方是否已經消失,則雙方都可以使用這個選項。
這個程序寫的比較簡單:
沒有考慮服務器效率,只是爲了測試 keepalive 屬性。
錯誤處理也都非常簡單。
說明:本文只是測試客戶主機崩潰或者網絡異常斷開,比如拔掉網線 或 中間路由器崩潰等情況。
正常關機或重啓本文不予考慮。
思路:
在程序中表現爲,當tcp檢測到對端socket不再可用時(TCP發出保活探查報文,但是沒有收到客戶端對其保活探查報文的響應), select會返回socket可讀, 並且在 recv 或 read 時返回-1,
同時設置errno爲 ETIMEDOUT。
服務器端:
#include <stdio.h>
/* 存放已連接的客戶端描述符 */ int conn[CONN_MAX];
/* 當前已連接客戶端的總數 */ if (firstclient) {
/* 開啓 keepalive 選項 */
set_keepalive_params(cltfd, 60, 3, 2); /* 開啓 keepalive 選項 */ active_keepalive(cltfd);
/* 設置 keepalive 相關參數 */ |
客戶端:
#include <stdio.h>
/* 連接成功後,什麼也不做 */ |
測試過程簡單描述:
1.啓動服務器端程序
2.啓動 2 個客戶端
3.在2個客戶端都成功連接服務器後,斷開服務器主機的網線
4.似乎在 20+/-10 秒後,成功檢測出客戶端 2 斷開了,然後似乎再經過 30+/- 10 秒左右, 檢測到客戶端 1 斷開連接。(自己口頭數的秒,具體時間很不準確,但不影響結論 )。
最後的結論:
they override system-wide variables only for the current socket 應該是對的。
也就是,keepalive 屬性只對單個socket 起作用,
對其他 socket 的 keepalive 屬性沒有影響.