2013-09-18 構建C1000K的服務器(2) – 實現百萬連接的comet服務器

2013-09-16

構建C1000K的服務器(1) – 基礎

Views: 131921 | 32 Comments

著名的 C10K 問題提出的時候, 正是 2001 年, 到如今 12 年後的 2013 年, C10K 已經不是問題了, 任何一個普通的程序員, 都能利用手邊的語言和庫, 輕鬆地寫出 C10K 的服務器. 這既得益於軟件的進步, 也得益於硬件性能的提高.

現在, 該是考慮 C1000K, 也就是百萬連接的問題的時候了. 像 Twitter, weibo, Facebook 這些網站, 它們的同時在線用戶有上千萬, 同時又希望消息能接近實時地推送給用戶, 這就需要服務器能維持和上千萬用戶的 TCP 網絡連接, 雖然可以使用成百上千臺服務器來支撐這麼多用戶, 但如果每臺服務器能支持一百萬連接(C1000K), 那麼只需要十臺服務器.

有很多技術聲稱能解決 C1000K 問題, 例如 Erlang, Java NIO 等等, 不過, 我們應該首先弄明白, 什麼因素限制了 C1000K 問題的解決. 主要是這幾點:

  1. 操作系統能否支持百萬連接?
  2. 操作系統維持百萬連接需要多少內存?
  3. 應用程序維持百萬連接需要多少內存?
  4. 百萬連接的吞吐量是否超過了網絡限制?

下面來分別對這幾個問題進行分析.

1. 操作系統能否支持百萬連接?

對於絕大部分 Linux 操作系統, 默認情況下確實不支持 C1000K! 因爲操作系統包含最大打開文件數(Max Open Files)限制, 分爲系統全局的, 和進程級的限制.

全侷限制

在 Linux 下執行:

cat /proc/sys/fs/file-nr

會打印出類似下面的一行輸出:

5100	0	101747

第三個數字 101747 就是當前系統的全局最大打開文件數(Max Open Files), 可以看到, 只有 10 萬, 所以, 在這臺服務器上無法支持 C1000K. 很多系統的這個數值更小, 爲了修改這個數值, 用 root 權限修改 /etc/sysctl.conf 文件:

fs.file-max = 1020000
net.ipv4.ip_conntrack_max = 1020000
net.ipv4.netfilter.ip_conntrack_max = 1020000

需要重啓系統服務生效:

# Linux
$ sudo sysctl -p /etc/sysctl.conf 
# BSD
$ sudo /etc/rc.d/sysctl reload

進程限制

執行:

ulimit -n

輸出:

1024

說明當前 Linux 系統的每一個進程只能最多打開 1024 個文件. 爲了支持 C1000K, 你同樣需要修改這個限制.

臨時修改

ulimit -n 1020000

不過, 如果你不是 root, 可能不能修改超過 1024, 會報錯:

-bash: ulimit: open files: cannot modify limit: Operation not permitted

永久修改

編輯 /etc/security/limits.conf 文件, 加入如下行:

# /etc/security/limits.conf
work         hard    nofile      1020000
work         soft    nofile      1020000

第一列的 work 表示 work 用戶, 你可以填 *, 或者 root. 然後保存退出, 重新登錄服務器.

注意: Linux 內核源碼中有一個常量(NR_OPEN in /usr/include/linux/fs.h), 限制了最大打開文件數, 如 RHEL 5 是 1048576(2^20), 所以, 要想支持 C1000K, 你可能還需要重新編譯內核.

2. 操作系統維持百萬連接需要多少內存?

解決了操作系統的參數限制, 接下來就要看看內存的佔用情況. 首先, 是操作系統本身維護這些連接的內存佔用. 對於 Linux 操作系統, socket(fd) 是一個整數, 所以, 猜想操作系統管理一百萬個連接所佔用的內存應該是 4M/8M, 再包括一些管理信息, 應該會是 100M 左右. 不過, 還有 socket 發送和接收緩衝區所佔用的內存沒有分析. 爲此, 我寫了最原始的 C 網絡程序來驗證:

服務器

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>
#include <errno.h>
#include <arpa/inet.h>
#include <netinet/tcp.h>
#include <sys/select.h>

#define MAX_PORTS 10

int main(int argc, char **argv){
    struct sockaddr_in addr;
    const char *ip = "0.0.0.0";
    int opt = 1;
    int bufsize;
    socklen_t optlen;
    int connections = 0;
    int base_port = 7000;
    if(argc > 2){
        base_port = atoi(argv[1]);
    }

    int server_socks[MAX_PORTS];

    for(int i=0; i<MAX_PORTS; i++){
        int port = base_port + i;
        bzero(&addr, sizeof(addr));
        addr.sin_family = AF_INET;
        addr.sin_port = htons((short)port);
        inet_pton(AF_INET, ip, &addr.sin_addr);

        int serv_sock;
        if((serv_sock = socket(AF_INET, SOCK_STREAM, 0)) == -1){
            goto sock_err;
        }
        if(setsockopt(serv_sock, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt)) == -1){
            goto sock_err;
        }
        if(bind(serv_sock, (struct sockaddr *)&addr, sizeof(addr)) == -1){
            goto sock_err;
        }
        if(listen(serv_sock, 1024) == -1){
            goto sock_err;
        }

        server_socks[i] = serv_sock;
        printf("server listen on port: %d\n", port);
    }

    //optlen = sizeof(bufsize);
    //getsockopt(serv_sock, SOL_SOCKET, SO_RCVBUF, &bufsize, &optlen);
    //printf("default send/recv buf size: %d\n", bufsize);

    while(1){
        fd_set readset;
        FD_ZERO(&readset);
        int maxfd = 0;
        for(int i=0; i<MAX_PORTS; i++){
            FD_SET(server_socks[i], &readset);
            if(server_socks[i] > maxfd){
                maxfd = server_socks[i];
            }
        }
        int ret = select(maxfd + 1, &readset, NULL, NULL, NULL);
        if(ret < 0){
            if(errno == EINTR){
                continue;
            }else{
                printf("select error! %s\n", strerror(errno));
                exit(0);
            }
        }

        if(ret > 0){
            for(int i=0; i<MAX_PORTS; i++){
                if(!FD_ISSET(server_socks[i], &readset)){
                    continue;
                }
                socklen_t addrlen = sizeof(addr);
                int sock = accept(server_socks[i], (struct sockaddr *)&addr, &addrlen);
                if(sock == -1){
                    goto sock_err;
                }
                connections ++;
                printf("connections: %d, fd: %d\n", connections, sock);
            }
        }
    }

    return 0;
sock_err:
    printf("error: %s\n", strerror(errno));
    return 0;
}

注意, 服務器監聽了 10 個端口, 這是爲了測試方便. 因爲只有一臺客戶端測試機, 最多隻能跟同一個 IP 端口創建 30000 多個連接, 所以服務器監聽了 10 個端口, 這樣一臺測試機就可以和服務器之間創建 30 萬個連接了.

客戶端

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>
#include <errno.h>
#include <arpa/inet.h>
#include <netinet/tcp.h>

int main(int argc, char **argv){
    if(argc <=  2){
        printf("Usage: %s ip port\n", argv[0]);
        exit(0);
    }

    struct sockaddr_in addr;
    const char *ip = argv[1];
    int base_port = atoi(argv[2]);
    int opt = 1;
    int bufsize;
    socklen_t optlen;
    int connections = 0;

    bzero(&addr, sizeof(addr));
    addr.sin_family = AF_INET;
    inet_pton(AF_INET, ip, &addr.sin_addr);

    char tmp_data[10];
    int index = 0;
    while(1){
        if(++index >= 10){
            index = 0;
        }
        int port = base_port + index;
        printf("connect to %s:%d\n", ip, port);

        addr.sin_port = htons((short)port);

        int sock;
        if((sock = socket(AF_INET, SOCK_STREAM, 0)) == -1){
            goto sock_err;
        }
        if(connect(sock, (struct sockaddr *)&addr, sizeof(addr)) == -1){
            goto sock_err;
        }

        connections ++;
        printf("connections: %d, fd: %d\n", connections, sock);

        if(connections % 10000 == 9999){
            printf("press Enter to continue: ");
            getchar();
        }
        usleep(1 * 1000);
        /*
           bufsize = 5000;
           setsockopt(serv_sock, SOL_SOCKET, SO_SNDBUF, &bufsize, sizeof(bufsize));
           setsockopt(serv_sock, SOL_SOCKET, SO_RCVBUF, &bufsize, sizeof(bufsize));
         */
    }

    return 0;
sock_err:
    printf("error: %s\n", strerror(errno));
    return 0;
}

我測試 10 萬個連接, 這些連接是空閒的, 什麼數據也不發送也不接收. 這時, 進程只佔用了不到 1MB 的內存. 但是, 通過程序退出前後的 free 命令對比, 發現操作系統用了 200M(大致)內存來維護這 10 萬個連接! 如果是百萬連接的話, 操作系統本身就要佔用 2GB 的內存! 也即 2KB 每連接.

可以修改

/proc/sys/net/ipv4/tcp_wmem
/proc/sys/net/ipv4/tcp_rmem

來控制 TCP 連接的發送和接收緩衝的大小(多謝 @egmkang).

3. 應用程序維持百萬連接需要多少內存?

通過上面的測試代碼, 可以發現, 應用程序維持百萬個空閒的連接, 只會佔用操作系統的內存, 通過 ps 命令查看可知, 應用程序本身幾乎不佔用內存.

4. 百萬連接的吞吐量是否超過了網絡限制?

假設百萬連接中有 20% 是活躍的, 每個連接每秒傳輸 1KB 的數據, 那麼需要的網絡帶寬是 0.2M x 1KB/s x 8 = 1.6Gbps, 要求服務器至少是萬兆網卡(10Gbps).

總結

Linux 系統需要修改內核參數和系統配置, 才能支持 C1000K. C1000K 的應用要求服務器至少需要 2GB 內存, 如果應用本身還需要內存, 這個要求應該是至少 10GB 內存. 同時, 網卡應該至少是萬兆網卡.

當然, 這僅僅是理論分析, 實際的應用需要更多的內存和 CPU 資源來處理業務數據.

測試工具

測試操作系統最大連接數的工具: https://github.com/ideawu/c1000k

這是關於 C1000K 序列文章的第二篇, 在前一篇文章 構建C1000K的服務器(1) – 基礎 中, 介紹了支持 C1000K 的 Linux 系統的內核參數調整和系統設置. 在本篇文章中, 將對一個真正的應用服務器做 C1000K 測試.

Comet 服務器是一類邏輯相對簡單, 需要高併發連接的服務器. Comet 在網站系統中的應用非常廣泛, 可以見這篇日誌的介紹: http://www.ideawu.net/blog/archives/737.html.

HTTP 協議處理

要開發一個支持百萬併發連接的 Comet 服務器, 我選擇 C/C++ 語言, 當然還有其它的選擇如 Erlang, Java 等. 對於一個只支持 long-polling Comet 服務器, 首先要具備解析 HTTP 協議的能力, 我選擇 libevent 來處理 HTTP 協議.

通道和訂閱者管理

服務器在啓動的時候, 就預先分配了 100 萬個通道對象的空間, 但訂閱者對象是按需分配的, 通過內存池方式. 100 萬個通道對象和程序的其它數據佔用了 24MB 的內存.

Benchmark

啓動 icomet 服務器:

./icomet

服務器監聽了 100 個端口, 是爲了測試方便, 原因見前一篇文章的分析: 構建C1000K的服務器(1) – 基礎.

然後啓動 benchmark 客戶端:

./tools/benchmark 127.0.0.1 8100

benchmark 程序每創建十萬個連接, 就會暫停, 按回車後繼續. 通過 top/ps 查看 icomet 進程的內存佔用. 最終, 得出如下數據.

連接數 進程VIRT 進程RES
0 39m 24m
100000 302m 288m
200000 579m 565m
500000 1441m 1427m
1000000 2734m 2720m

可以看到, 每一個 Comet 連接大約佔用了 2.7KB 的內存. 此時, 服務器空閒, 進程佔用 CPU 爲 0%.

項目的代碼在: https://github.com/ideawu/icomet, 歡迎大家試用, 並反饋你的測試數據.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章