Unix環境高級編程多路複用之epoll的基本實現

epoll函數簡介

epoll是Linux內核爲處理大批量文件描述符而作了改進的poll，是Linux下多路複用IO接口select/poll的增強版本，它能顯著提高程序在大量併發連接中只有少量活躍的情況下的系統CPU利用率。另一點原因就是獲取事件的時候，它無須遍歷整個被偵聽的描述符集，只要遍歷那些被內核IO事件異步喚醒而加入Ready隊列的描述符集合就行了。epoll除了提供select/poll那種IO事件的水平觸發（Level Triggered）外，還提供了邊緣觸發（Edge Triggered），這就使得用戶空間程序有可能緩存IO狀態，減少epoll_wait/epoll_pwait的調用，提高應用程序效率。

select函數的不足之處

單個進程能夠監視的文件描述符的數量存在最大限制，通常是1024，當然可以更改數量，但由於select採用輪詢的方式掃描文件描述符，文件描述符數量越多，性能越差；
內核 / 用戶空間內存拷貝問題，select需要複製大量的句柄數據結構，產生巨大的開銷；
select返回的是含有整個句柄的數組，應用程序需要遍歷整個數組才能發現哪些句柄發生了事件；
select的觸發方式是水平觸發，應用程序如果沒有完成對一個已經就緒的文件描述符進行IO操作，那麼之後每次select調用還是會將這些文件描述符通知進程。

poll函數的不足之處

poll雖然沒有了最大連接數的限制，但是其他三個題任然沒有得到很好的處理；
內核 / 用戶空間內存拷貝問題，poll任需要複製大量的句柄數據結構，產生巨大的開銷；
poll返回的是含有整個句柄的數組，應用程序需要遍歷整個數組才能發現哪些句柄發生了事件；
poll的觸發方式是水平觸發，應用程序如果沒有完成對一個已經就緒的文件描述符進行IO操作，那麼之後每次poll調用還是會將這些文件描述符通知進程。

與select和poll相比epoll的優點

epoll的實現機制與select/poll機制完全不同，上面所說的 select的缺點在epoll上不復存在。設想一下如下場景：有1000,0萬個客戶端同時與一個服務器進程保持着TCP連接。而每一時刻，通常只有幾百上千個TCP連接是活躍的(事實上大部分場景都是這種情況)。如何實現這樣的高併發？在select/poll時代，服務器進程每次都把這1000,0萬個連接告訴操作系統(從用戶態複製句柄數據結構到內核態)，讓操作系統內核去查詢這些套接字上是否有事件發生，輪詢完後，再將句柄數據複製到用戶態，讓服務器應用程序輪詢處理已發生的網絡事件，這一過程資源消耗較大，因此，select/poll一般只能處理幾千的併發連接。
epoll的設計和實現與select完全不同。epoll通過在Linux內核中申請一個簡易的文件系統，把原先的select/poll調用分成了3 個部分：
調用epoll_create()建立一個epoll對象(在epoll文件系統中爲這個句柄對象分配資源) 2. 調用epoll_ctl向epoll對象中添加這100萬個連接的套接字 3. 調用epoll_wait收集發生的事件的連接。如此一來，要實現上面說是的場景，只需要在進程啓動時建立一個epoll對象，然後在需要的時候向這個epoll對象中添加或者刪除連接。同時，epoll_wait的效率也非常高，因爲調用epoll_wait時，並沒有一股腦的向操作系統複製這1000，0萬個連接的句柄數據，內核也不需要去遍歷全部的連接。

epoll的實現

創建epoll實例：epoll_create()
```
#include <sys/epoll.h>

int epoll_create(int size);
```
系統調用epoll_create()創建了一個新的epoll實例，其對應的興趣列表初始化爲空。若成功返回文件描述符，若出錯返回-1。參數size指定了我們想要通過epoll實例來檢查的文件描述符個數。該參數並不是一個上限，而是告訴內核應該如何爲內部數據結構劃分初始大小。從Linux2.6.8版以來，size參數被忽略不用。
作爲函數返回值，epoll_create()返回了代表新創建的epoll實例的文件描述符。這個文件描述符在其他幾個epoll系統調用中用來表示epoll實例。當這個文件描述符不再需要時，應該通過close（）來關閉。當所有與epoll實例相關的文件描述符都被關閉時，實例被銷燬，相關的資源都返還給系統。從2.6.27版內核以來，Linux支持了一個新的系統調用epoll_create1()。該系統調用執行的任務同epoll_create()一樣，但是去掉了無用的參數size，並增加了一個可用來修改系統調用行爲的flags參數。目前只支持一個flag標誌：EPOLL_CLOEXEC，它使得內核在新的文件描述符上啓動了執行即關閉標誌。
修改epoll的興趣列表：epoll_ctl()
```
#include <sys/epoll.h>

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
```
第一個參數epfd是epoll_create()的返回值；
第二個參數op用來指定需要執行的操作，它可以是如下幾種值：
EPOLL_CTL_ADD：將描述符fd添加到epoll實例中的興趣列表中去。對於fd上我們感興趣的事件，都指定在event所指向的結構體中。如果我們試圖向興趣列表中添加一個已存在的文件描述符，epoll_ctl()將出現EEXIST錯誤； EPOLL_CTL_MOD：修改描述符上設定的事件，需要用到由event所指向的結構體中的信息。如果我們試圖修改不在興趣列表中的文件描述符，epoll_ctl()將出現ENOENT錯誤； EPOLL_CTL_DEL：將文件描述符fd從epfd的興趣列表中移除，該操作忽略參數event。如果我們試圖移除一個不在epfd的興趣列表中的文件描述符，epoll_ctl()將出現ENOENT錯誤。關閉一個文件描述符會自動將其從所有的epoll實例的興趣列表移除；
第三個參數fd指明瞭要修改興趣列表中的哪一個文件描述符的設定。該參數可以是代表管道、FIFO、套接字、POSIX消息隊列、inotify實例、終端、設備，甚至是另一個epoll實例的文件描述符。但是，這裏fd不能作爲普通文件或目錄的文件描述符；第四個參數event是指向結構體epoll_event的指針，結構體的定義如下：
```
typedef union epoll_data {   

    void        *ptr;    
    int          fd;    
    uint32_t     u32;     
    uint64_t     u64;   
 
} epoll_data_t;
struct epoll_event {  

    uint32_t       events; 
    epoll_data_t   data; 
};
 
```
參數event爲文件描述符fd所做的設置（epoll_event）如下：
events字段是一個位掩碼，它指定了我們爲待檢查的描述符fd上所感興趣的事件集合； data字段是一個聯合體，當描述符fd稍後稱爲就緒態時，聯合的成員可用來指定傳回給調用進程的信息；
事件等待：epoll_wait()


#include <sys/epoll.h>

int epoll_wait(int epfd, struct epoll_event *events,int maxevents, int timeout);

系統調用epoll_wait()返回epoll實例中處於就緒態的文件描述符信息，單個epoll_wait()調用能夠返回多個就緒態文件描述符的信息。調用成功後epoll_wait()返回數組evlist中的元素個數，如果在timeout超時間隔內沒有任何文件描述符處於就緒態的話就返回0，出錯時返回-1並在errno中設定錯誤碼以表示錯誤原因。
第一個參數epfd是epoll_create()的返回值；

第二個參數evlist所指向的結構體數組中返回的是有關就緒態文件描述符的信息，數組evlist的空間由調用者負責申請；

第三個參數maxevents指定所evlist數組裏包含的元素個數；

第四個參數timeout用來確定epoll_wait()的阻塞行爲，有如下幾種：

如果timeout等於-1，調用將一直阻塞，直到興趣列表中的文件描述符上有事件產生或者直到捕獲到一個信號爲止。

如果timeout等於0，執行一次非阻塞式地檢查，看興趣列表中的描述符上產生了哪個事件。

如果timeout大於0，調用將阻塞至多timeout毫秒，直到文件描述符上有事件發生，或者直到捕獲到一個信號爲止。
數組evlist中，每個元素返回的都是單個就緒態文件描述符的信息。events字段返回了在該描述符上已經發生的事件掩碼。 data字段返回的是我們在描述符上使用epoll_ctl()註冊感興趣的事件時在ev.data中所指定的值。注意，data字段是唯一可獲知同這個事件相關的文件描述符的途徑。因此，當我們調用epoll_ctl()將文件描述符添加到感興趣列表中時，應該要麼將ev.date.fd設爲文件描述符號，要麼將ev.date.ptr設爲指向包含文件描述符號的結構體。
當我們調用epoll_ctl()時可以在ev.events中指定的位掩碼以及由epoll_wait()返回的evlist[].events中的值如下所示：

常量	說明	能否作爲epoll_ctl()的輸入	能否作爲epoll_wait()的返回
EPOLLIN	可讀取非高優先級數據	能	能
EPOLLPRI	可讀取高優先級數據	能	能
EPOLLRDHUP	socket對端關閉	能	能
EPOLLOUT	普通數據可寫	能	能
EPOLLET	採用邊沿觸發事件通知	能
EPOLLONESHOT	在完成事件通知之後禁用檢查	能
EPOLLERR	有錯誤發生		能
POLLHUP	出現掛斷		能

默認情況下，一旦通過epoll_ctl()的EPOLL_CTL_ADD操作將文件描述符添加到epoll實例的興趣列表中後，它會保持激活狀態（即，之後對epoll_wait()的調用會在描述符處於就緒態時通知我們）直到我們顯示地通過epoll_ctl()的EPOLL_CTL_DEL操作將其從列表中移除。如果我們希望在某個特定的文件描述符上只得到一次通知，那麼可以在傳給epoll_ctl()的event.events中指定 EPOLLONESHOT標誌。如果指定了這個標誌，那麼在下一個epoll_wait()調用通知我們對應的文件描述符處於就緒態之後，這個描述符就會在興趣列表中被標記爲非激活態，之後的epoll_wait()調用都不會再通知我們有關這個描述符的狀態了。如果需要，我們可以稍後用過調用epoll_ctl()的EPOLL_CTL_MOD操作重新激活對這個文件描述符的檢查。

epoll的多路複用實現網絡socket的多併發服務器的流程圖

服務器實現代碼
頭文件

#ifndef __SOCKET_EPOLL_SERVER_H__
#define __SOCKET_EPOLL_SERVER_H__

#include <stdio.h> 
#include <stdlib.h> 
#include <unistd.h> 
#include <string.h> 
#include <errno.h> 
#include <ctype.h> 
#include <time.h> 
#include <pthread.h>
#include <getopt.h> 
#include <libgen.h> 
#include <sys/types.h>  
#include <sys/socket.h> 
#include <arpa/inet.h> 
#include <netinet/in.h> 
#include <sys/epoll.h> 
#include <sys/resource.h>

#define MAX_EVENTS          512 #define ARRAY_SIZE(x)       (sizeof(x)/sizeof(x[0]))

static inline void print_usage(char *progname); int socket_server_init(char *listen_ip, int listen_port); 
void set_socket_rlimit(void);

#endif

源文件

#include "socket_epoll_server.h"

int main(int argc, char **argv) 
{  
    int                       listenfd, connfd;   
    int                       serv_port = 0;    
    int                       daemon_run = 0;  
    char                     *progname = NULL;   
    int                       opt;    
    int                       rv;    
    int                       i, j;   
    int                       found;  
    char                      buf[1024];
    int                       epollfd;   
    struct epoll_event        event;   
    struct epoll_event        event_array[MAX_EVENTS];
    int                       events;       
    struct option             long_options[] =   
    {          
        {"daemon", no_argument, NULL, 'b'},    
        {"port", required_argument, NULL, 'p'},     
        {"help", no_argument, NULL, 'h'},      
        {NULL, 0, NULL, 0}   
    };  
    progname = basename(argv[0]);  //將命令行參數argv[0]轉化爲progname

    while ((opt = getopt_long(argc, argv, "bp:h", long_options, NULL)) != -1)      //命令行參數解析
    {         
        switch (opt)       
        {               
            case 'b':             
                daemon_run=1;          
                break;

            case 'p':      
                serv_port = atoi(optarg);       
                break;
            case 'h': 
                print_usage(progname);      
                return EXIT_SUCCESS;
            default:             
                break;      

        }       
    }   
    if( !serv_port )  
    {          
        print_usage(progname);     
        return -1;    
    }
    set_socket_rlimit(); 

    if( (listenfd=socket_server_init(NULL, serv_port)) < 0 )  //socket的封裝函數
    {       
        printf("ERROR: %s server listen on port %d failure\n", argv[0],serv_port);    
        return -2;   
    }   
    printf("%s server start to listen on port %d\n", argv[0],serv_port);

    if( daemon_run )   //判斷說否在後臺運行
    {      
        daemon(0, 0); 
    }
    if( (epollfd=epoll_create(MAX_EVENTS)) < 0 )   //創建epoll實例
    {       
        printf("epoll_create() failure: %s\n", strerror(errno)); 
        return -3;
    }

    event.events = EPOLLIN;     //添加監聽事件
    event.data.fd = listenfd;   添加fd
    if( epoll_ctl(epollfd, EPOLL_CTL_ADD, listenfd, &event) < 0)   //修改epoll的興趣列表
    {        
        printf("epoll add listen socket failure: %s\n", strerror(errno));      
        return -4;    
    }
    for ( ; ; )    
    {        
        events = epoll_wait(epollfd, event_array, MAX_EVENTS, -1);    // 等待事件的到來
        if(events < 0)       
        {            
            printf("epoll failure: %s\n", strerror(errno));     
            break;       
        }        
        else if(events == 0)     
        {          
            printf("epoll get timeout\n");     
            continue;       
        }

        for(i=0; i<events; i++)     
        {           
            if ( (event_array[i].events&EPOLLERR) || (event_array[i].events&EPOLLHUP) )    
            {             

                printf("epoll_wait get error on fd[%d]: %s\n", event_array[i].data.fd, strerror(errno));    

                epoll_ctl(epollfd, EPOLL_CTL_DEL, event_array[i].data.fd, NULL);               

                close(event_array[i].data.fd);    

            }

            if( event_array[i].data.fd == listenfd )    
            {            
                if( (connfd=accept(listenfd, (struct sockaddr *)NULL, NULL)) < 0)           
                {                  
                    printf("accept new client failure: %s\n", strerror(errno));          
                    continue;             
                }
                event.data.fd = connfd;               
                event.events =  EPOLLIN; 
                if( epoll_ctl(epollfd, EPOLL_CTL_ADD, connfd, &event) < 0 )
                {
                    printf("epoll add client socket failure: %s\n", strerror(errno)); 
                    close(event_array[i].data.fd);  
                    continue; 
                }
                printf("epoll add new client socket[%d] ok.\n", connfd); 
            }            
            else  
            {
                if( (rv=read(event_array[i].data.fd, buf, sizeof(buf))) <= 0)
                {
                    printf("socket[%d] read failure or get disconncet and will be removed.\n", event_array[i].data.fd);  
                    epoll_ctl(epollfd, EPOLL_CTL_DEL, event_array[i].data.fd, NULL);          
                    close(event_array[i].data.fd);    
                    continue;  
                }           
                else 
                {
                    printf("socket[%d] read get %d bytes data\n", event_array[i].data.fd, rv);

                    for(j=0; j<rv; j++)                     
                        buf[j]=toupper(buf[j]);
                    if( write(event_array[i].data.fd, buf, rv) < 0 )                   
                    {                
                        printf("socket[%d] write failure: %s\n", event_array[i].data.fd, strerror(errno));      
                        epoll_ctl(epollfd, EPOLL_CTL_DEL, event_array[i].data.fd, NULL);
                        close(event_array[i].data.fd);    
                    }               
                }          

            }        
        }  
    }  

CleanUp:   
    close(listenfd);   
    return 0; 
}

static inline void print_usage(char *progname) 
{   
    printf("Usage: %s [OPTION]...\n", progname);     
    printf(" %s is a socket server program, which used to verify client and echo back string from it\n", progname);   
    printf("\nMandatory arguments to long options are mandatory for short options too:\n");       
    printf(" -b[daemon ]  set program running on background\n");    printf(" -p[port    ]  Socket server port address\n"); 
    printf(" -h[help    ]  Display this help information\n");    
    printf("\nExample: %s -b -p 8900\n", progname);    
    return ; 
}

int socket_server_init(char *listen_ip, int listen_port) 
{  
    struct sockaddr_in        servaddr;    
    int                       rv = 0;   
    int                       on = 1;   
    int                       listenfd;
    if ( (listenfd = socket(AF_INET, SOCK_STREAM, 0)) < 0)  
    {     
        printf("Use socket() to create a TCP socket failure: %s\n", strerror(errno));        
        return -1;   
    }

    setsockopt(listenfd, SOL_SOCKET, SO_REUSEADDR, &on, sizeof(on));
    memset(&servaddr, 0, sizeof(servaddr));   
    servaddr.sin_family = AF_INET;       
    servaddr.sin_port = htons(listen_port);
    if( !listen_ip )  
    {      
        servaddr.sin_addr.s_addr = htonl(INADDR_ANY);   
    }   
    else 
    {    
        if (inet_pton(AF_INET, listen_ip, &servaddr.sin_addr) <= 0)    
        {         
            printf("inet_pton() set listen IP address failure.\n");            
            rv = -2;        
            goto CleanUp;     
        }   
    }
    if(bind(listenfd, (struct sockaddr *) &servaddr, sizeof(servaddr)) < 0)    
    {       
        printf("Use bind() to bind the TCP socket failure: %s\n", strerror(errno));       
        rv = -3;      
        goto CleanUp;  
    }

    if(listen(listenfd, 64) < 0)   
    {      
        printf("Use bind() to bind the TCP socket failure: %s\n", strerror(errno));       
        rv = -4;       
        goto CleanUp;  
    }
CleanUp:    
    if(rv<0)        
        close(listenfd);    
    else 
        rv = listenfd;

    return rv; 
}

void set_socket_rlimit(void) 
{     
    struct rlimit limit = {0};
    getrlimit(RLIMIT_NOFILE, &limit );  
    limit.rlim_cur  = limit.rlim_max;   
    setrlimit(RLIMIT_NOFILE, &limit );
    printf("set socket open fd max count to %d\n", (int )limit.rlim_max);
}

運行結果
單個客戶端連接

多客戶端連接

注：學識尚淺，如有不足地方敬請指出。謝謝！

Unix環境高級編程多路複用之epoll的基本實現

epoll函數簡介

select函數的不足之處

poll函數的不足之處

與select和poll相比epoll的優點

epoll的實現

epoll的多路複用實現網絡socket的多併發服務器的流程圖

服務器實現代碼

頭文件

源文件

運行結果

單個客戶端連接

多客戶端連接

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

C語言sizeof關鍵字詳解

Ubuntu如何簡單粗暴的恢復被刪除的文件

數據結構之棧的順序存儲的實現

Liunx下的五種網絡模型

Liunx進程間通信之信號

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結