Linux2.6內核中epoll用法詳解

epolllinux2.6內核中才有的機制,其他版本內核中是沒有的,是Linux2.6內核引入的多路複用IO的一種方式,用於提高網絡IO性能的方法。在linux網絡編程中,很長一段時間都是採用select來實現多事件觸發處理的。Select存在如下幾個方面的問題:一是每次調用時要重複地從用戶態讀入參數,二是每次調用時要重複地掃描文件描述符,三是每次在調用開始時,要把當前進程放入各個文件描述符的等待隊列。在調用結束後,又把進程從各個等待隊列中刪除。Select採用輪詢的方式來處理事件觸發,當隨着監聽socket的文件描述符fd的數量增加時,輪詢的時間也就越長,造成效率低下。而且linux/posix_types.h中有#define __FD_SETSIZE 1024(也有說2048的)的定義,也就是說linux select能監聽的最大fd數目是1024個,雖然能通過內核修改此參數,但這是治標不治本。
    epoll的出現可以有效的解決select效率低下的問題,epoll把參數拷貝到內核態,在每次輪詢時不會重複拷貝。epollETLT兩種工作模式,ET是高速模式只能以非阻塞方式進行,LT相當於快速的select,可以纔有阻塞和非阻塞兩種方式,epoll通過把操作拆分爲epoll_create,epoll_ctl,epoll_wait三個步驟避免重複地遍歷要監視的文件描述符。

EPOLL事件有兩種模型:
Edge Triggered (ET)
Level Triggered (LT)

假如有這樣一個例子:
1. 我們已經把一個用來從管道中讀取數據的文件句柄(RFD)添加到epoll描述符
2. 這個時候從管道的另一端被寫入了2KB的數據
3. 調用epoll_wait(2),並且它會返回RFD,說明它已經準備好讀取操作
4. 然後我們讀取了1KB的數據
5. 調用epoll_wait(2)......

Edge Triggered 工作模式:
      如果我們在第1步將RFD添加到epoll描述符的時候使用了EPOLLET標誌,那麼在第5步調用epoll_wait(2)之後將有可能會掛起,因爲剩餘的數據還存在於文件的輸入緩衝區內,而且數據發出端還在等待一個針對已經發出數據的反饋信息。只有在監視的文件句柄上發生了某個事件的時候 ET 工作模式纔會彙報事件。因此在第5步的時候,調用者可能會放棄等待仍在存在於文件輸入緩衝區內的剩餘數據。在上面的例子中,會有一個事件產生在RFD句柄上,因爲在第2步執行了一個寫操作,然後,事件將會在第3步被銷燬。因爲第4步的讀取操作沒有讀空文件輸入緩衝區內的數據,因此我們在第5步調用epoll_wait(2)完成後,是否掛起是不確定的。epoll工作在ET模式的時候,必須使用非阻塞套接口,以避免由於一個文件句柄的阻塞讀/阻塞寫操作把處理多個文件描述符的任務餓死。最好以下面的方式調用ET模式的epoll接口,在後面會介紹避免可能的缺陷。
       i    基於非阻塞文件句柄
       ii   只有當read(2)或者write(2)返回EAGAIN時才需要掛起,等待。但這並不是說每次read()時都需要循環讀,直到讀到產生一個EAGAIN才認爲此次事件處理完成,當read()返回的讀到的數據長度小於請求的數據長度時,就可以確定此時緩衝中已沒有數據了,也就可以認爲此事讀事件已處理完成。

      Level Triggered 工作模式
      相反的,以LT方式調用epoll接口的時候,它就相當於一個速度比較快的poll/select,在poll能用的地方epoll都可以用,因爲他們具有同樣的職能。即使使用ET模式的epoll,在收到多個數據包的時候仍然會產生多個事件。調用者可以設定EPOLLONESHOT標誌,在 epoll_wait收到事件後epoll會與事件關聯的文件句柄從epoll描述符中禁止掉。因此當EPOLLONESHOT設定後,使用帶有 EPOLL_CTL_MOD標誌的epoll_ctl處理文件句柄就成爲調用者必須作的事情。

      以上是man手冊對epoll中兩種模式的簡要介紹,這裏有必要對兩種模式進行詳細的介紹:

LT是缺省的工作方式,並且同時支持blockno-block socket;在這種做法中,內核會告訴調用者一個文件描述符是否就緒了,然後調用者可以對這個就緒的fd進行IO操作。如果你不作任何操作,內核還是會繼續通知調用者的,所以,這種模式編程出錯誤可能性要小一點。傳統的select/poll都是這種模型的代表。LT模式跟select有一樣的語義。就是如果可讀就觸發。比如某管道原來爲空,如果有一個進程寫入2k數據,就會觸發。如果處理進程讀取1k數據,下次輪詢時繼續觸發。該模式下,默認不可讀,只有epoll通知可讀纔是可讀,否則不可讀。

ET是高速工作方式,只支持no-block socket。在這種模式下,當描述符從未就緒變爲就緒時,內核通過epoll告訴調用者,然後它會假設調用者知道文件描述符已經就緒,並且不會再爲那個文件描述 符發送更多的就緒通知,直到調用者做了某些操作導致那個文件描述符不再爲就緒狀態了。但是請注意,如果一直不對這個fdIO操作(從而導致它再次變成未就緒),內核不會發送更多的通知。該模式與select有不同的語義,只有當從不可讀變爲可讀時才觸發。上面那種情況,還有1k可讀,所以不會觸發,當繼續讀,直到返回EAGAIN時,變爲不可讀,如果再次變爲可讀就觸發。默認可讀,調用者可以隨便讀,直到發生EAGAIN。可讀時讀和不讀,怎麼讀都由調用者自己決定,中間epoll不管。EAGAIN後不可讀了,等到再次可讀,epoll會再通知一次。理解ET模式最重要的就是理解狀態的變化,對於監聽可讀事件時,如果是socket是監聽socket,那麼當有新的主動連接到來爲狀態發生變化;對一般的socket而言,協議棧中相應的緩衝區有新的數據爲狀態發生變化。但是,如果在一個時間同時接收了N個連接(N>1),但是監聽socketaccept了一個連接,那麼其它未 accept的連接將不會在ET模式下給監聽socket發出通知,此時狀態不發生變化;對於一般的socket,如果對應的緩衝區本身已經有了N字節的數據,而只取出了小於N字節的數據,那麼殘存的數據不會造成狀態發生變化。

epoll的LT和ET的區別

LT:水平觸發,效率會低於ET觸發,尤其在大併發,大流量的情況下。但是LT對代碼編寫要求比較低,不容易出現問題。LT模式服務編寫上的表現是:只要有數據沒有被獲取,內核就不斷通知你,因此不用擔心事件丟失的情況。
ET:邊緣觸發,效率非常高,在併發,大流量的情況下,會比LT少很多epoll的系統調用,因此效率高。但是對編程要求高,需要細緻的處理每個請求,否則容易發生丟失事件的情況。
下面舉一個列子來說明LT和ET的區別(都是非阻塞模式,阻塞就不說了,效率太低):
採用LT模式下, 如果accept調用有返回就可以馬上建立當前這個連接了,再epoll_wait等待下次通知,和select一樣。
但是對於ET而言,如果accpet調用有返回,除了建立當前這個連接外,不能馬上就epoll_wait還需要繼續循環accpet,直到返回-1,且errno==EAGAIN,TAF裏面的示例代碼:

if(ev.events & EPOLLIN)
{
    do
    {
        struct sockaddr_in stSockAddr;
        socklen_t iSockAddrSize = sizeof(sockaddr_in);
        TC_Socket cs;
        cs.setOwner(false);
        //接收連接
        TC_Socket s;
        s.init(fd, false, AF_INET);
        int iRetCode = s.accept(cs, (struct sockaddr *&stSockAddr, iSockAddrSize);
        if (iRetCode > 0)
        {
            ...建立連接
        }
        else
        {
            //直到發生EAGAIN纔不繼續accept
            if(errno == EAGAIN)
            {
                break;
            }
        }
    }while(true);
}

ET模式僅當狀態發生變化的時候才獲得通知,這裏所謂的狀態的變化並不包括緩衝區中還有未處理的數據,也就是說,如果要採用ET模式, 需要一直read/write直到出錯爲止,很多人反映爲什麼採用ET模式只接收了一部分數據就再也得不到通知了,大多因爲這樣;而LT模式是只要有數據 沒有處理就會一直通知下去的.

同樣,recv/send等函數, 都需要到errno==EAGAIN

從本質上講:與LT相比,ET模型是通過減少系統調用來達到提高並行效率的。

epoll的接口非 常簡單,一共就三個函數:
1. int epoll_create(int size);
創建一個epoll的句柄,size用來告訴內 核這個監聽的數目一共有多大。這個參數不同於select()中的第一個參數,給出最大監聽的fd+1的值。需要注意的是,當創建好epoll句柄後,它 就是會佔用一個fd值,在linux下如果查看/proc/進程id/fd/,是能夠看到這個fd的,所以在使用完epoll後,必須調用close() 關閉,否則可能導致fd被耗盡。

2. int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
epoll的事件註冊函數,它不同與select()是在監聽事件時告訴內核要監聽什麼 類型的事件,而是在這裏先註冊要監聽的事件類型。第一個參數是epoll_create()的返回值,第二個參數表示動作,用三個宏來表示:
EPOLL_CTL_ADD: 註冊新的fd到epfd中;
EPOLL_CTL_MOD:修改已經註冊的fd的監聽事件;
EPOLL_CTL_DEL:從epfd中刪除 一個fd;
第三個參數是需要監聽的fd,第四個參數是告訴內核需要監聽什麼事,struct epoll_event結構如下:

typedef union epoll_data {
void *ptr;
int fd;
__uint32_t u32;
__uint64_t u64;
} epoll_data_t;

struct epoll_event {
__uint32_t events; /* Epoll events */
epoll_data_t data; /* User data variable */
};

events可以是以下幾個宏的集合:
EPOLLIN :表示對應的文件描述符可以讀(包括對端SOCKET正常關閉);
EPOLLOUT:表示對應的文件描述符可以寫;
EPOLLPRI: 表示對應的文件描述符有緊急的數據可讀(這裏應該表示有帶外數據到來);
EPOLLERR:表示對應的文件描述符發生錯誤;
EPOLLHUP: 表示對應的文件描述符被掛斷;
EPOLLET: 將EPOLL設爲邊緣觸發(Edge Triggered)模式,這是相對於水平觸發(Level Triggered)來說的。
EPOLLONESHOT:只監聽一次事件,當監聽完 這次事件之後,如果還需要繼續監聽這個socket的話,需要再次把這個socket加入到EPOLL隊列裏

3. int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);
等待事件的產生,類似於select()調用。參數events用來從內核得到事件的集合,maxevents告之內核這個 events有多大,這個 maxevents的值不能大於創建epoll_create()時的size,參數timeout是超時時間(毫秒,0會立即返回,-1將不確定,也有 說法說是永久阻塞)。該函數返回需要處理的事件數目,如返回0表示已超時。


下面給出一個完整的服務器端例子:
  1. #include <iostream> 
  2. #include <sys/socket.h> 
  3. #include <sys/epoll.h> 
  4. #include <netinet/in.h> 
  5. #include <arpa/inet.h> 
  6. #include <fcntl.h> 
  7. #include <unistd.h> 
  8. #include <stdio.h> 
  9. #include <errno.h> 
  10. using namespace std; 
  11. #define MAXLINE 5 
  12. #define OPEN_MAX 100 
  13. #define LISTENQ 20 
  14. #define SERV_PORT 5000 
  15. #define INFTIM 1000 
  16. void setnonblocking(int sock) 
  17. int opts; 
  18. opts=fcntl(sock,F_GETFL); 
  19. if(opts<0) 
  20. perror("fcntl(sock,GETFL)"); 
  21. exit(1); 
  22. opts = opts|O_NONBLOCK; 
  23. if(fcntl(sock,F_SETFL,opts)<0) 
  24. perror("fcntl(sock,SETFL,opts)"); 
  25. exit(1); 
  26. int main(int argc, char* argv[]) 
  27. int i, maxi, listenfd, connfd, sockfd,epfd,nfds, portnumber; 
  28. ssize_t n; 
  29. char line[MAXLINE]; 
  30. socklen_t clilen; 
  31. if ( 2 == argc ) 
  32. if( (portnumber = atoi(argv[1])) < 0 ) 
  33. fprintf(stderr,"Usage:%s portnumber\a\n",argv[0]); 
  34. return 1; 
  35. else 
  36. fprintf(stderr,"Usage:%s portnumber\a\n",argv[0]); 
  37. return 1; 
  38. //聲明epoll_event結構體的變量,ev用於註冊事件,數組用於回傳要 處理的事件 
  39. struct epoll_event ev,events[20]; 
  40. //生成用於處理accept的epoll專用的文件描述符 
  41. epfd=epoll_create(256); 
  42. struct sockaddr_in clientaddr; 
  43. struct sockaddr_in serveraddr; 
  44. listenfd = socket(AF_INET, SOCK_STREAM, 0); 
  45. //把socket設 置爲非阻塞方式 
  46. //setnonblocking(listenfd); 
  47. //設置與要處理的事件相關的文件描述符 
  48. ev.data.fd=listenfd; 
  49. //設置要處理的事件類型 
  50. ev.events=EPOLLIN|EPOLLET; 
  51. //ev.events=EPOLLIN; 
  52. //註冊epoll事件 
  53. epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev); 
  54. bzero(&serveraddr, sizeof(serveraddr)); 
  55. serveraddr.sin_family = AF_INET; 
  56. char *local_addr="127.0.0.1"
  57. inet_aton(local_addr,&(serveraddr.sin_addr));//htons(portnumber); 
  58. serveraddr.sin_port=htons(portnumber); 
  59. bind(listenfd,(sockaddr *)&serveraddr, sizeof(serveraddr)); 
  60. listen(listenfd, LISTENQ); 
  61. maxi = 0; 
  62. for ( ; ; ) { 
  63. //等待epoll事件的發生 
  64. nfds=epoll_wait(epfd,events,20,500); 
  65. //處理所發生的所有事件 
  66. for(i=0;i<nfds;++i) 
  67. if(events[i].data.fd==listenfd)
  68. //如果新監測到一個SOCKET用戶連接到了綁定的SOCKET端口,建立新的 連接。 
  69. connfd = accept(listenfd,(sockaddr *)&clientaddr, &clilen); 
  70. if(connfd<0){ 
  71. perror("connfd<0"); 
  72. exit(1); 
  73. //setnonblocking(connfd); 
  74. char *str = inet_ntoa(clientaddr.sin_addr); 
  75. cout << "accapt a connection from " << str << endl; 
  76. //設置用於讀操作的文件描述符 
  77. ev.data.fd=connfd; 
  78. //設置用於注測的讀操作事件 
  79. ev.events=EPOLLIN|EPOLLET; 
  80. //ev.events=EPOLLIN; 
  81. //註冊ev 
  82. epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev); 
  83. else if(events[i].events&EPOLLIN)//如果是已經連 接的用戶,並且收到數據,那麼進行讀入。 
  84. cout << "EPOLLIN" << endl; 
  85. if ( (sockfd = events[i].data.fd) < 0) 
  86. continue
  87. if ( (n = read(sockfd, line, MAXLINE)) < 0) { 
  88. if (errno == ECONNRESET) { 
  89. close(sockfd); 
  90. events[i].data.fd = -1; 
  91. else 
  92. std::cout<<"readline error"<<std::endl; 
  93. else if (n == 0) { 
  94. close(sockfd); 
  95. events[i].data.fd = -1; 
  96. line[n] = '\0'
  97. cout << "read " << line << endl; 
  98. //設置用於寫操作的文件描述符 
  99. ev.data.fd=sockfd; 
  100. //設置用於注測的寫操作事件 
  101. ev.events=EPOLLOUT|EPOLLET; 
  102. //修改sockfd上要處理的事件爲EPOLLOUT 
  103. //epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev); 
  104. else if(events[i].events&EPOLLOUT) // 如果有數據發送 
  105. sockfd = events[i].data.fd; 
  106. write(sockfd, line, n); 
  107. //設置用於讀操作的文件描述符 
  108. ev.data.fd=sockfd; 
  109. //設置用於注測的讀操作事件 
  110. ev.events=EPOLLIN|EPOLLET; 
  111. //修改sockfd上要處理的事件爲EPOLIN 
  112. epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev); 
  113. return 0; 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章