epoll基礎總結

轉自 http://www.fx114.net/qa-235-266230.aspx

一、 介紹
Epoll 是一種高效的管理socket的模型,相對於select和poll來說具有更高的效率和易用性。傳統的select以及poll的效率會因爲 socket數量的線形遞增而導致呈二次乃至三次方的下降,而epoll的性能不會隨socket數量增加而下降。標準的linux-2.4.20內核不支持epoll,需要打patch。本文主要從linux-2.4.32和linux-2.6.10兩個內核版本介紹epoll。
二、 Epoll的使用
epoll用到的所有函數都是在頭文件sys/epoll.h中聲明的,下面簡要說明所用到的數據結構和函數:
所用到的數據結構
typedef union epoll_data {
void ptr;
int fd;
__uint32_t u32;
__uint64_t u64;
} epoll_data_t;

epoll_data_t 是8字節的聯合體 ,實際在使用的時候,只能指定其中一個值
比如 在給listen套接字 加入到epoll中管理 時,可以 指定 任意自定義數據到epoll_event.data裏面
如 指定加入套接字 epoll_event.data.fd = listenfd
或者 指定 自定義數據 到 u32 /u64 、ptr ,然後 在wait之後,根據指定標記判斷 響應的該套接字。

  struct epoll_event {
            __uint32_t events;    / Epoll events /
            epoll_data_t data;    / User data variable /
  };
結構體epoll_event 被用於註冊所感興趣的事件和回傳所發生待處理的事件,其中epoll_data 聯合體用來保存觸發事件的某個文件描述符相關的數據,例如一個client連接到服務器,服務器通過調用accept函數可以得到於這個client對應的socket文件描述符,可以把這文件描述符賦給epoll_data的fd字段以便後面的讀寫操作在這個文件描述符上進行。epoll_event 結構體的events字段是表示感興趣的事件和被觸發的事件可能的取值爲:EPOLLIN :表示對應的文件描述符可以讀;

EPOLLOUT:表示對應的文件描述符可以寫;
EPOLLPRI:表示對應的文件描述符有緊急的數據可讀
EPOLLERR:表示對應的文件描述符發生錯誤;
EPOLLHUP:表示對應的文件描述符被掛斷;
EPOLLET:表示對應的文件描述符設定爲edge模式;
所用到的函數:
1、epoll_create函數
函數聲明:int epoll_create(int size)
該函數生成一個epoll專用的文件描述符,其中的參數是指定生成描述符的最大範圍。在linux-2.4.32內核中根據size大小初始化哈希表的大小,在linux2.6.10內核中該參強調內容數無用,使用紅黑樹管理所有的文件描述符,而不是hash
2、epoll_ctl函數
函數聲明:int epoll_ctl(int epfd, int op, int fd, struct epoll_event event)
該函數用於控制某個文件描述符上的事件,可以註冊事件,修改事件,刪除事件。
參數:epfd:由 epoll_create 生成的epoll專用的文件描述符;
op:要進行的操作例如註冊事件,可能的取值
EPOLL_CTL_ADD 註冊、
EPOLL_CTL_MOD 修改、
EPOLL_CTL_DEL 刪除
fd:關聯的文件描述符;
event:指向epoll_event的指針;
如果調用成功返回0,不成功返回-1
3、epoll_wait函數
函數聲明:int epoll_wait(int epfd,struct epoll_event events,int maxevents,int timeout)
該函數用於輪詢I/O事件的發生;
參數:
epfd:由epoll_create 生成的epoll專用的文件描述符;
epoll_event:用於回傳代處理事件的數組;
maxevents:每次能處理的事件數;
timeout:等待I/O事件發生的超時值(ms);-1永不超時,直到有事件產生才觸發,0立即返回。
返回發生事件數。-1有錯誤。
epoll_wait運行的原理是等侍註冊在epfd上的socket fd的事件的發生,如果發生則將發生的sokct fd和事件類型放入到events數組中。 並 且將註冊在epfd上的socket fd的事件類型給清空,所以如果下一個循環你還要關注這個socket fd的話,則需要用epoll_ctl(epfd,EPOLL_CTL_MOD,listenfd,&ev)來重新設置socket fd的事件類型。這時不用EPOLL_CTL_ADD,因爲socket fd並未清空,只是事件類型清空。這一步非常重要。

舉一個簡單的例子:

C/C++ codeint main()
{
//聲明epoll_event結構體的變量,ev用於註冊事件,數組用於回傳要處理的事件
struct epoll_event ev,events[20];

epfd=epoll_create(10000); //創建epoll句柄

listenfd = socket(AF_INET, SOCK_STREAM, 0);
//把socket設置爲非阻塞方式
setnonblocking(listenfd);

bzero(&serveraddr, sizeof(serveraddr));
serveraddr.sin_family = AF_INET;
serveraddr.sin_addr.s_addr = INADDR_ANY;
serveraddr.sin_port=htons(SERV_PORT);
bind(listenfd,(struct sockaddr )&serveraddr, sizeof(serveraddr));
listen(listenfd, 255);

//設置與要處理的事件相關的文件描述符
ev.data.fd=listenfd;
//設置要處理的事件類型
ev.events=EPOLLIN;
//註冊epoll事件
epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);

for ( ; ; )
{
  //等待epoll事件的發生
  nfds=epoll_wait(epfd,events,20,1000);
  //處理所發生的所有事件
  for(i=0;i<nfds;++i)
  {
     if(events .data.fd==listenfd)
     {
            connfd = accept(listenfd,(struct sockaddr )&clientaddr, &clilen);
            if(connfd<0)
            {
              perror("connfd<0");
            }
            setnonblocking(connfd);
            //設置用於讀操作的文件描述符
            ev.data.fd=connfd;
            //設置用於注測的讀操作事件
            ev.events=EPOLLIN|EPOLLET;
            //註冊event
            epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);
     }
     else if(events .events&EPOLLIN)
     {
            read_socket(events .data.fd);
            ev.data.fd=events .data.fd;
            ev.events=EPOLLIN|EPOLLOUT|EPOLLET;
            epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);
     }
     else if(events .events&EPOLLOUT)
     {
            write_socket(events .data.fd);
            ev.data.fd=events .data.fd;
            ev.events=EPOLLIN|EPOLLET; //ET模式
        epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);
     }
     else
     {
            perror("other event");
     }
  }
}

}
Epoll的ET模式與LT模式(關於這個模式在這裏已經有了很詳細的解釋)
ET(Edge Triggered)與LT(Level Triggered)的主要區別可以從下面的例子看出
eg:
1. 標示管道讀者的文件句柄註冊到epoll中;
2. 管道寫者向管道中寫入2KB的數據;
3. 調用epoll_wait可以獲得管道讀者爲已就緒的文件句柄;
4. 管道讀者讀取1KB的數據
5. 一次epoll_wait調用完成
如果是ET模式,管道中剩餘的1KB被掛起,再次調用epoll_wait,得不到管道讀者的文件句柄,除非有新的數據寫入管道。如果是LT模式,只要管道中有數據可讀,每次調用epoll_wait都會觸發。

另一點區別就是設爲ET模式的文件句柄必須是非阻塞的。
三、 Epoll的實現
Epoll 的源文件在/usr/src/linux/fs/eventpoll.c,在module_init時註冊一個文件系統 eventpoll_fs_type,對該文件系統提供兩種操作poll和release,所以epoll_create返回的文件句柄可以被poll、 select或者被其它epoll epoll_wait。對epoll的操作主要通過三個系統調用實現:
1. sys_epoll_create
2. sys_epoll_ctl
3. sys_epoll_wait
下面結合源碼講述這三個系統調用。
1.1 long sys_epoll_create (int size)
該系統調用主要分配文件句柄、inode以及file結構。在linux-2.4.32內核中,使用hash保存所有註冊到該epoll的文件句柄,在該系統調用中根據size大小分配hash的大小。具體爲不小於size,但小於2size的2的某次方。最小爲2的9次方(512),最大爲2的17次方(128 x 1024)。在linux-2.6.10內核中,使用紅黑樹保存所有註冊到該epoll的文件句柄,size參數未使用。
1.2 long sys_epoll_ctl(int epfd, int op, int fd, struct epoll_event event)
1. 註冊句柄 op = EPOLL_CTL_ADD
註冊過程主要包括:
A.將fd插入到hash(或rbtree)中,如果原來已經存在返回-EEXIST,
B.給fd註冊一個回調函數,該函數會在fd有事件時調用,在該函數中將fd加入到epoll的就緒隊列中。
C.檢查fd當前是否已經有期望的事件產生。如果有,將其加入到epoll的就緒隊列中,喚醒epoll_wait。

2. 修改事件 op = EPOLL_CTL_MOD
修改事件只是將新的事件替換舊的事件,然後檢查fd是否有期望的事件。如果有,將其加入到epoll的就緒隊列中,喚醒epoll_wait。

3. 刪除句柄 op = EPOLL_CTL_DEL
將fd從hash(rbtree)中清除。
1.3 long sys_epoll_wait(int epfd, struct epoll_event events, int maxevents,int timeout)
如果epoll的就緒隊列爲空,並且timeout非0,掛起當前進程,引起CPU調度。
如果epoll的就緒隊列不空,遍歷就緒隊列。對隊列中的每一個節點,獲取該文件已觸發的事件,判斷其中是否有我們期待的事件,如果有,將其對應的epoll_event結構copy到用戶events。

revents = epi->file->f_op->poll(epi->file, NULL);
epi->revents = revents & epi->event.events;
if (epi->revents) {
……
copy_to_user;
……
}
需要注意的是,在LT模式下,把符合條件的事件copy到用戶空間後,還會把對應的文件重新掛接到就緒隊列。所以在LT模式下,如果一次epoll_wait某個socket沒有read/write完所有數據,下次epoll_wait還會返回該socket句柄。
四、 使用epoll的注意事項
1. ET模式比LT模式高效,但比較難控制。
2. 如果某個句柄期待的事件不變,不需要EPOLL_CTL_MOD,但每次讀寫後將該句柄modify一次有助於提高穩定性,特別在ET模式。
3. socket關閉後最好將該句柄從epoll中delete(EPOLL_CTL_DEL),雖然epoll自身有處理,但會使epoll的hash的節點數增多,影響搜索hash的速度。

Q:網絡服務器的瓶頸在哪?
A:IO效率。

在大家苦苦的爲在線人數的增長而導致的系統資源吃緊上的問題正在發愁的時候,Linux 2.6內核中提供的System Epoll爲我們提供了一套完美的解決方案。傳統的select以及poll的效率會因爲在線人數的線形遞增而導致呈二次乃至三次方的下降,這些直接導致了網絡服務器可以支持的人數有了個比較明顯的限制。

自從Linux提供了/dev/epoll的設備以及後來2.6內核中對/dev /epoll設備的訪問的封裝(System Epoll)之後,這種現象得到了大大的緩解,如果說幾個月前,大家還對epoll不熟悉,那麼現在來說的話,epoll的應用已經得到了大範圍的普及。

那麼究竟如何來使用epoll呢?其實非常簡單。
通過在包含一個頭文件#include 以及幾個簡單的API將可以大大的提高你的網絡服務器的支持人數。

首先通過create_epoll(int maxfds)來創建一個epoll的句柄,其中maxfds爲你epoll所支持的最大句柄數。這個函數會返回一個新的epoll句柄,之後的所有操作將通過這個句柄來進行操作。在用完之後,記得用close()來關閉這個創建出來的epoll句柄。

之後在你的網絡主循環裏面,每一幀的調用epoll_wait(int epfd, epoll_event events, int max events, int timeout)來查詢所有的網絡接口,看哪一個可以讀,哪一個可以寫了。基本的語法爲:
nfds = epoll_wait(kdpfd, events, maxevents, -1);
其中kdpfd爲用epoll_create創建之後的句柄,events是一個epoll_event的指針,當epoll_wait這個函數操作成功之後,epoll_events裏面將儲存所有的讀寫事件。max_events是當前需要監聽的所有socket句柄數。最後一個timeout是 epoll_wait的超時,爲0的時候表示馬上返回,爲-1的時候表示一直等下去,直到有事件範圍,爲任意正整數的時候表示等這麼長的時間,如果一直沒有事件,則範圍。一般如果網絡主循環是單獨的線程的話,可以用-1來等,這樣可以保證一些效率,如果是和主邏輯在同一個線程的話,則可以用0來保證主循環的效率。

epoll_wait範圍之後應該是一個循環,遍利所有的事件:

C/C++ codefor(n = 0; n < nfds; ++n) {
if(events[n].data.fd == listener) { //如果是主socket的事件的話,則表示有新連接進入了,進行新連接的處理。
client = accept(listener, (struct sockaddr ) &local,
&addrlen);
if(client < 0){
perror(“accept”);
continue;
}
setnonblocking(client); // 將新連接置於非阻塞模式
ev.events = EPOLLIN | EPOLLET; // 並且將新連接也加入EPOLL的監聽隊列。
注意,這裏的參數EPOLLIN | EPOLLET並沒有設置對寫socket的監聽,如果有寫操作的話,這個時候epoll是不會返回事件的,如果要對寫操作也監聽的話,應該是EPOLLIN | EPOLLOUT | EPOLLET
ev.data.fd = client;
if (epoll_ctl(kdpfd, EPOLL_CTL_ADD, client, &ev) < 0) {
// 設置好event之後,將這個新的event通過epoll_ctl加入到epoll的監聽隊列裏面,這裏用EPOLL_CTL_ADD來加一個新的 epoll事件,通過EPOLL_CTL_DEL來減少一個epoll事件,通過EPOLL_CTL_MOD來改變一個事件的監聽方式。
fprintf(stderr, “epoll set insertion error: fd=d0,
client);
return -1;
}
}
else // 如果不是主socket的事件的話,則代表是一個用戶socket的事件,則來處理這個用戶socket的事情,比如說read(fd,xxx)之類的,或者一些其他的處理。
do_use_fd(events[n].data.fd);
}

對,epoll的操作就這麼簡單,總共不過4個API:epoll_create, epoll_ctl, epoll_wait和close。
Linux 2.6內核中提高網絡I/O性能的新方法

1、爲什麼select是落後的?
首先,在Linux內核中,select所用到的FD_SET是有限的,即內核中有個參數__FD_SETSIZE定義了每個FD_SET的句柄個數,在我用的2.6.15-25-386內核中,該值是1024,搜索內核源代碼得到:
include/linux/posix_types.h:#define __FD_SETSIZE 1024
也就是說,如果想要同時檢測1025個句柄的可讀狀態是不可能用select實現的。或者同時檢測1025個句柄的可寫狀態也是不可能的。
其次,內核中實現select是用輪詢方法,即每次檢測都會遍歷所有FD_SET中的句柄,顯然,select函數執行時間與FD_SET中的句柄個數有一個比例關係,即select要檢測的句柄數越多就會越費時。
當然,在前文中我並沒有提及poll方法,事實上用select的朋友一定也試過poll,我個人覺得select和poll大同小異,個人偏好於用select而已。
2、2.6內核中提高I/O性能的新方法epoll
epoll是什麼?按照man手冊的說法:是爲處理大批量句柄而作了改進的poll。要使用epoll只需要這三個系統調用:epoll_create(2), epoll_ctl(2), epoll_wait(2)。
當然,這不是2.6內核纔有的,它是在2.5.44內核中被引進的(epoll(4) is a new API introduced in Linux kernel 2.5.44)

epoll的優點
<1>支持一個進程打開大數目的socket描述符(FD)
select 最不能忍受的是一個進程所打開的FD是有一定限制的,由FD_SETSIZE設置,默認值是2048。對於那些需要支持的上萬連接數目的IM服務器來說顯然太少了。這時候你一是可以選擇修改這個宏然後重新編譯內核,不過資料也同時指出這樣會帶來網絡效率的下降,二是可以選擇多進程的解決方案(傳統的 Apache方案),不過雖然linux上面創建進程的代價比較小,但仍舊是不可忽視的,加上進程間數據同步遠比不上線程間同步的高效,所以也不是一種完美的方案。不過 epoll則沒有這個限制,它所支持的FD上限是最大可以打開文件的數目,這個數字一般遠大於2048,舉個例子,在1GB內存的機器上大約是10萬左右,具體數目可以cat /proc/sys/fs/file-max察看,一般來說這個數目和系統內存關係很大。

<2>IO效率不隨FD數目增加而線性下降
傳統的select/poll另一個致命弱點就是當你擁有一個很大的socket集合,不過由於網絡延時,任一時間只有部分的socket是”活躍”的,但是select/poll每次調用都會線性掃描全部的集合,導致效率呈現線性下降。但是epoll不存在這個問題,它只會對”活躍”的socket進行操作—這是因爲在內核實現中epoll是根據每個fd上面的callback函數實現的。那麼,只有”活躍”的socket纔會主動的去調用 callback函數,其他idle狀態socket則不會,在這點上,epoll實現了一個”僞”AIO,因爲這時候推動力在os內核。在一些 benchmark中,如果所有的socket基本上都是活躍的—比如一個高速LAN環境,epoll並不比select/poll有什麼效率,相反,如果過多使用epoll_ctl,效率相比還有稍微的下降。但是一旦使用idle connections模擬WAN環境,epoll的效率就遠在select/poll之上了。
<3>使用mmap加速內核與用戶空間的消息傳遞。
這點實際上涉及到epoll的具體實現了。無論是select,poll還是epoll都需要內核把FD消息通知給用戶空間,如何避免不必要的內存拷貝就很重要,在這點上,epoll是通過內核於用戶空間mmap同一塊內存實現的。而如果你想我一樣從2.5內核就關注epoll的話,一定不會忘記手工 mmap這一步的。
<4>內核微調
這一點其實不算epoll的優點了,而是整個linux平臺的優點。也許你可以懷疑linux平臺,但是你無法迴避linux平臺賦予你微調內核的能力。比如,內核TCP/IP協議棧使用內存池管理sk_buff結構,那麼可以在運行時期動態調整這個內存pool(skb_head_pool)的大小 — 通過echo XXXX>/proc/sys/net/core/hot_list_length完成。再比如listen函數的第2個參數(TCP完成3次握手的數據包隊列長度),也可以根據你平臺內存大小動態調整。更甚至在一個數據包面數目巨大但同時每個數據包本身大小卻很小的特殊系統上嘗試最新的NAPI網卡驅動架構。
epoll的使用
令人高興的是,2.6內核的epoll比其2.5開發版本的/dev/epoll簡潔了許多,所以,大部分情況下,強大的東西往往是簡單的。唯一有點麻煩是epoll有2種工作方式:LT和ET。
LT(level triggered)是缺省的工作方式,並且同時支持block和no-block socket.在這種做法中,內核告訴你一個文件描述符是否就緒了,然後你可以對這個就緒的fd進行IO操作。如果你不作任何操作,內核還是會繼續通知你的,所以,這種模式編程出錯誤可能性要小一點。傳統的select/poll都是這種模型的代表.
ET (edge-triggered)是高速工作方式,只支持no-block socket。在這種模式下,當描述符從未就緒變爲就緒時,內核通過epoll告訴你。然後它會假設你知道文件描述符已經就緒,並且不會再爲那個文件描述符發送更多的就緒通知,直到你做了某些操作導致那個文件描述符不再爲就緒狀態了(比如,你在發送,接收或者接收請求,或者發送接收的數據少於一定量時導致了一個EWOULDBLOCK 錯誤)。但是請注意,如果一直不對這個fd作IO操作(從而導致它再次變成未就緒),內核不會發送更多的通知(only once),不過在TCP協議中,ET模式的加速效用仍需要更多的benchmark確認。
epoll只有epoll_create,epoll_ctl,epoll_wait 3個系統調用,具體用法請參考http://blog.csdn.net/yusiguyuan/article/details/15027821
http://www.kegel.com/rn/也有一個完整的例子,大家一看就知道如何使用了
Leader/follower模式線程pool實現,以及和epoll的配合

在Linux上開發網絡服務器的一些相關細節:poll與epoll
  隨着2.6內核對epoll的完全支持,網絡上很多的文章和示例代碼都提供了這樣一個信息:使用epoll代替傳統的 poll能給網絡服務應用帶來性能上的提升。但大多文章裏關於性能提升的原因解釋的較少,這裏我將試分析一下內核(2.6.21.1)代碼中poll與 epoll的工作原理,然後再通過一些測試數據來對比具體效果。 POLL:

先說poll,poll或select爲大部分Unix/Linux程序員所熟悉,這倆個東西原理類似,性能上也不存在明顯差異,但select對所監控的文件描述符數量有限制,所以這裏選用poll做說明。
poll是一個系統調用,其內核入口函數爲sys_poll,sys_poll幾乎不做任何處理直接調用do_sys_poll,do_sys_poll的執行過程可以分爲三個部分:
1,將用戶傳入的pollfd數組拷貝到內核空間,因爲拷貝操作和數組長度相關,時間上這是一個O(n)操作,這一步的代碼在do_sys_poll中包括從函數開始到調用do_poll前的部分。
2,查詢每個文件描述符對應設備的狀態,如果該設備尚未就緒,則在該設備的等待隊列中加入一項並繼續查詢下一設備的狀態。查詢完所有設備後如果沒有一個設備就緒,這時則需要掛起當前進程等待,直到設備就緒或者超時,掛起操作是通過調用schedule_timeout執行的。設備就緒後進程被通知繼續運行,這時再次遍歷所有設備,以查找就緒設備。這一步因爲兩次遍歷所有設備,時間複雜度也是O(n),這裏面不包括等待時間。相關代碼在do_poll函數中。
3,將獲得的數據傳送到用戶空間並執行釋放內存和剝離等待隊列等善後工作,向用戶空間拷貝數據與剝離等待隊列等操作的的時間複雜度同樣是O(n),具體代碼包括do_sys_poll函數中調用do_poll後到結束的部分。
EPOLL:
接下來分析epoll,與poll/select不同,epoll不再是一個單獨的系統調用,而是由epoll_create/epoll_ctl/epoll_wait三個系統調用組成,後面將會看到這樣做的好處。
先來看sys_epoll_create(epoll_create對應的內核函數),這個函數主要是做一些準備工作,比如創建數據結構,初始化數據並最終返回一個文件描述符(表示新創建的虛擬epoll文件),這個操作可以認爲是一個固定時間的操作。
epoll是做爲一個虛擬文件系統來實現的,這樣做至少有以下兩個好處:
1,可以在內核裏維護一些信息,這些信息在多次epoll_wait間是保持的,比如所有受監控的文件描述符。
2, epoll本身也可以被poll/epoll;
具體epoll的虛擬文件系統的實現和性能分析無關,不再贅述。
在sys_epoll_create中還能看到一個細節,就是epoll_create的參數size在現階段是沒有意義的,只要大於零就行。

接着是sys_epoll_ctl(epoll_ctl對應的內核函數),需要明確的是每次調用sys_epoll_ctl只處理一個文件描述符,這裏主要描述當op爲EPOLL_CTL_ADD時的執行過程,sys_epoll_ctl做一些安全性檢查後進入ep_insert,ep_insert裏將 ep_poll_callback做爲回掉函數加入設備的等待隊列(假定這時設備尚未就緒),由於每次poll_ctl只操作一個文件描述符,因此也可以認爲這是一個O(1)操作

ep_poll_callback函數很關鍵,它在所等待的設備就緒後被系統回掉,執行兩個操作:

1,將就緒設備加入就緒隊列,這一步避免了像poll那樣在設備就緒後再次輪詢所有設備找就緒者,降低了時間複雜度,由O(n)到O(1);
2,喚醒虛擬的epoll文件;
最後是sys_epoll_wait,這裏實際執行操作的是ep_poll函數。該函數等待將進程自身插入虛擬epoll文件的等待隊列,直到被喚醒(見上面ep_poll_callback函數描述),最後執行ep_events_transfer將結果拷貝到用戶空間。由於只拷貝就緒設備信息,所以這裏的拷貝是一個O(1)操作。
還有一個讓人關心的問題就是epoll對EPOLLET的處理,即邊沿觸發的處理,粗略看代碼就是把一部分水平觸發模式下內核做的工作交給用戶來處理,直覺上不會對性能有太大影響,感興趣的朋友歡迎討論。
POLL/EPOLL對比:
表面上poll的過程可以看作是由一次epoll_create/若干次epoll_ctl/一次epoll_wait/一次close等系統調用構成,實際上epoll將poll分成若干部分實現的原因正是因爲服務器軟件中使用poll的特點(比如Web服務器):
1,需要同時poll大量文件描述符;
2,每次poll完成後就緒的文件描述符只佔所有被poll的描述符的很少一部分。
3,前後多次poll調用對文件描述符數組(ufds)的修改只是很小;
傳統的poll函數相當於每次調用都重起爐竈,從用戶空間完整讀入ufds,完成後再次完全拷貝到用戶空間,另外每次poll都需要對所有設備做至少做一次加入和刪除等待隊列操作,這些都是低效的原因。

epoll將以上情況都細化考慮,不需要每次都完整讀入輸出ufds,只需使用epoll_ctl調整其中一小部分,不需要每次epoll_wait都執行一次加入刪除等待隊列操作,另外改進後的機制使的不必在某個設備就緒後搜索整個設備數組進行查找,這些都能提高效率。另外最明顯的一點,從用戶的使用來說,使用epoll不必每次都輪詢所有返回結果已找出其中的就緒部分,O(n)變O(1),對性能也提高不少。

此外這裏還發現一點,是不是將epoll_ctl改成一次可以處理多個fd(像semctl那樣)會提高些許性能呢?特別是在假設系統調用比較耗時的基礎上。不過關於系統調用的耗時問題還會在以後分析。

POLL/EPOLL測試數據對比:
測試的環境:我寫了三段代碼來分別模擬服務器,活動的客戶端,僵死的客戶端,服務器運行於一個自編譯的標準2.6.11內核系統上,硬件爲 PIII933,兩個客戶端各自運行在另外的PC上,這兩臺PC比服務器的硬件性能要好,主要是保證能輕易讓服務器滿載,三臺機器間使用一個100M交換機連接。
服務器接受並poll所有連接,如果有request到達則回覆一個response,然後繼續poll。
活動的客戶端(Active Client)模擬若干併發的活動連接,這些連接不間斷的發送請求接受回覆。
僵死的客戶端(zombie)模擬一些只連接但不發送請求的客戶端,其目的只是佔用服務器的poll描述符資源。
測試過程:保持10個併發活動連接,不斷的調整僵併發連接數,記錄在不同比例下使用poll與epoll的性能差別。僵死併發連接數根據比例分別是:0,10,20,40,80,160,320,640,1280,2560,5120,10240。
下圖中橫軸表示僵死併發連接與活動併發連接之比,縱軸表示完成40000次請求回覆所花費的時間,以秒爲單位。紅色線條表示poll數據,綠色表示 epoll數據。可以看出,poll在所監控的文件描述符數量增加時,其耗時呈線性增長,而epoll則維持了一個平穩的狀態,幾乎不受描述符個數影響。
在監控的所有客戶端都是活動時,poll的效率會略高於epoll(主要在原點附近,即僵死併發連接爲0時,圖上不易看出來),究竟epoll實現比poll複雜,監控少量描述符並非它的長處。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章