深入UNIX編程:一個簡單聊天室的兩種實現 (fcntl 和 select)

      在互聯網相當普及的今天,在互聯網上聊天對很多“網蟲”來說已經是家常便飯了。聊天室程序可以說是網上最簡單的多點通信程序。聊天室的實現方法有很多,但都是利用所謂的“多用戶空間”來對信息進行交換,具有典型的多路I/O的
架構。一個簡單的聊天室, 從程序員的觀點來看就是在多個I/O端點之間實現多對多的通信。其架構如圖一所示。這樣的實現在用戶的眼裏就是聊天室內任何一個人輸入一段字符之後,其他用戶都可以得到這一句話。這種“多用戶空間”的架構在其他多點通信程序中應用的非常廣泛,其核心就是多路I/O通信。多路I/O通信又被稱爲I/O多路複用(I/O Multiplexing)一般被使用在以下的場合:
 
      客戶程序需要同時處理交互式的輸入和同服務器之間的網絡連接時需要處理I/O多路複用問題;
      客戶端需要同時對多個網絡連接作出反應(這種情況很少見);
      TCP服務器需要同時處理處於監聽狀態和多個連接狀態的socket;
      服務器需要處理多個網絡協議的socket;
      服務器需要同時處理不同的網絡服務和協議。

      聊天室所需要面對的情況正是第一和第三兩種情況。我們將通過在TCP/IP協議之上建立一個功能簡單的聊天室讓大家更加了解多路I/O以及它的實現方法。我們要討論的聊天室功能非常簡單, 感興趣的朋友可以將其功能擴展, 發展成一個功能比較完整的聊天室, 如加上用戶認證, 用戶暱稱, 祕密信息, semote 等功能. 首先它是一個 client/server 結構的程序, 首先啓動 server, 然後用戶使用 client 進行連接. client/server 結構的優點是速度快, 缺點是當 server 進行更新時, client 也必需更新.
 
網絡初始化
 
      首先是初始化 server, 使server 進入監聽狀態: (爲了簡潔起見,以下引用的程序與實際程序略有出入, 下同)
sockfd = socket( AF_INET,SOCK_STREAM, 0);
// 首先建立一個 socket, 族爲 AF_INET, 類型爲 SOCK_STREAM.
// AF_INET = ARPA Internet protocols 即使用 TCP/IP 協議族
// SOCK_STREAM 類型提供了順序的, 可靠的, 基於字節流的全雙工連接.
// 由於該協議族中只有一個協議, 因此第三個參數爲 0
 
bind( sockfd, ( struct sockaddr *)&serv_addr, sizeof( serv_addr));
// 再將這個 socket 與某個地址進行綁定.
// serv_addr 包括 sin_family = AF_INET 協議族同 socket
// sin_addr.s_addr = htonl( INADDR_ANY) server 所接受的所有其他
// 地址請求建立的連接.
// sin_port = htons( SERV_TCP_PORT) server 所監聽的端口
// 在本程序中, server 的 IP和監聽的端口都存放在 config 文件中.

listen( sockfd, MAX_CLIENT);
// 地址綁定之後, server 進入監聽狀態.
// MAX_CLIENT 是可以同時建立連接的 client 總數.
server 進入 listen 狀態後, 等待 client 建立連接。

Client端要建立連接首先也需要初始化連接:
sockfd = socket( AF_INET,SOCK_STREAM,0));
// 同樣的, client 也先建立一個 socket, 其參數與 server 相同.

connect( sockfd, ( struct sockaddr *)&serv_addr, sizeof( serv_addr));
// client 使用 connect 建立一個連接.
// serv_addr 中的變量分別設置爲:
// sin_family = AF_INET 協議族同 socket
// sin_addr.s_addr = inet_addr( SERV_HOST_ADDR) 地址爲 server
// 所在的計算機的地址.
// sin_port = htons( SERV_TCP_PORT) 端口爲 server 監聽的端口.

當 client 建立新連接的請求被送到Server端時, server 使用 accept 來接受該連接:
accept( sockfd, (struct sockaddr*)&cli_addr,&cli_len);
// 在函數返回時, cli_addr 中保留的是該連接對方的信息
// 包括對方的 IP 地址和對方使用的端口.
// accept 返回一個新的文件描述符.

      在 server 進入 listen 狀態之後, 由於已有多個用戶在線,所以程序需要同時對這些用戶進行操作,並在它們之間實現信息交換。這在實現上稱爲I/O多路複用技術。多路複用一般有以下幾種方法:

      非阻塞通信方法:將文件管道通過fcntl()設爲非阻塞通信方式,每隔一端時間對他們實行一次輪詢,以判斷是否可以進行讀寫操作。這種方式的缺點是費用太高,大部分資源浪費在輪詢上。

      子進程方法:應用多個子進程,每一個對一個單工阻塞方式通信。所有子進程通過IPC和父進程進行通信。父進程掌管所有信息。這種方式的缺點是實現複雜,而且由於IPC在各個操作系統平臺上並不完全一致,會導致可移植性降低。

      信號驅動(SIGIO)的異步I/O方法:首先,異步I/O是基於信號機制的,並不可靠。其次單一的信號不足以提供更多的信息來源。還是需要輔助以其他的手段,實現上有很高的難度。

      select ()方法:在BSD中提供了一種可以對多路I/O進行阻塞式查詢的方法——select()。它提供同時對多個I/O描述符進行阻塞式查詢的方法,利用它,我們可以很方便的實現多路複用。根據統一UNIX規範的協議,POSIX也採用了這種方法,因此,我們可以在大多數操作系統中使用select方法。

      使用專門的I/O多路複用器:在“UNIX? SYSTEM V Programmer&aposs Guide: STREAMS”一書中詳細的說明了構造和使用多路複用器的方法。這裏就不再詳述了。
 
我們下面分別討論多路I/O的兩種實現方法:

1. 非阻塞通信方法

      對一個文件描述符指定的文件或設備, 有兩種工作方式: 阻塞與非阻塞。所謂阻塞方式的意思是指, 當試圖對該文件描述符進行讀寫時, 如果當時沒有東西可讀,或者暫時不可寫, 程序就進入等待狀態, 直到有東西可讀或者可寫爲止。而對於非阻塞狀態, 如果沒有東西可讀, 或者不可寫, 讀寫函數馬上返回, 而不會等待。缺省情況下, 文件描述符處於阻塞狀態。在實現聊天室時, server 需要輪流查詢與各client 建立的 socket, 一旦可讀就將該 socket 中的字符讀出來並向所有其他client 發送。並且, server 還要隨時查看是否有新的 client 試圖建立連接,這樣, 如果 server 在任何一個地方阻塞了, 其他 client 發送的內容就會受到影響,得不到服務器的及時響應。新 client 試圖建立連接也會受到影響。所以我們在這裏不能使用缺省的阻塞的文件工作方式,而需要將文件的工作方式變成非阻塞方式。在UNIX下,函數fcntl()可以用來改變文件I/O操作的工作方式,函數描述如下:

fcntl( sockfd, F_SETFL, O_NONBLOCK);
// sockfd 是要改變狀態的文件描述符.
// F_SETFL 表明要改變文件描述符的狀態
// O_NONBLOCK 表示將文件描述符變爲非阻塞的.

爲了節省篇幅我們使用自然語言描述聊天室 server :
while ( 1)
{
      if 有新連接 then 建立並記錄該新連接;
      for ( 所有的有效連接)
            begin
                  if 該連接中有字符可讀 then
                        begin
                              讀入字符串;
                        for ( 所有其他的有效連接)
                              begin
                                    將該字符串發送給該連接;
                              end;
                        end;
            end;
      end.

      由於判斷是否有新連接, 是否可讀都是非阻塞的, 因此每次判斷,不管有還是沒有, 都會馬上返回. 這樣,任何一個 client 向 server 發送字符或者試圖建立新連接, 都不會對其他 client 的活動造成影響。
對 client 而言, 建立連接之後, 只需要處理兩個文件描述符, 一個是建立了連接的 socket 描述符, 另一個是標準輸入. 和 server 一樣, 如果使用阻塞方式的話, 很容易因爲其中一個暫時沒有輸入而影響另外一個的讀入.. 因此將它們都變成非阻塞的, 然後client 進行如下動作:

while ( 不想退出)
      begin
      if ( 與 server 的連接有字符可讀)
            begin
            從該連接讀入, 並輸出到標準輸出上去.
            End;
      if ( 標準輸入可讀)
            Begin
            從標準輸入讀入, 並輸出到與 server 的連接中去.
            End;
      End.

上面的讀寫分別調用這樣兩個函數:
read( userfd[i], line, MAX_LINE);
// userfd[i] 是指第 i 個 client 連接的文件描述符.
// line 是指讀出的字符存放的位置.
// MAX_LINE 是一次最多讀出的字符數.
// 返回值是實際讀出的字符數.

write( userfd[j], line, strlen( line));
// userfd[j] 是第 j 個 client 的文件描述符.
// line 是要發送的字符串.
// strlen( line) 是要發送的字符串長度.

分析上面的程序可以知道, 不管是 server 還是 client, 它們都不停的輪流查詢各個文件描述符, 一旦可讀就讀入並進行處理. 這樣的程序, 不停的在執行, 只要有CPU 資源, 就不會放過。因此對系統資源的消耗非常大。server 或者 client 單獨執行時, CPU 資源的 98% 左右都被其佔用。極大的消耗了系統資源。

select 方法

      因此,雖然我們不希望在某一個用戶沒有反應時阻塞其他的用戶,但我們卻應該在沒有任何用戶有反應的情況之下停止程序的運行,讓出搶佔的系統資源,進入阻塞狀態。有沒有這種方法呢?現在的UNIX系統中都提供了select方法,具體實現方式如下:
 
      select 方法中, 所有文件描述符都是阻塞的. 使用 select 判斷一組文件描述符中是否有一個可讀(寫), 如果沒有就阻塞, 直到有一個的時候就被喚醒. 我們先看比較簡單的 client 的實現:

由於 client 只需要處理兩個文件描述符, 因此, 需要判斷是否有可讀寫的文件描述符只需要加入兩項:
FD_ZERO( sockset);
// 將 sockset 清空
FD_SET( sockfd, sockset);
// 把 sockfd 加入到 sockset 集合中
FD_SET( 0, sockset);
// 把 0 (標準輸入) 加入到 sockset 集合中
 
然後 client 的處理如下:

while ( 不想退出)
{
      select( sockfd+1,&sockset, NULL, NULL, NULL);
      // 此時該函數將阻塞直到標準輸入或者 sockfd 中有一個可讀爲止
      // 第一個參數是 0 和 sockfd 中的最大值加一
      // 第二個參數是 讀集, 也就是 sockset
      // 第三, 四個參數是寫集和異常集, 在本程序中都爲空
      // 第五個參數是超時時間, 即在指定時間內仍沒有可讀, 則出錯
      // 並返回. 當這個參數爲NULL 時, 超時時間被設置爲無限長.
      // 當 select 因爲可讀返回時, sockset 中包含的只是可讀的
      // 那些文件描述符.

      if ( FD_ISSET( sockfd,&sockset))
      {
            // FD_ISSET 這個宏判斷 sockfd 是否屬於可讀的文件描述符
            從 sockfd 中讀入, 輸出到標準輸出上去.
      }
      if ( FD_ISSET( 0,&sockset))
      {
            // FD_ISSET 這個宏判斷 sockfd 是否屬於可讀的文件描述符
            從標準輸入讀入, 輸出到 sockfd 中去.
      }
      重新設置 sockset. (即將 sockset 清空, 並將 sockfd 和 0 加入)
}

下面看 server 的情況:

設置 sockset 如下:
FD_ZERO( sockset);
FD_SET( sockfd, sockset);
for ( 所有有效連接)
FD_SET( userfd[i], sockset);
}
maxfd = 最大的文件描述符號 + 1;

server 處理如下:
while ( 1)
{
      select( maxfd,&sockset, NULL, NULL, NULL);
      if ( FD_ISSET( sockfd,&sockset))
      {
            // 有新連接
            建立新連接, 並將該連接描述符加入到 sockset 中去了.
      }
      for ( 所有有效連接)
      {
            if ( FD_ISSET ( userfd[i],&sockset))
            {
                  // 該連接中有字符可讀
                  從該連接中讀入字符, 併發送到其他有效連接中去.
            }
      }
      重新設置 sockset;
}

性能比較

      由於採用 select 機制, 因此當沒有字符可讀時, 程序處於阻塞狀態,最小程度的佔用CPU 資源, 在同一臺機器上執行一個 server 和若干個client 時, 系統負載只有 0.1 左右, 而採用原來的非阻塞通信方法, 只運行一個 server, 系統負載就可以達到 1.5 左右. 因此我們推薦使用 select.


來源:http://www.pcdog.com 2004-12-3 互聯網
 
         

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章