用PHP5開發多任務應用程序

許多 PHP 開發人員認爲,由於標準的 PHP 缺少線程功能,因此實際 PHP 應用程序不可能執行多任務處理。例如,如果應用程序需要其他 Web 站點的信息,那麼在遠程檢索完成之前它都必須停止。這是錯誤的!通過本文了解如何使用 stream_select 和 stream_socket_client 實現進程內 PHP 多任務處理。

PHP 不支持線程。儘管如此,與前述大多數 PHP 開發人員所相信的想法形成對比的是,PHP 應用程序可以 執行多任務處理。讓我們開始儘可能清晰地描述一下 “多任務” 和 “線程” 對於 PHP 編程的意義。

併發的種類

首先拋開幾個和主題無關的例子。PHP 與多任務或併發的關係十分複雜。在較高層次上,PHP 經常涉及多任務:以多任務方式使用 標準的服務器端 PHP 安裝 —— 例如,作爲 Apache 模塊。換句話說,若干個客戶機 —— Web 瀏覽器 —— 可以同時請求同一個 PHP 解釋的頁面,而 Web 服務器將差不多同時返回所有這些頁面。

一個 Web 頁面不會妨礙其他 Web 頁面的發送,儘管可能會由於諸如服務器內存或網絡帶寬之類的受限資源而使它們相互之間略有妨礙。這樣,實現併發 的系統級需求可能適合使用基於 PHP 的解決方案。就實現而言,PHP 允許它的管理 Web 服務器負責實現併發。

Ajax 名下的客戶端併發近幾年來也已成爲開發人員關注的焦點。雖然 Ajax 的含義已經變得十分模糊,但是它的一個方面是瀏覽器顯示可以同時執行計算和 保留對諸如選擇菜單項之類的用戶操作的響應。這實際上就是某種 多任務。用 PHP 編碼的 Ajax 就是這樣 —— 但是不涉及任何特定的 PHP;用於其他語言的 Ajax 框架均以完全相同的方法操作。

只粗略地涉及 PHP 的第三個併發實例是 PHP/TK。PHP/TK 是 PHP 的擴展,用於爲核心 PHP 提供可移植圖形用戶界面(GUI)綁定。PHP/TK 允許用 PHP 編寫代碼構造桌面 GUI 應用程序。其基於事件的特性將模擬一種易於掌握並且比線程更少出錯的併發形式。此外,併發是 “繼承” 自一項輔助技術,而不是 PHP 的基本功能。

向 PHP 本身添加線程支持的試驗已經做過多次。據我所知,沒有一次是成功的。但是,Ajax 框架和 PHP/TK 的面向事件的實現表明事件可能比線程能更好地體現 PHP 的併發。PHP V5 證明事實確實如此。


PHP V5 將提供 stream_select()

使用標準的 PHP V4 和更低版本,必須按順序執行 PHP 應用程序的所有工作。例如,如果程序需要在兩個商業站點檢索商品的價格,則請求第一個站點的價格,等待至響應到達,再請求第二個站點的價格,然後再次等待。

如果程序請求同時完成若干項任務會怎麼樣?總體來看,程序將在一段時間內完成,在這段時間內,將始終進行連續處理。

第一個示例

新的 stream_select 函數及它的幾個助手使這成爲可能。請考慮以下示例。


清單 1. 同時請求多個 HTTP 頁面


        0) {

            $s=stream_socket_client("phaseit.net:80", $errno,

                  $errstr, $timeout,

                  STREAM_CLIENT_ASYNC_CONNECT|STREAM_CLIENT_CONNECT);

            if ($s) {

                $sockets[$id++]=$s;

                $http_message="GET /demonstration/delay?delay=" .

                    $delay . " HTTP/1.0\r\nHost: phaseit.net\r\n\r\n";

                fwrite($s, $http_message);

            } else {

                echo "Stream " . $id . " failed to open correctly.";

            }

            $delay -= 3;

        }


        while (count($sockets)) {

            $read=$sockets;

            stream_select($read, $w=null, $e=null, $timeout);

            if (count($read)) {

                /* stream_select generally shuffles $read, so we need to

                   compute from which socket(s) we're reading. */

                foreach ($read as $r) {

                    $id=array_search($r, $sockets);

                    $data=fread($r, $convenient_read_block);

                    /* A socket is readable either because it has

                       data to read, OR because it's at EOF. */

                    if (strlen($data) == 0) {

                        echo "Stream " . $id . " closes at " . date('h:i:s') . ".\n";

                        fclose($r);

                        unset($sockets[$id]);

                    } else {

                        $result[$id] .= $data;

                    }

                }

            } else {

                /* A time-out means that *all* streams have failed

                   to receive a response. */

                echo "Time-out!\n";

                break;

            }

        }

       ?>


如果運行此清單,您將看到如下所示的輸出。


清單 2. 從清單 1 中的程序獲得的典型輸出


Program starts at 02:38:50.

         Stream 4 closes at 02:38:53.

Stream 3 closes at 02:38:56.

Stream 2 closes at 02:38:59.

Stream 1 closes at 02:39:02.

Stream 0 closes at 02:39:05.


瞭解這其中的工作原理至關重要。在較高層次上,第一個程序將發出幾個 HTTP 請求並接收 Web 服務器發送給它的頁面。雖然生產應用程序將很可能尋找若干個 Web 服務器的地址 —— 可能是 google.com、yahoo.com、ask.com 等 —— 但是此示例將把它的所有請求發送到位於 Phaseit.net 的企業服務器上,只爲降低複雜度。

Web 頁面請求在延遲(可變)後返回結果,如下所示。如果程序按順序發出請求,則需花費大約 15+12+9+6+3 (45) 秒鐘才能完成。如清單 2 所示,它實際上花費 15 秒鐘完成。性能提高了三倍。

使這成爲可能的是 PHP V5 的新 stream_select 函數。請求都是以常規方法發起,方法爲打開幾個 stream_socket_client 並向對應於 http://phaseit.net/demonstration/delay?delay=$DELAY 的每個 stream_socket_client 寫入 GET。如果您通過瀏覽器請求此 URL,則在幾秒鐘之後,您將看到:

 Starting at Thu Apr 12 15:05:01 UTC 2007.

 Stopping at Thu Apr 12 15:05:05 UTC 2007.

 4 second delay.


延遲服務器將作爲 CGI 實現,如下所示:


清單 3. 延遲服務器實現


 #!/bin/sh


 echo "Content-type: text/html


   "


 echo "Starting at `date`."

 RR=`echo $REQUEST_URI | sed -e 's/.*?//'`

 DELAY=`echo $RR | sed -e 's/delay=//'`

 sleep $DELAY

 echo "

Stopping at `date`."

 echo "

$DELAY second delay.

"


雖然清單 3 的特殊實現特定於 UNIX,但是本文中幾乎所有實現都將很好地應用於 Windows(尤其是 Windows 98 以後的版本)或 PHP 的 UNIX 安裝。特別地,清單 1 可以託管在任意一個操作系統中。因此,Linux 和 Mac OS X 都是 UNIX 變體,因此這裏所有的代碼都可以在兩者的任意一種中運行。

按照以下順序向延遲服務器發出請求。


清單 4. 進程啓動順序


delay=15

delay=12

delay= 9

delay= 6

delay= 3


stream_select 的作用是儘可能快速地接收結果。在這種情況下,它執行的順序與發出結果的順序剛好相反。3 秒後,第一個頁面已經準備好讀取。程序的這一部分也符合常規 PHP —— 在本例中,使用 fread。就像在其他 PHP 程序一樣,讀取可以很好地通過 fgets 完成。

處理將以同樣的方法繼續。程序將在 stream_select 停止,直至數據就緒。重要的一點是,只要任何 連接具有數據,不管順序怎樣,程序都將開始讀取。這是程序進行多任務處理或併發處理來自多個請求的結果的方法。

注意,這沒有對主機 CPU 造成任何負擔。經常會遇到這樣一些連網程序,以 CPU 使用率急速上升至 100% 的方式在 while 中使用 fread。那種情況不會出現在這裏,因爲 stream_select 擁有支持立即響應所需的屬性(只要有任何讀取信息),但是它將在各讀取操作間隙的等待時間內產生可忽略的 CPU 負載。


必備的 stream_select() 知識

諸如此類的基於事件的編程並不是最基本的。雖然清單 1 被簡化到只包含最基本要素,但是涉及作爲多任務應用程序必要元素的回調或協調的任何編碼,比簡單的程序順序更讓人覺得陌生。在這種情況下,大多數挑戰集中在 $read 數組上。注意,它是一個引用;stream_select 將通過改變 $read 的內容返回重要信息。就像指針是 C 的最大絆腳石一樣,引用似乎是 PHP 中最讓程序員感到棘手的一部分。

您可以使用這項技術向任意個外部 Web 站點發出請求,確信您的程序會盡快收到所有結果,而無需等待其他請求。實際上,該技術將正確處理所有 TCP/IP 連接,而不只是 Web 端口 80 上的連接,因此您可以大體上管理 LDAP 檢索、SMTP 傳輸、SOAP 請求等。

但那不是全部。PHP V5 將管理 “流” 之類的各種連接,而不僅是簡單的套接字。PHP 的 Client URL library (CURL) 支持 HTTPS 證書、FTP 上傳、cookie 等。(CURL 允許 PHP 應用程序使用各種協議連接至服務器)。由於 CURL 將提供流接口,因此從程序的角度來看,連接是透明的。下一個部分將展示 stream_select 如何多路傳輸本地計算。

對於 stream_select 還有幾點需要注意。它還在進行文檔整理,因爲即使最新的 PHP 書籍都沒有涉列它。可在 Web 上獲得的幾個代碼示例完全不能工作或者讓人產生混淆。stream_select 的第二個和第三個參數用於管理與清單 1 的 read 通道相對應的 write 和 exception 通道,應當始終爲 null。除了少數例外情況,在可寫通道或異常通道中選擇這兩個參數是錯誤的。除非您有經驗,否則請堅持可讀選擇。

此外,至少在 PHP V5.1.2 之前,stream_select 還明顯存在錯誤。最重要的是,不能信任函數的返回值。雖然我尚未調試過實現,但是經驗告訴我,可以安全地測試清單 1 中的 count($read),但是測試 stream_select 本身的返回值並不 安全(儘管有官方文檔)。


本地 PHP 併發

示例及上面的大部分討論主要討論瞭如何同時管理若干個遠程資源並接收到達的結果,而不是按照最初請求的順序等待處理各個請求。這肯定是 PHP 併發的重要應用。實際應用程序的速度有時候可以提高 10 倍或更多。

如果出現性能衰退怎麼辦?有沒有一種方法可以提升受限於本地處理的 PHP 結果的速度?方法有多種。要說有什麼不同的話,這些方法不如清單 1 中的面向套接字的方法有名。造成這種情況的原因有很多,包括:

大多數 PHP 頁面已經足夠快 —— 更好的性能會是一種優勢,但是還不值得對新代碼進行投入。

在 Web 頁面中使用 PHP 可以放棄部分無關緊要的性能提升 —— 當惟一的價值標準是交付整個 Web 頁面需要的時間時,那麼重新安排計算以更快地獲得中間結果並不重要。

PHP 不能控制本地瓶頸 —— 用戶可能會爲花 8 秒的時間提取帳戶記錄的詳細信息而抱怨,但是那很可能是數據庫處理或某種其他 PHP 外部資源的約束。即使將 PHP 處理降至零,單是查找就仍需要花費超過 7 秒的時間。

甚至很少有約束是並行的 —— 假定某特定頁面將爲具體列出的普通股計算建議交易價格,並且計算十分複雜,需要花費一段時間。計算在本質上可能是順序執行的。沒有一種明顯的方法可以將其劃分爲 “團隊協作”。

很少有 PHP 程序員能夠認識到 PHP 實現併發的潛力。在具有使用並行實現性能需求的少數人當中,我遇到的大多數人全都說 PHP “不支持線程”,並且甘於使用現有的計算模型。

可是,有時我們可以做得更好。假定 PHP 頁面需要計算兩隻股票價格,可能還需要將兩者相比較,並且底層主機剛好是多處理器。在這種情況下,通過將兩個截然不同並且十分耗時的計算分配給不同處理器,可能會提高几乎兩倍的性能。

在所有 PHP 計算領域中,此類實例很少見。但是,由於我發現到處都沒有對它的精確記錄,因此需要在這裏包括用於此類加速的模型。


清單 5. 延遲服務器實現


           array("pipe", "r"),

                  1 => array("pipe", "w"),

                  2 => array("file", $error_log, "w")

              );

              $cmd='sleep ' . $delay . '; echo "Finished with delay of ' .

                      $delay . '".';

              $handles[$id]=proc_open($cmd, $descriptorspec, $pipes);

              $streams[$id]=$pipes[1];

              $all_pipes[$id]=$pipes;

              $delay -= 2;

          }


          while (count($streams)) {

              $read=$streams;

              stream_select($read, $w=null, $e=null, $timeout);

              foreach ($read as $r) {

                  $id=array_search($r, $strea**ms);

                  echo stream_get_contents($all_pipes[$id][1]);

                  if (feof($r)) {

                      fclose($all_pipes[$id][0]);

                      fclose($all_pipes[$id][1]);

                      $return_value=proc_close($handles[$id]);

                      unset($streams[$id]);

                  }

              }

          }

         ?>


此程序將生成如下輸出:

 Program starts at 10:28:41.

 Finished with delay of 1.

 Finished with delay of 3.


這裏的關鍵在於 PHP 啓動了兩個獨立子進程,取回待完成的第一個進程的輸出,然後取回第二個進程的輸出,即使後者啓動得較早。如果主機是多處理器計算機,並且操作系統已正確配置,則操作系統本身負責將各個子程序分配給不同的處理器。這是在多處理器主機中良好應用 PHP 的一種方法。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章