基於PHP的cURL快速入門(4)

cURL批處理(multi cURL)

cURL還有一個高級特性——批處理句柄(handle)。這一特性允許你同時或異步地打開多個URL連接。

下面是來自來自php.net的示例代碼:

以下爲引用的內容:

// 創建兩個cURL資源
$ch1 = curl_init();
$ch2 = curl_init();
// 指定URL和適當的參數
curl_setopt($ch1, CURLOPT_URL, "http://lxr.php.net/");
curl_setopt($ch1, CURLOPT_HEADER, 0);
curl_setopt($ch2, CURLOPT_URL, "http://www.php.net/");
curl_setopt($ch2, CURLOPT_HEADER, 0);
// 創建cURL批處理句柄
$mh = curl_multi_init();
// 加上前面兩個資源句柄
curl_multi_add_handle($mh,$ch1);
curl_multi_add_handle($mh,$ch2);
// 預定義一個狀態變量
$active = null;
// 執行批處理
do {
    $mrc = curl_multi_exec($mh, $active);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);
while ($active && $mrc == CURLM_OK) {
    if (curl_multi_select($mh) != -1) {
        do {
            $mrc = curl_multi_exec($mh, $active);
        } while ($mrc == CURLM_CALL_MULTI_PERFORM);
    }
}
// 關閉各個句柄
curl_multi_remove_handle($mh, $ch1);
curl_multi_remove_handle($mh, $ch2);
curl_multi_close($mh);

這裏要做的就是打開多個cURL句柄並指派給一個批處理句柄。然後你就只需在一個while循環裏等它執行完畢。

這個示例中有兩個主要循環。第一個 do-while 循環重複調用 curl_multi_exec() 。這個函數是無隔斷(non-blocking)的,但會儘可能少地執行。它返回一個狀態值,只要這個值等於常量 CURLM_CALL_MULTI_PERFORM ,就代表還有一些刻不容緩的工作要做(例如,把對應URL的http頭信息發送出去)。也就是說,我們需要不斷調用該函數,直到返回值發生改變。

而接下來的 while 循環,只在 $active 變量爲 true 時繼續。這一變量之前作爲第二個參數傳給了 curl_multi_exec() ,代表只要批處理句柄中是否還有活動連接。接着,我們調用 curl_multi_select() ,在活動連接(例如接受服務器響應)出現之前,它都是被“屏蔽”的。這個函數成功執行後,我們又會進入另一個 do-while 循環,繼續下一條URL。

還是來看一看怎麼把這一功能用到實處吧:

WordPress 連接檢查器

想象一下你有一個文章數目龐大的博客,這些文章中包含了大量外部網站鏈接。一段時間之後,因爲這樣那樣的原因,這些鏈接中相當數量都失效了。要麼是被和諧了,要麼是整個站點都被功夫網了...

我們下面建立一個腳本,分析所有這些鏈接,找出打不開或者404的網站/網頁,並生成一個報告。

請注意,以下並不是一個真正可用的WordPress插件,僅僅是一段獨立功能的腳本而已,僅供演示,謝謝。

好,開始吧。首先,從數據庫中讀取所有這些鏈接:

以下爲引用的內容:

// CONFIG
$db_host = 'localhost';
$db_user = 'root';
$db_pass = '';
$db_name = 'wordpress';
$excluded_domains = array(
    'localhost', 'www.mydomain.com');
$max_connections = 10;
// 初始化一些變量
$url_list = array();
$working_urls = array();
$dead_urls = array();
$not_found_urls = array();
$active = null;
// 連到 MySQL
if (!mysql_connect($db_host, $db_user, $db_pass)) {
    die('Could not connect: ' . mysql_error());
}
if (!mysql_select_db($db_name)) {
    die('Could not select db: ' . mysql_error());
}
// 找出所有含有鏈接的文章
$q = "SELECT post_content FROM wp_posts
    WHERE post_content LIKE '%href=%'
    AND post_status = 'publish'
    AND post_type = 'post'";
$r = mysql_query($q) or die(mysql_error());
while ($d = mysql_fetch_assoc($r)) {
    // 用正則匹配鏈接
    if (preg_match_all("!href=\"(.*?)\"!", $d['post_content'], $matches)) {
        foreach ($matches[1] as $url) {
            // exclude some domains
            $tmp = parse_url($url);
            if (in_array($tmp['host'], $excluded_domains)) {
                continue;
            }
            // store the url
            $url_list []= $url;
        }
    }
}
// 移除重複鏈接
$url_list = array_values(array_unique($url_list));
if (!$url_list) {
    die('No URL to check');
}

我們首先配置好數據庫,一系列要排除的域名($excluded_domains),以及最大併發連接數($max_connections)。然後,連接數據庫,獲取文章和包含的鏈接,把它們收集到一個數組中($url_list)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章