PHP 疑難雜症:解決守護進程時 Redis 假死

內容簡介:背景:公司業務有一個常駐後臺運行的守護進程。在這個守護進程當中使用了 Redis List 結構保存業務數據進行隊列消費。結果運行過程中,有時候半個月,有時候幾個月就會突然不再消費隊列裏面的數據。當時懷疑是 PHP 不適合編寫這種常駐後臺運行的守護程序。後來,我們發現進行心中檢測之後,程序的穩定性大大提高。至今沒有出現過假死。這段代碼我們很容易看懂。它就是通過 Redis 的阻塞方法

背景:公司業務有一個常駐後臺運行的守護進程。在這個守護進程當中使用了 Redis List 結構保存業務數據進行隊列消費。結果運行過程中,有時候半個月,有時候幾個月就會突然不再消費隊列裏面的數據。當時懷疑是 PHP 不適合編寫這種常駐後臺運行的守護程序。後來,我們發現進行心中檢測之後,程序的穩定性大大提高。至今沒有出現過假死。

一、一個簡單的守護進程示例

<?php
$redis = new \Redis();
$redis->connect('localhost', 6379);
$redis->auth('xxxxx'); // Redis 密碼如果沒有設置爲空字符串。
$redis->select(1);

$queueKey    = 'redis_queue_services_key';     // 業務數據隊列。
$queueIngKey = 'redis_queue_services_ing_key'; // 處理中的隊列。

try {
    while (true) {
        $element = $redis->bRPopLPush($queueKey, $queueIngKey, 60);
        if ($element) {
            $data = json_decode($element, true);
            /**
             *
             ...... 此處省略業務邏輯 ......
             *
             */
        } else {
            usleep(100000); // 睡眠 0.1 秒。
        }
    }
} catch (\Exception $e) {
    exit("Error:{$e->getMessage()}");
}

這段代碼我們很容易看懂。

它就是通過 Redis 的阻塞方法 bRPopLPush 循環從 Redis 隊列中取出數據並處理。如果沒有取到數據就休眠一秒。之所以休眠是爲了保證 CPU 能得到充分的利用。因爲,我們已經使用了阻塞方法阻塞 60 秒。所以,這個位置休眠與否並不重要。

當我們的業務出現任何錯誤,我們通過 try catch 進行異常捕獲然後將錯誤信息直接輸出並退當前腳本。

博主寒冰第一次編寫常駐後臺運行的守護進程時,就是如上這種方式寫的代碼。結果,這段代碼運行到 30s 的時候報錯了。提示我們 socket 流超時。於是我在這個腳本頭部加了如下代碼:

ini_set('default_socket_timeout', -1);

這樣我們的 PHP 就不會主動段掉我們與 Redis 的 socket 連接了。

但是,好景不長。過了一段時間,大概半個月吧。運維同學告訴我 Redis 隊列的數據出現了未消費的情況。然後,我查看了消費日誌。的確沒有產生新的消費日誌。因爲我有一個習慣,每個消費消費的時候都會把成功消費的日誌寫到文件中。消費失敗的也寫入日誌文件中。這樣,我就知道失敗的具體原因。

但是,這次我真的沒有發現有任何的錯誤發生。

  • 常駐後臺進程處理存活狀態。並沒有變成孤兒進程。
  • 常駐後臺進程內存也沒有出現泄漏。
  • 系統 CPU/內存 資源都處理正在狀態。
  • 系統打開的句柄資源也是低消狀態。
  • 帶寬也處理低消狀態。
  • 其它常駐進程也處理正常消費的工作狀態。也就排除了 Redis 故障的問題。

鄙人當時很氣餒。

我當時也懷疑過是不是像 MySQL 一樣常時間連接不進行任何操作,服務器端會主動斷開連接。但是,MySQL 服務器端主動段掉連接會提示: MySQL server has gone away 的錯誤。但是,我們的 Redis 服務器端沒有給我們報任何錯誤信息呀。

我們公司用的是阿里雲的 Redis 產品。我懷疑是不是 Redis 版本太低造成的這個隱性 BUG。於是,我們將阿里雲的 Redis 服務升級到了阿里雲支持的最新版本。

結果還是失敗了。我們的 Redis 還是假死了。或者說我們的 Redis 處於僞活狀態。

你認爲 Redis 活着,其實它早已經死了。你認爲 Redis 死了,但是它卻沒有死亡的特徵。

最後,我冷靜下來。

我假定此時的 Redis 已經死了。只是沒有告訴客戶端而已。那麼我只需要每次檢測一下 Redis 連接是否存活就好了。

於是,我翻看了 Redis 的 API。發現它提供了一個 ping() 的方法來檢測連接是否存活。

於是,我迫不及待把這個代碼加上去了。

代碼如下:

二、一個不再假死(僞活)的 Redis 常駐進程示例

<?php

$redis = new \Redis();
$redis->connect('localhost', 6379);
$redis->auth('xxxxx'); // Redis 密碼如果沒有設置爲空字符串。
$redis->select(1);

$queueKey    = 'redis_queue_services_key';     // 業務數據隊列。
$queueIngKey = 'redis_queue_services_ing_key'; // 處理中的隊列。

try {
    while (true) {
        $element = $redis->bRPopLPush($queueKey, $queueIngKey, 60);
        if ($element) {
            $data = json_decode($element, true);
            /**
             *
             ...... 此處省略業務邏輯 ......
             *
             */
        } else {
            $pong = $redis->ping();
            if ($pong != '+PONG') {
                throw new \Exception('Redis ping failure!', 500);
            }
            usleep(100000); // 睡眠 0.1 秒。
        }
    }
} catch (\Exception $e) {
    exit("Error:{$e->getMessage()}");
}

通過代碼對比,我們在第一版代碼的基礎上加了如下代碼:

$pong = $redis->ping();
if ($pong != '+PONG') {
    throw new \Exception('Redis ping failure!', 500);
}

我們向 Redis 服務器發送 ping 的時候,服務器會返回 +PONG 字符串。當然,這個是 Redis 擴展封裝過的方法。真正的 ping 是不會有 + 號的。

當我們每次 ping 的時候,Redis 服務器就會認爲我們的 Redis 客戶端連接處於存活狀態。就不會斷掉我們的連接了。

把代碼進行改造之後,假死頭痛的問題再也沒出現了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章