背景:公司業(yè)務(wù)有一個常駐后臺運行的守護進程秒赤。在這個守護進程當(dāng)中使用了 Redis List 結(jié)構(gòu)保存業(yè)務(wù)數(shù)據(jù)進行隊列消費剿涮。結(jié)果運行過程中链韭,有時候半個月陪白,有時候幾個月就會突然不再消費隊列里面的數(shù)據(jù)缎玫。當(dāng)時懷疑是 PHP 不適合編寫這種常駐后臺運行的守護程序硬纤。后來,我們發(fā)現(xiàn)進行心跳檢測之后碘梢,程序的穩(wěn)定性大大提高咬摇。至今沒有出現(xiàn)過假死。
一煞躬、一個簡單的守護進程示例
<?php
$redis = new \Redis();
$redis->connect('localhost', 6379);
$redis->auth('xxxxx'); // Redis 密碼如果沒有設(shè)置為空字符串肛鹏。
$redis->select(1);
$queueKey = 'redis_queue_services_key'; // 業(yè)務(wù)數(shù)據(jù)隊列。
$queueIngKey = 'redis_queue_services_ing_key'; // 處理中的隊列恩沛。
try {
while (true) {
$element = $redis->bRPopLPush($queueKey, $queueIngKey, 60);
if ($element) {
$data = json_decode($element, true);
/**
*
...... 此處省略業(yè)務(wù)邏輯 ......
*
*/
} else {
usleep(100000); // 睡眠 0.1 秒在扰。
}
}
} catch (\Exception $e) {
exit("Error:{$e->getMessage()}");
}
這段代碼我們很容易看懂。
它就是通過 Redis 的阻塞方法 bRPopLPush
循環(huán)從 Redis 隊列中取出數(shù)據(jù)并處理雷客。如果沒有取到數(shù)據(jù)就休眠一秒芒珠。之所以休眠是為了保證 CPU 能得到充分的利用。因為搅裙,我們已經(jīng)使用了阻塞方法阻塞 60 秒皱卓。所以裹芝,這個位置休眠與否并不重要。
當(dāng)我們的業(yè)務(wù)出現(xiàn)任何錯誤娜汁,我們通過 try catch
進行異常捕獲然后將錯誤信息直接輸出并退當(dāng)前腳本嫂易。
博主寒冰第一次編寫常駐后臺運行的守護進程時,就是如上這種方式寫的代碼掐禁。結(jié)果怜械,這段代碼運行到 30s 的時候報錯了。提示我們 socket 流超時傅事。于是我在這個腳本頭部加了如下代碼:
ini_set('default_socket_timeout', -1);
這樣我們的 PHP 就不會主動段掉我們與 Redis 的 socket 連接了缕允。
但是,好景不長蹭越。過了一段時間障本,大概半個月吧。運維同學(xué)告訴我 Redis 隊列的數(shù)據(jù)出現(xiàn)了未消費的情況响鹃。然后彼绷,我查看了消費日志。的確沒有產(chǎn)生新的消費日志茴迁。因為我有一個習(xí)慣寄悯,每個消費消費的時候都會把成功消費的日志寫到文件中。消費失敗的也寫入日志文件中堕义。這樣猜旬,我就知道失敗的具體原因。
但是倦卖,這次我真的沒有發(fā)現(xiàn)有任何的錯誤發(fā)生洒擦。
- 常駐后臺進程處理存活狀態(tài)。并沒有變成孤兒進程怕膛。
- 常駐后臺進程內(nèi)存也沒有出現(xiàn)泄漏熟嫩。
- 系統(tǒng) CPU/內(nèi)存 資源都處理正在狀態(tài)。
- 系統(tǒng)打開的句柄資源也是低消狀態(tài)褐捻。
- 帶寬也處理低消狀態(tài)掸茅。
- 其它常駐進程也處理正常消費的工作狀態(tài)。也就排除了 Redis 故障的問題柠逞。
鄙人當(dāng)時很氣餒昧狮。
我當(dāng)時也懷疑過是不是像 MySQL 一樣常時間連接不進行任何操作,服務(wù)器端會主動斷開連接板壮。但是逗鸣,MySQL 服務(wù)器端主動段掉連接會提示:MySQL server has gone away
的錯誤。但是,我們的 Redis 服務(wù)器端沒有給我們報任何錯誤信息呀撒璧。
我們公司用的是阿里云的 Redis 產(chǎn)品透葛。我懷疑是不是 Redis 版本太低造成的這個隱性 BUG。于是卿樱,我們將阿里云的 Redis 服務(wù)升級到了阿里云支持的最新版本获洲。
結(jié)果還是失敗了。我們的 Redis 還是假死了殿如。或者說我們的 Redis 處于偽活狀態(tài)最爬。
你認(rèn)為 Redis 活著涉馁,其實它早已經(jīng)死了。你認(rèn)為 Redis 死了爱致,但是它卻沒有死亡的特征烤送。
最后,我冷靜下來糠悯。
我假定此時的 Redis 已經(jīng)死了帮坚。只是沒有告訴客戶端而已。那么我只需要每次檢測一下 Redis 連接是否存活就好了互艾。
于是试和,我翻看了 Redis 的 API。發(fā)現(xiàn)它提供了一個 ping()
的方法來檢測連接是否存活纫普。
于是阅悍,我迫不及待把這個代碼加上去了。
代碼如下:
二昨稼、一個不再假死(偽活)的 Redis 常駐進程示例
<?php
$redis = new \Redis();
$redis->connect('localhost', 6379);
$redis->auth('xxxxx'); // Redis 密碼如果沒有設(shè)置為空字符串节视。
$redis->select(1);
$queueKey = 'redis_queue_services_key'; // 業(yè)務(wù)數(shù)據(jù)隊列。
$queueIngKey = 'redis_queue_services_ing_key'; // 處理中的隊列假栓。
try {
while (true) {
$element = $redis->bRPopLPush($queueKey, $queueIngKey, 60);
if ($element) {
$data = json_decode($element, true);
/**
*
...... 此處省略業(yè)務(wù)邏輯 ......
*
*/
} else {
$pong = $redis->ping();
if ($pong != '+PONG') {
throw new \Exception('Redis ping failure!', 500);
}
usleep(100000); // 睡眠 0.1 秒寻行。
}
}
} catch (\Exception $e) {
exit("Error:{$e->getMessage()}");
}
通過代碼對比,我們在第一版代碼的基礎(chǔ)上加了如下代碼:
$pong = $redis->ping();
if ($pong != '+PONG') {
throw new \Exception('Redis ping failure!', 500);
}
我們向 Redis 服務(wù)器發(fā)送 ping
的時候匾荆,服務(wù)器會返回 +PONG
字符串拌蜘。當(dāng)然,這個是 Redis 擴展封裝過的方法牙丽。真正的 ping 是不會有 + 號的拦坠。
當(dāng)我們每次 ping 的時候,Redis 服務(wù)器就會認(rèn)為我們的 Redis 客戶端連接處于存活狀態(tài)剩岳。就不會斷掉我們的連接了贞滨。
把代碼進行改造之后,假死頭痛的問題再也沒出現(xiàn)了。