Supervisor (http://supervisord.org) 是一個(gè)用 [Python] 寫的進(jìn)程管理工具谴仙,可以很方便的用來啟動(dòng)券盅、重啟苟呐、關(guān)閉進(jìn)程(不僅僅是 Python 進(jìn)程)镶骗。除了對單個(gè)進(jìn)程的控制包竹,還可以同時(shí)啟動(dòng)、關(guān)閉多個(gè)進(jìn)程查库,比如很不幸的服務(wù)器出問題導(dǎo)致所有應(yīng)用程序都被殺死路媚,此時(shí)可以用 supervisor 同時(shí)啟動(dòng)所有應(yīng)用程序而不是一個(gè)一個(gè)地敲命令啟動(dòng)。
安裝
當(dāng)前Supervisor的最高版本是3.0樊销,之前嘗試使用2.x版本管理實(shí)驗(yàn)集群中的若干mdrill進(jìn)程整慎,發(fā)現(xiàn)使用客戶端無法有效啟動(dòng)和停止服務(wù)器端管理的各個(gè)子進(jìn)程脏款,從網(wǎng)上搜索錯(cuò)誤發(fā)現(xiàn)2.x版本有一些bug,建議升級到3.0版本裤园。因此我卸載了2.x版本撤师,重新安裝了3.0版本,發(fā)現(xiàn)3.0版本很好使拧揽。3.0版本相對2.x版本剃盾,配置文件不同部分的配置項(xiàng)都發(fā)生了變化,詳見官方文檔淤袜。
sudo yum install python-setuptools-devel
easy_install supervisor 或 sudo pip install supervisor
如果是 Ubuntu 系統(tǒng)痒谴,還可以使用 apt-get 安裝
apt-get install supervisor
supervisord 配置
Supervisor 相當(dāng)強(qiáng)大,提供了很豐富的功能铡羡,不過我們可能只需要用到其中一小部分积蔚。安裝完成之后,可以編寫配置文件烦周,來滿足自己的需求尽爆。為了方便,我們把配置分成兩部分:supervisord(supervisor 是一個(gè) C/S 模型的程序读慎,這是 server 端漱贱,對應(yīng)的有 client 端:supervisorctl)和應(yīng)用程序(即我們要管理的程序)。
首先來看 supervisord 的配置文件贪壳。安裝完 supervisor 之后饱亿,可以運(yùn)行echo_supervisord_conf
命令輸出默認(rèn)的配置項(xiàng),也可以重定向到一個(gè)配置文件里:
echo_supervisord_conf > /etc/supervisord.conf
去除里面大部分注釋和“不相關(guān)”的部分闰靴,注釋符號為分號,我們可以先看這些配置:
[unix_http_server]
file=/tmp/supervisor.sock ; UNIX socket 文件钻注,supervisorctl 會(huì)使用
;chmod=0700 ; socket 文件的 mode蚂且,默認(rèn)是 0700
;chown=nobody:nogroup ; socket 文件的 owner,格式: uid:gid
;[inet_http_server] ; HTTP 服務(wù)器幅恋,提供 web 管理界面
;port=127.0.0.1:9001 ; Web 管理后臺(tái)運(yùn)行的 IP 和端口杏死,如果開放到公網(wǎng),需要注意安全性
;username=user ; 登錄管理后臺(tái)的用戶名
;password=123 ; 登錄管理后臺(tái)的密碼
[supervisord]
logfile=/tmp/supervisord.log ; 日志文件捆交,默認(rèn)是 $CWD/supervisord.log
logfile_maxbytes=50MB ; 日志文件大小淑翼,超出會(huì) rotate,默認(rèn) 50MB
logfile_backups=10 ; 日志文件保留備份數(shù)量默認(rèn) 10
loglevel=info ; 日志級別品追,默認(rèn) info玄括,其它: debug,warn,trace
pidfile=/tmp/supervisord.pid ; pid 文件
nodaemon=false ; 是否在前臺(tái)啟動(dòng),默認(rèn)是 false肉瓦,即以 daemon 的方式啟動(dòng)
minfds=1024 ; 可以打開的文件描述符的最小值遭京,默認(rèn) 1024
minprocs=200 ; 可以打開的進(jìn)程數(shù)的最小值胃惜,默認(rèn) 200
; the below section must remain in the config file for RPC
; (supervisorctl/web interface) to work, additional interfaces may be
; added by defining them in separate rpcinterface: sections
[rpcinterface:supervisor]
supervisor.rpcinterface_factory = supervisor.rpcinterface:make_main_rpcinterface
[supervisorctl]
serverurl=unix:///tmp/supervisor.sock ; 通過 UNIX socket 連接 supervisord,路徑與 unix_http_server 部分的 file 一致
;serverurl=http://127.0.0.1:9001 ; 通過 HTTP 的方式連接 supervisord
; 包含其他的配置文件
[include]
files = relative/directory/*.ini ; 可以是 *.conf 或 *.ini
我們把上面這部分配置保存到 /etc/supervisord.conf(或其他任意有權(quán)限訪問的文件)哪雕,然后啟動(dòng) supervisord(通過 -c 選項(xiàng)指定配置文件路徑船殉,如果不指定會(huì)按照這個(gè)順序查找配置文件:$CWD/supervisord.conf, $CWD/etc/supervisord.conf, /etc/supervisord.conf):
supervisord -c /etc/supervisord.conf 或 supervisord
program 配置
上面我們已經(jīng)把 supervisrod 運(yùn)行起來了,現(xiàn)在可以添加我們要管理的進(jìn)程的配置文件斯嚎±妫可以把所有配置項(xiàng)都寫到 supervisord.conf 文件里,但并不推薦這樣做堡僻,而是通過 include 的方式把不同的程序(組)寫到不同的配置文件里糠惫。
為了舉例,我們新建一個(gè)目錄 /etc/supervisor/ 用于存放這些配置文件苦始,相應(yīng)的寞钥,把 /etc/supervisord.conf 里 include 部分的的配置修改一下,支持自定義路徑:
[include]
files = /etc/supervisor/*.conf
現(xiàn)在編寫一份配置文件來管理這個(gè)進(jìn)程陌选,自定義栗子如下:
[program:flume]
directory = /export/flume/apache-flume-1.6.0-bin/
command = nohup bin/flume-ng agent -c conf -f conf/flume.conf -n agent -Dflume.root.logger=INFO,console > /dev/null 2>&1 &
autostart = true
startsecs = 5
autorestart = true
startretries = 3
user = root
redirect_stderr = true
stdout_logfile_maxbytes = 20MB
stdout_logfile_backups = 10
stdout_logfile = /export/flume/logs/sup_flume_stdout.log
;IT will stop all processes including child process
stopasgroup=true
栗子如下:
[program:usercenter]
directory = /home/leon/projects/usercenter ; 程序的啟動(dòng)目錄
command = gunicorn -c gunicorn.py wsgi:app ; 啟動(dòng)命令理郑,可以看出與手動(dòng)在命令行啟動(dòng)的命令是一樣的
process_name=%(program_name)s ; process_name expr (default %(program_name)s)
numprocs=1 ; number of processes copies to start (def 1)
autostart = true ; 在 supervisord 啟動(dòng)的時(shí)候也自動(dòng)啟動(dòng)
startsecs = 1 ; 啟動(dòng) 1 秒后沒有異常退出,就當(dāng)作已經(jīng)正常啟動(dòng)了
autorestart = true ; 程序異常退出后自動(dòng)重啟
startretries = 3 ; 啟動(dòng)失敗自動(dòng)重試次數(shù)咨油,默認(rèn)是 3
user = leon ; 用哪個(gè)用戶啟動(dòng)
redirect_stderr = true ; 把 stderr 重定向到 stdout您炉,默認(rèn) false
stdout_logfile_maxbytes = 20MB ; stdout 日志文件大小,默認(rèn) 50MB
stdout_logfile_backups = 10 ; stdout 日志文件備份數(shù)
; stdout 日志文件役电,需要注意當(dāng)指定目錄不存在時(shí)無法正常啟動(dòng)赚爵,所以需要手動(dòng)創(chuàng)建目錄(supervisord 會(huì)自動(dòng)創(chuàng)建日志文件)
stdout_logfile = /data/logs/usercenter_stdout.log
;這一配置項(xiàng)的作用是:如果supervisord管理的進(jìn)程px又產(chǎn)生了若干子進(jìn)程,使用supervisorctl停止px進(jìn)程法瑟,停止信號會(huì)傳播給px產(chǎn)生的所有子進(jìn)程冀膝,確保子進(jìn)程也一起停止。這一配置項(xiàng)對希望停止所有進(jìn)程的需求是非常有用的霎挟。
stopasgroup=true
; 可以通過 environment 來添加需要的環(huán)境變量窝剖,一種常見的用法是修改PYTHONPATH ;process environment additions
; environment=PYTHONPATH=$PYTHONPATH:/path/to/somewhere
有幾個(gè)配置項(xiàng)值得解釋一下,可以根據(jù)需要自行設(shè)置酥夭。
- stopasgroup=true赐纱。這一配置項(xiàng)的作用是:如果supervisord管理的進(jìn)程px又產(chǎn)生了若干子進(jìn)程,使用supervisorctl停止px進(jìn)程熬北,停止信號會(huì)傳播給px產(chǎn)生的所有子進(jìn)程疙描,確保子進(jìn)程也一起停止。這一配置項(xiàng)對希望停止所有進(jìn)程的需求是非常有用的讶隐。
- autostart=true起胰。這一配置項(xiàng)的作用是:當(dāng)啟動(dòng)supervisord的時(shí)候會(huì)將該配置項(xiàng)設(shè)置為true的所有進(jìn)程自動(dòng)啟動(dòng)。
- 一份配置文件至少需要一個(gè) [program:x]部分的配置整份,來告訴 supervisord 需要管理那個(gè)進(jìn)程待错。[program:x]語法中的 x 表示 program name籽孙,會(huì)在客戶端(supervisorctl 或 web 界面)顯示,在 supervisorctl 中通過這個(gè)值來對程序進(jìn)行 start火俄、restart犯建、stop 等操作。
啟動(dòng)supervisor進(jìn)程后瓜客,可以配置通過web界面查看适瓦,效果如下:
確保配置無誤后可以在每臺(tái)主機(jī)上使用下面的命令啟動(dòng)supervisor的服務(wù)器端supervisord
【啟動(dòng)supervisord】
supervisord -c /etc/supervisord.conf 或 supervisord
【停止supervisord】
supervisorctl shutdown
【重新加載配置文件】
supervisorctl reload
【進(jìn)程管理】
- 啟動(dòng)supervisord管理的所有進(jìn)程
supervisorctl start all
- 停止supervisord管理的所有進(jìn)程
supervisorctl stop all
- 啟動(dòng)supervisord管理的某一個(gè)特定進(jìn)程
supervisorctl start program-name // program-name為[program:xx]中的xx
- 停止supervisord管理的某一個(gè)特定進(jìn)程
supervisorctl stop program-name // program-name為[program:xx]中的xx
- 重啟所有進(jìn)程或所有進(jìn)程
supervisorctl restart all // 重啟所有supervisorctl reatart program-name // 重啟某一進(jìn)程,program-name為[program:xx]中的xx
- 查看supervisord當(dāng)前管理的所有進(jìn)程的狀態(tài)
supervisorctl status
使用 supervisorctl 客戶端命令
Supervisorctl 是 supervisord 的一個(gè)命令行客戶端工具谱仪,啟動(dòng)時(shí)需要指定與 supervisord 使用同一份配置文件玻熙,否則與 supervisord 一樣按照順序查找配置文件
supervisorctl -c /etc/supervisord.conf
上面這個(gè)命令會(huì)進(jìn)入 supervisorctl 的 shell 界面,然后可以執(zhí)行不同的命令了:
> status # 查看程序狀態(tài)
> stop usercenter # 關(guān)閉 usercenter 程序
> start usercenter # 啟動(dòng) usercenter 程序
> restart usercenter # 重啟 usercenter 程序
> reread # 讀取有更新(增加)的配置文件疯攒,不會(huì)啟動(dòng)新添加的程序
> update # 重啟配置文件修改過的程序
上面這些命令都有相應(yīng)的輸出嗦随,除了進(jìn)入 supervisorctl 的 shell 界面,等同于直接在 bash 終端運(yùn)行:
$ supervisorctl status
$ supervisorctl stop usercenter
$ supervisorctl start usercenter
$ supervisorctl restart usercenter
$ supervisorctl reread
$ supervisorctl update
【其他】
除了 supervisorctl 之外敬尺,還可以配置 supervisrod 啟動(dòng) web 管理界面枚尼,這個(gè) web 后臺(tái)使用 Basic Auth 的方式進(jìn)行身份認(rèn)證。
除了單個(gè)進(jìn)程的控制砂吞,還可以配置 group署恍,進(jìn)行分組管理。
經(jīng)常查看日志文件蜻直,包括 supervisord 的日志和各個(gè) pragram 的日志文件盯质,程序 crash 或拋出異常的信息一半會(huì)輸出到 stderr,可以查看相應(yīng)的日志文件來查找問題概而。
- 遇到問題及解決方案
在使用命令supervisorctl start all啟動(dòng)控制進(jìn)程時(shí)呼巷,遇到如下錯(cuò)誤
unix:///tmp/supervisor.sock no such file
出現(xiàn)上述錯(cuò)誤的原因是supervisord并未啟動(dòng),只要在命令行中使用命令sudo supervisord啟動(dòng)supervisord即可赎瑰。
- 遺留問題
當(dāng)集群規(guī)模擴(kuò)大后朵逝,登錄到每臺(tái)主機(jī)使用supervior控制進(jìn)程也是很麻煩的,能不能用一臺(tái)主機(jī)作為客戶端乡范,同時(shí)連接集群中的所有主機(jī),以一種中心化的方式統(tǒng)一管理集群中的所有進(jìn)程啤咽?之前一直使用的方式是使用交互式工具expect晋辆。supervisor本身有沒有提供一種機(jī)制實(shí)現(xiàn)集群中所有進(jìn)程的中央化管理?
目前測試成功的是使用一臺(tái)主機(jī)作為客戶端(supervisorctl)宇整,控制另一臺(tái)服務(wù)器(supervisord)主機(jī)上的狀態(tài)瓶佳。方法是在服務(wù)器端配置[inet_http_server]部分,開啟TCP端口監(jiān)聽鳞青“运牵客戶端配置[supervisorctl]部分为朋,指定服務(wù)器端的serverurl,連接服務(wù)器端監(jiān)聽的端口厚脉。但是一個(gè)客戶端只能連接一個(gè)服務(wù)器习寸,無法指定多個(gè)服務(wù)器。
Supervisor 有很豐富的功能傻工,還有其他很多項(xiàng)配置霞溪,可以在官方文檔獲取更多信息:http://supervisord.org/index.html
參考資料