在Redis中,使用一個(gè)字符串來存放命令求妹。字符串的名字叫做"scrapy_manager",它的值只有三種:start佳窑,stop 和deploy制恍。
1.start
start這個(gè)命令的作用是創(chuàng)建一個(gè)子進(jìn)程來運(yùn)行爬蟲,使用到的是Python的subprocess庫神凑。
self.START_SPIDER ='python {}'.format(os.path.join('last_release','main.py'))
self.process = subprocess.Popen(shlex.split(self.START_SPIDER))
由于在Windows下净神,路徑中使用反斜杠作為分隔符,而在Linux和Mac OS中溉委,使用斜杠作為分隔符鹃唯,所以這里的分隔符使用Python自動(dòng)生成。
shlex.split()
可以將一個(gè)字符串按照空格分成列表瓣喊,因此在這里相當(dāng)于:
self.START_SPIDER.split(' ')
實(shí)際上subprocess.Popen是可以使用字符串命令作為參數(shù)坡慌,但是有時(shí)候會(huì)出現(xiàn)莫名其妙的問題,因此建議大家像上面代碼一樣將命令切分為列表來使用藻三。
2.stop
所謂的停止爬蟲其實(shí)就是殺掉子進(jìn)程洪橘,使用以下代碼來實(shí)現(xiàn):
self.process.kill()
3.deploy
自動(dòng)部署功能的原理是:將修改以后的爬蟲打包為zip文件跪者,放在Master服務(wù)器上,然后向Redis寫入deploy命令熄求。程序讀到這個(gè)命令以后渣玲,就使用requests將zip文件下載到本地,然后解壓縮覆蓋之前的程序弟晚。Python程序在運(yùn)行的時(shí)候忘衍,.py文件是可以被直接修改的,但是修改并不會(huì)立刻生效卿城,因此需要停止爬蟲枚钓,然后重新運(yùn)行。在我提供給大家的代碼中藻雪,解壓縮zip的功能是通過調(diào)用系統(tǒng)API來實(shí)現(xiàn)的秘噪。大家也可以直接使用Python自帶的庫來實(shí)現(xiàn)解壓縮。