pyspider: swarm分布式爬蟲

目錄


  • 起點(diǎn)
  • 搭建swarm
  • 編寫docker-compose.yml
  • 部署服務(wù)
  • 感想

1. 起點(diǎn)


學(xué)習(xí)爬蟲有一段時(shí)間了叨咖,使用過(guò)Scrapy, 就想試試其它的爬蟲框架瘩例,選擇pyspider也是因?yàn)橄胪ㄟ^(guò)pyspider了解一下分布式爬蟲,由于docker技術(shù)的成熟甸各,也就順理成章的選擇docker來(lái)完成這件事垛贤。

2. 搭建swarm


創(chuàng)建節(jié)點(diǎn)

創(chuàng)建三個(gè)docker machine:

$ docker-machine create --driver virtualbox manager1
$ docker-machine create --driver virtualbox worker1
$ docker-machine create --driver virtualbox worker2

執(zhí)行如下命令可查看新創(chuàng)建的docker machine, 以及docker machine對(duì)用的IP地址

$ docker-machine ls
NAME       ACTIVE   DRIVER       STATE     URL                         SWARM   DOCKER        ERRORS
default    *        virtualbox   Running   tcp://192.168.99.100:2376           v17.05.0-ce
manager1   -        virtualbox   Running   tcp://192.168.99.101:2376           v17.05.0-ce
worker1    -        virtualbox   Running   tcp://192.168.99.102:2376           v17.05.0-ce
worker2    -        virtualbox   Running   tcp://192.168.99.103:2376           v17.05.0-ce

創(chuàng)建swarm

登陸 manager1:

$ docker-machine ssh manager1

執(zhí)行如下命令,創(chuàng)建一個(gè)新的swarm

docker@manager1:~$ docker swarm init --advertise-addr 192.168.99.101

Swarm initialized: current node (wpf2jcvhhvfosv3c9ac6c50dh) is now a manager.

To add a worker to this swarm, run the following command:

    docker swarm join \
    --token SWMTKN-1-69wvyxsrnjtm11z38eus20tm0z9cof2ks9khzyv7fdo8it0dln-drdoszuykjp1uvhmn2spaa8vj \
    192.168.99.101:2377

To add a manager to this swarm, run 'docker swarm join-token manager' and follow the instructions.

將節(jié)點(diǎn)加入swarm

登陸worker1, 將worker1加入swarm:

docker@worker1:~$ docker swarm join \
>     --token SWMTKN-1-69wvyxsrnjtm11z38eus20tm0z9cof2ks9khzyv7fdo8it0dln-drdoszuykjp1uvhmn2spaa8vj \
>     192.168.99.101:2377
This node joined a swarm as a worker.

登陸worker2, 將worker2加入swarm:

docker@worker2:~$ docker swarm join \
>     --token SWMTKN-1-69wvyxsrnjtm11z38eus20tm0z9cof2ks9khzyv7fdo8it0dln-drdoszuykjp1uvhmn2spaa8vj \
>     192.168.99.101:2377
This node joined a swarm as a worker.

查看當(dāng)前swarm狀態(tài)

docker@manager1:~$ docker node ls
ID                            HOSTNAME            STATUS              AVAILABILITY        MANAGER STATUS
k926754fhudg5tu51rnlp2fdj     worker2             Ready               Active
q1seyrwugtdceqd515tmp8ph3     worker1             Ready               Active
wpf2jcvhhvfosv3c9ac6c50dh *   manager1            Ready               Active              Leader

至此趣倾,三個(gè)節(jié)點(diǎn)的swarm已經(jīng)創(chuàng)建完成聘惦。

3. 編寫docker-compose.yml


docker-compose.yml請(qǐng)參考

docker-compose.yml

注意事項(xiàng)

  • compose file使用version: 3
  • 部署多replicas時(shí),不需要使用HAproxy的Load Balance儒恋,swarm服務(wù)本身自帶VIP部凑,如:
  • command中需要連接其它服務(wù)時(shí),配置參數(shù)不可寫在文件中碧浊,如scheduler需要連接mysql, redis等,不能使用config.json文件

    command: -c config.json scheduler
    
  • 在使用stack deploy時(shí)瘟仿,docker-compose file中 link, depends_on等命令被忽略箱锐,具體信息請(qǐng)參考compose file版本3

  • 所有服務(wù)使用同一網(wǎng)絡(luò)段,如cars

  • 如果需要連接遠(yuǎn)端mysql, redis修改連接地址即可劳较,如

    command: '--taskdb "mysql+taskdb://root:root@10.208.20.94:3306/taskdb" --resultdb "mysql+resultdb://root:root@10.208.20.94:3306/resultdb" --projectdb "mysql+projectdb://root:root@10.208.20.94:3306/projectdb" --message-queue "redis://10.208.20.94:6379/db" webui --max-rate 10 --max-burst 3 --scheduler-rpc "http://scheduler:23333/" --fetcher-rpc "http://fetcher/"'
    

4. 部署服務(wù)


部署

登陸manager1, 執(zhí)行如下命令:

docker@manager1:~$ docker stack deploy -c docker-compose.yml myspider

注意事項(xiàng)

swarm服務(wù)部署沒(méi)有嚴(yán)格的順序驹止,所以會(huì)出現(xiàn)mysql, redis服務(wù)啟動(dòng)較晚,在service部署要設(shè)置restart_policy, 如

docker@manager1:~$ docker stack deploy -c docker-compose.yml myspider
Creating network myspider_cars
Creating service myspider_fetcher
Creating service myspider_processor
Creating service myspider_result-worker
Creating service myspider_webui
Creating service myspider_redis
Creating service myspider_mysql
Creating service myspider_scheduler
Creating service myspider_phantomjs

5. 感想


由于本身對(duì)swarm stack缺乏經(jīng)驗(yàn)观蜗,中途一度想放棄swarm, 轉(zhuǎn)而采用k8s臊恋,還好堅(jiān)持下來(lái),所以也就有了這篇記錄墓捻,列出了當(dāng)前踩的一些坑抖仅。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市砖第,隨后出現(xiàn)的幾起案子撤卢,更是在濱河造成了極大的恐慌,老刑警劉巖梧兼,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件放吩,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡羽杰,警方通過(guò)查閱死者的電腦和手機(jī)渡紫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門到推,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人惕澎,你說(shuō)我怎么就攤上這事莉测。” “怎么了集灌?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵悔雹,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我欣喧,道長(zhǎng)腌零,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任唆阿,我火速辦了婚禮益涧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘驯鳖。我一直安慰自己闲询,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布浅辙。 她就那樣靜靜地躺著扭弧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪记舆。 梳的紋絲不亂的頭發(fā)上鸽捻,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音泽腮,去河邊找鬼御蒲。 笑死,一個(gè)胖子當(dāng)著我的面吹牛诊赊,可吹牛的內(nèi)容都是我干的厚满。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼碧磅,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼碘箍!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起鲸郊,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤敲街,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后严望,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體多艇,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年像吻,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了峻黍。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片复隆。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖姆涩,靈堂內(nèi)的尸體忽然破棺而出挽拂,到底是詐尸還是另有隱情,我是刑警寧澤骨饿,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布亏栈,位于F島的核電站,受9級(jí)特大地震影響宏赘,放射性物質(zhì)發(fā)生泄漏绒北。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一察署、第九天 我趴在偏房一處隱蔽的房頂上張望闷游。 院中可真熱鬧,春花似錦贴汪、人聲如沸脐往。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)业簿。三九已至,卻和暖如春阳懂,著一層夾襖步出監(jiān)牢的瞬間梅尤,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工希太, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人酝蜒。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓誊辉,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親亡脑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子堕澄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容