scrapy docker教程

說明:此文檔主要聚焦在Docker的使用上嘱巾,必須配和爬蟲教程 · 網(wǎng)絡爬蟲教程一起使用谷炸。

注意:一定要配合入門教程 · 網(wǎng)絡爬蟲教程

總結(jié)

先放干貨灶平,使用docker來運行scrapy其實只需要做到以下兩點即可:

1. 在項目的當前目錄中

2. 在scrapy命令前加上docker run --name scrapy --rm -v $(pwd):/runtime/app aciobanu/scrapy

如果你已經(jīng)會使用scrapy了惕蹄,看到這里就可以了绎狭。


下載鏡像

從Docker hub下載aciobanu/scrapy - Docker Hub并創(chuàng)建教程項目


$ mkdir ~/scrapy

$ cd ~/scrapy

$ docker run --rm -v $(pwd):/runtime/app aciobanu/scrapy startproject tutorial

以上命令中

-v是把當前目錄映射到容器中的/runtime/app目錄

--rm是在停止容器后自動刪除容器

執(zhí)行以上命令后會生成tutorial目錄关带,這些文件分別是:


scrapy.cfg: 項目的配置文件侥涵;(用于發(fā)布到服務器)
tutorial/: 該項目文件夾。之后將在此編寫Python代碼宋雏。
tutorial/items.py: 項目中的item文件;(定義結(jié)構(gòu)化數(shù)據(jù)字段field).
tutorial/pipelines.py: 項目中的pipelines文件;(用于存放執(zhí)行后期數(shù)據(jù)處理的功能芜飘,定義如何存儲結(jié)構(gòu)化數(shù)據(jù))
tutorial/settings.py: 項目的設置文件;(如何修改User-Agent磨总,設置爬取時間間隔嗦明,設置代理,配置中間件等等)
tutorial/spiders/: 放置spider代碼的目錄;(編寫爬取網(wǎng)站規(guī)則)

編寫爬蟲

編寫第一個爬蟲

接下來按入門教程 · 網(wǎng)絡爬蟲教程編寫第一個爬蟲蚪燕。(請先去看完教程再回來繼續(xù))

爬取

然后運行以下命令執(zhí)行爬蟲


docker run --rm -v $(pwd):/runtime/app aciobanu/scrapy scrapy crawl tencent

以上命令中最后的scrapy crawl tencent就是我們要執(zhí)行的命令

可以看到已經(jīng)生成了tengxun.txt

提取Item

接下來運行命令


docker run -it  --rm -v $(pwd):/runtime/app aciobanu/scrapy scrapy shell "[http://hr.tencent.com/position.php?&start=0#a"](http://hr.tencent.com/position.php?&start=0#a")

以上命令中的-it意思是啟用交互式命令行

嘗試Selector選擇器

之后可以嘗試以下命令


response.xpath('//title')

response.xpath('//title').extract()

print response.xpath('//title').extract()[0]

response.xpath('//title/text()')

response.xpath('//title/text()')[0].extract()

print response.xpath('//title/text()')[0].extract()

response.xpath('//title/text()').re('(\w+):')

還可以嘗試更多的提取參數(shù)娶牌,查看輸出內(nèi)容的變化。

最后輸入quit()關(guān)閉容器馆纳。

提取數(shù)據(jù)

按爬蟲教程中修改tencent_spider.py文件內(nèi)容如下:


import scrapy
from tutorial.items import RecruitItem

class RecruitSpider(scrapy.spiders.Spider):
  name = "tencent"
  allowed_domains = ["hr.tencent.com"]
  start_urls = [
    "https://hr.tencent.com/position.php?&start=0#a"
  ]
  def parse(self, response):
    for sel in response.xpath('//*[@class="even"]'):
      name = sel.xpath('./td[1]/a/text()').extract()[0]
      detailLink = sel.xpath('./td[1]/a/@href').extract()[0]
      catalog = sel.xpath('./td[2]/text()').extract()[0]
      recruitNumber = sel.xpath('./td[3]/text()').extract()[0]
      workLocation = sel.xpath('./td[4]/text()').extract()[0]
      publishTime = sel.xpath('./td[5]/text()').extract()[0]
      print(name, detailLink, catalog,recruitNumber,workLocation,publishTime)
      item = RecruitItem()
      item['name']=name.encode('utf-8')
      item['detailLink']=detailLink.encode('utf-8')
      item['catalog']=catalog.encode('utf-8')
      item['recruitNumber']=recruitNumber.encode('utf-8')
      item['workLocation']=workLocation.encode('utf-8')
      item['publishTime']=publishTime.encode('utf-8')
      yield item

注意最后的print要加括號诗良。我運行時不加括號會出錯。

執(zhí)行以下命令:


docker run --name scrapy --rm -v $(pwd):/runtime/app aciobanu/scrapy scrapy crawl tencent -o items.json

查看生成的items.json文件的內(nèi)容鲁驶,可以看到爬取的結(jié)果累榜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子壹罚,更是在濱河造成了極大的恐慌葛作,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件猖凛,死亡現(xiàn)場離奇詭異赂蠢,居然都是意外死亡,警方通過查閱死者的電腦和手機辨泳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門虱岂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人菠红,你說我怎么就攤上這事第岖。” “怎么了试溯?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵蔑滓,是天一觀的道長。 經(jīng)常有香客問我遇绞,道長键袱,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任摹闽,我火速辦了婚禮蹄咖,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘付鹿。我一直安慰自己澜汤,他們只是感情好,可當我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布舵匾。 她就那樣靜靜地躺著俊抵,像睡著了一般。 火紅的嫁衣襯著肌膚如雪纽匙。 梳的紋絲不亂的頭發(fā)上务蝠,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機與錄音烛缔,去河邊找鬼馏段。 笑死,一個胖子當著我的面吹牛践瓷,可吹牛的內(nèi)容都是我干的院喜。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼晕翠,長吁一口氣:“原來是場噩夢啊……” “哼喷舀!你這毒婦竟也來了砍濒?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤硫麻,失蹤者是張志新(化名)和其女友劉穎爸邢,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拿愧,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡杠河,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了浇辜。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片券敌。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖柳洋,靈堂內(nèi)的尸體忽然破棺而出待诅,到底是詐尸還是另有隱情,我是刑警寧澤熊镣,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布卑雁,位于F島的核電站,受9級特大地震影響轧钓,放射性物質(zhì)發(fā)生泄漏序厉。R本人自食惡果不足惜锐膜,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一毕箍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧道盏,春花似錦而柑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至种远,卻和暖如春涩澡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背坠敷。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工妙同, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人膝迎。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓粥帚,卻偏偏與公主長得像,于是被迫代替她去往敵國和親限次。 傳聞我的和親對象是個殘疾皇子芒涡,可洞房花燭夜當晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容