零鸣奔、所用環(huán)境
macOS 10.14.1
Python 3.6.3
scrapy 1.5.1
一檀蹋、文件下載(基于FilesPipeline)
適用于下載包括但不限于PDF的各種文件。
1飒硅、item.py(files未顯性用到)
item.py
2蛔垢、spider_name.py(yield url列表即可)
spider_name.py
3、pipelines.py
pipelines.py
注:FilePipeline為自定義Pipeline名字耻煤。
4、settings.py
settings.py
注:file_download為項(xiàng)目名准颓,F(xiàn)ilePipeline為pipelines.py中自定義的Pipeline。
二棺妓、圖片下載(基于ImagesPipeline)
僅適用于下載圖片(與文件下載同理)攘已。
1、item.py
item.py
2怜跑、spider_name.py
spider_name.py
3样勃、pipelines.py
pipelines.py
4、settings.py
settings.py
三性芬、FilesPipeline和ImagesPipeline的區(qū)別
FilesPipeline和ImagesPipeline的區(qū)別
四峡眶、參考資料
1、Scrapy下載及處理文件和圖片(官方文檔)
https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/media-pipeline.html#files-pipeline
注:親測(cè)官方demo都可跑通植锉,一二兩個(gè)自定義pipelines也是基于官方demo完成辫樱。
2、使用FilesPipeline和ImagesPipeline