https://baijiahao.baidu.com/s?id=1621695863688073415&wfr=spider&for=pc
https://www.cnblogs.com/3wtoucan/p/scrapy-installation.html
traffic-health-data-spider
中國(guó)主要城市交通健康數(shù)據(jù)爬蟲
使用Scrapy抓取交通健康數(shù)據(jù)
制作Scrapy爬蟲一共需要四步
1.新建項(xiàng)目 :新建一個(gè)新的爬蟲項(xiàng)目
1.1創(chuàng)建目錄amap_traffic_health
1.2創(chuàng)建項(xiàng)目scrapy startproject amap_traffic_health
1.3目錄結(jié)構(gòu)
|-amap_traffic_health
? |-scrapy.cfg
? |-amap_traffic_health
? ? |-__init__.py
? ? |-items.py
? ? |-middlewares.py
? ? |-pipelines.py
? ? |-settings.py
? ? |-spiders
? ? ? ? |-__init__.py
1.4文件功能
scrapy.cfg:配置文件
spiders:存放Spider文件
items.py:相當(dāng)于一個(gè)容器,和字典較像
middlewares.py:定義Downloader Middlewares(下載器中間件)和Spider Middlewares(蜘蛛中間件)的實(shí)現(xiàn)
pipelines.py:定義Item Pipeline的實(shí)現(xiàn)匣掸,實(shí)現(xiàn)數(shù)據(jù)的清洗峭沦,儲(chǔ)存吧雹,驗(yàn)證宵距。
settings.py:全局配置
2.明確目標(biāo) (編寫items.py):明確你想要抓取的目標(biāo)
3.制作爬蟲 (spiders/xxspider.py):制作爬蟲開始爬取網(wǎng)頁
4.存儲(chǔ)內(nèi)容 (pipelines.py):設(shè)計(jì)管道存儲(chǔ)爬取內(nèi)容