1.簡(jiǎn)介
使用Python開發(fā)的主要進(jìn)行數(shù)據(jù)采集的一個(gè)應(yīng)用程序框架厚骗,核心使用它來進(jìn)行爬蟲程序的快速開發(fā),底層使用了twisted異步模塊兢哭,所以在進(jìn)行數(shù)據(jù)采集下載時(shí)效率非常高领舰!
常用的scrapy中文文檔:
1.0.5:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html
latest:http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/selectors.html#topics-selectors-htmlcode
2.安裝
安裝scrapy模塊
pip install scrapy
或指定python版本
python2 -m pip install scrapy
安裝win32模塊
由于scrapy模塊可能調(diào)用win底層C庫進(jìn)行函數(shù)操作,所以需要安裝一個(gè)pypiwin32模塊
pip install pypiwin32
或者
python(版本號(hào)) -m pip install pypiwin32
3.創(chuàng)建scrapy項(xiàng)目
通過執(zhí)行如下命令迟螺,創(chuàng)建一個(gè)scrapy項(xiàng)目
scrapy startproject <spider_name>
如:
scrapy startproject myspider
創(chuàng)建好后會(huì)得到如下的文件結(jié)構(gòu)
|-- myspider/ 項(xiàng)目根目錄
|-- scrapy.cfg 項(xiàng)目配置文件 [cfg: config]
|-- myspider/ 爬蟲 模塊->以后的爬蟲程序開發(fā)都在這個(gè)模塊中
|-- spiders/ 爬蟲程序所在的目錄
|-- items.py 采集的數(shù)據(jù)->定義封裝模型類的模塊
|-- pipelines.py 采集的數(shù)據(jù)->采集完成之后進(jìn)行數(shù)據(jù)驗(yàn)證冲秽、存儲(chǔ)的模塊
|-- middlewares.py 中間件定義的模塊
|-- settings.py 項(xiàng)目設(shè)置模塊