最近開始學(xué)習(xí)scrapy框架,摘抄一些知識(shí)點(diǎn)
- 創(chuàng)建項(xiàng)目:
scrapy startproject testproject
- 進(jìn)入項(xiàng)目:
cd testproject
- 生成spider:
scrapy genspider baidu www.baidu.com
- 了解各類模板:
scrapy genspider -l
- 指定模板:
scrapy genspider -t crawl zhihu www.zhihu.com
- crawl :運(yùn)行spider的方法耻卡,可以指定運(yùn)行的spider的名稱 :
scrapy crawl zhihu.py
- check:用來檢查代碼是否有錯(cuò)誤:
scrapy check zhihu.py
- scrapy list:返回項(xiàng)目中所有的名稱
- scrapy edit :在命令行下編輯
- fetch:返回網(wǎng)頁(yè)源代碼娜睛,等同于response:
scrapy fetch http://www.baidu.com
- 去掉日志:得到headers:
scrapy fetch --nolog --headers http://www.baidu.com
- 禁止重定向:–no redicrect:
scrapy fetch --no-direct http://www.baidu.com
- view:將網(wǎng)頁(yè)以文件的形式保存下來乎串,然后去打開诫隅,可以在自動(dòng)測(cè)試中應(yīng)用:
scrapy view http://www.baidu.com
- shell:命令行模式的交互,并且返回一些可用的變量:
scrapy shell http://www.baidu.com
- parse: 傳入一些參數(shù),查看返回的結(jié)果鱼的,相當(dāng)于格式化輸出
- seetings:獲取當(dāng)前的配置信息:
scrapy settings -h
- runspider:運(yùn)行spider:
scrapy runspider baidu.py
- version:輸出scrapy的版本:
scrapy version -v
- bench:測(cè)試當(dāng)前爬蟲的速度