fetch 可以直接獲取一個網(wǎng)頁
genspider 創(chuàng)建爬蟲文件
runspider 運行一個爬蟲
settings 爬蟲配置相關(guān)
shell 進入交互頁面
startproject 創(chuàng)建一個爬蟲項目
創(chuàng)建一個爬蟲項目
scrapy startproject cw(文件名)
cw 核心目錄 scrapy.cfg 整個爬蟲項目的配置
spiders 所有的爬蟲文件都會放在spiders文件夾里面
init.py初始化文件 不用管
iterms.py 定義一些爬去目標 (比如爬當(dāng)當(dāng)網(wǎng) 上的書內(nèi)容還是價格還是圖片 爬什么就是目標 全部寫在items.py里)
middlewares.py 中間鍵菲语。 在爬去中間 中間都經(jīng)歷了什么。 (代理IP池 )
pipelines.py 爬去后數(shù)據(jù)你要做什么是寫入什么東西 還是干什么
settings.py全局的
item(爬蟲目標)->spiders(爬蟲文件)->pipelines(數(shù)據(jù)處理)
sprapy指令
全局指令 項目指令
crawl 運行一個爬蟲文件
edit 編輯一個爬蟲文件
list 看一下當(dāng)前爬蟲項目下的爬蟲文件
scrapy fetch http://www.baidu.com 獲取百度
不創(chuàng)建爬蟲項目單獨 運行爬蟲文件
scrapy shell http://www.baidu.com 進入python》〉》模式
exit() 退出
scrapy view http://news.163.com 將數(shù)據(jù)下載到本地并且在瀏覽器中打開
scrapy check +文件名 檢查爬蟲是否可行
scrapy crawl 文件 —nolog 運行爬蟲并不打印日志
scrapy list 當(dāng)前有可運行的爬蟲