這只是個學(xué)習(xí)筆記榜配,所以..不要奢求太多
僅僅只是記錄下作者的學(xué)習(xí)歷程黍少,同時胶果,
歡迎互相交流學(xué)習(xí)
step1 構(gòu)建環(huán)境
此處默認(rèn)已經(jīng)構(gòu)建了pyenv和pyenv-virturlenv(不懂暂刘?看上一篇,python環(huán)境的構(gòu)建)嫩海。
- 創(chuàng)建項目目錄冬殃,把該目錄置為Python3.5.2的虛擬環(huán)境
- 在該虛擬環(huán)境下執(zhí)行
echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
source ~/.bashrc
pip install Scrapy
詳情見:https://doc.scrapy.org/en/latest/intro/install.html
- 此時已經(jīng)完成安裝Scrapy,然后初始化一個項目工程,在終端執(zhí)行:
scrapy start project tutorial
目錄內(nèi)會自動創(chuàng)建一個項目工程叁怪,結(jié)構(gòu)如下:
目錄結(jié)構(gòu).png
step2 Scrape shell命令
scrapy crawl [quotes] #在tutorial目錄下運行爬蟲 [quotes]為爬蟲名字
scrapy shell ['http://quotes.toscrape.com/page/1/'] #scrapy分析目標(biāo)網(wǎng)址元素
分析目標(biāo)網(wǎng)址后审葬,可使用如下命令獲取具體元素
>>> response.css('title::text').extract()
>>> response.xpath('//title/text()').extract_first()
使用詳見(https://doc.scrapy.org/en/latest/intro/tutorial.html#our-first-spider)
scrapy crawl [quotes] -o [quotes.json] #簡單存儲指定爬蟲的數(shù)據(jù)(追加寫文件方式),多次存儲會損壞son格式,[quotes]為爬蟲名字奕谭,[quotes.json]為存儲文件
scrapy crawl [quotes] -o [quotes.jl] #簡單存儲指定爬蟲的數(shù)據(jù)(追加寫文件方式)涣觉,可多次存儲,[quotes]為爬蟲名字展箱,[quotes.jl]為存儲文件旨枯,PS:.jl為json lines
scrapy crawl quotes -o quotes-humor.json -a tag=humor #向start_requests方法傳遞參數(shù),可用作簡單篩選
step3 爬蟲示例
此處是按照官方示例所寫
代碼放在github
看~灰機~灰機灰過來了~灰機又灰過去了~