從網(wǎng)頁上獲取下一頁按鈕的鏈接衰猛,并與網(wǎng)站根url相連得出絕對路徑
In [24]: next_page_url = response.xpath('//*[@class="next"]/a/@href').extract_first()
In [25]: next_page_url
Out[25]: u'/page/2/'
In [26]: response.urljoin(next_page_url)
Out[26]: u'http://quotes.toscrape.com/page/2/'
對應的在spider的parse 函數(shù)末尾加上這些命令
next_page_url = response.xpath('//*[@class="next"]/a/@href').extract_first()
absolute_next_page_url = response.urljoin(next_page_url)
yield scrapy.Request(absolute_next_page_url)
程序中我們只是把獲取到的數(shù)據(jù)存入變量text、author握玛、tags 中寺惫,并沒有把他們存儲起來菇晃。為了以特定格式存儲祈远,還需要用yield語句。將原先的print語句改成yield后可以通過命令
scrapy crawl quotes -o item.csv將多個items寫入item.csv 文件中商源。
需要惡補內(nèi)容
這里使用了yield語句和scrapy.Request(url)
并不知道yield語句是個什么车份,那個request最后又是怎么被處理的,怎么會又調(diào)回到那個 parse函數(shù)