scrapy創(chuàng)建項(xiàng)目之后煤率,在settings文件中有這樣的一條默認(rèn)開啟的語句:
觀察代碼發(fā)現(xiàn)仰冠,默認(rèn)為True,就是要遵守robots.txt 的規(guī)則
通俗來說蝶糯, robots.txt 是遵循 Robot協(xié)議 的一個(gè)文件洋只,它保存在網(wǎng)站的服務(wù)器中,它的作用是昼捍,告訴搜索引擎爬蟲识虚,本網(wǎng)站哪些目錄下的網(wǎng)頁 不希望 你進(jìn)行爬取收錄。在Scrapy啟動(dòng)后妒茬,會在第一時(shí)間訪問網(wǎng)站的 robots.txt 文件担锤,然后決定該網(wǎng)站的爬取范圍。
當(dāng)然乍钻,我們并不是在做搜索引擎肛循,而且在某些情況下我們想要獲取的內(nèi)容恰恰是被 robots.txt 所禁止訪問的。所以银择,某些時(shí)候多糠,我們就要將此配置項(xiàng)設(shè)置為 False ,拒絕遵守 Robot協(xié)議 浩考!
原文鏈接:https://blog.csdn.net/Ren_ger/article/details/81664669