個人學(xué)習(xí)筆記回还,方便自己查閱双戳,僅供參考,歡迎交流
分析Robots協(xié)議
利用robotparser模塊弛姜,可以實(shí)現(xiàn)網(wǎng)站Robots協(xié)議的分析脐瑰。利用它,我們可以方便地判斷哪些頁面可以抓取,哪些頁面不可以抓廷臼。
1.Robots 協(xié)議
Robots協(xié)議也稱作爬蟲協(xié)議苍在、機(jī)器人協(xié)議,用來告訴爬蟲和搜索引擎哪些頁面可以抓取中剩,哪些不可以抓取忌穿。它通常是一個叫作 robots.txt的文本文件,一般放在網(wǎng)站的根目錄下。
2.爬蟲名稱
3.robotparser
urllib.robotparser.RobotFileParser(url='')
from urllib.robotparser import RobotFileParser
rp = RobotFileParser()
rp.set_url('http://www.reibang.com/robots.txt')
rp.read()
print(rp.can_fetch('*','http://www.reibang.com/p/b67554025d7d'))
print(rp.can_fetch('*',"http://www jianshu.com/search?q=python&page=l&type=collections"))