url 管理器
防重復抓取锅铅、循環(huán)抓起
內(nèi)存 set
mysql
redis
下載器
下載html 到本地成字符串
urllib2
urllib2可以接受一個Request類的實例來設置URL請求的headers棒拂,urllib僅可以接受URL汤纸。這意味著,你不可以偽裝你的User Agent字符串等。urllib提供urlencode方法用來GET查詢字符串的產(chǎn)生,而urllib2沒有裸燎。這是為何urllib常和urllib2一起使用的原因。
request(第三方庫)
解析器
beautifulsoup4
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id5