1.urllib基礎:
urlretrieve():可以一次性將某一個網(wǎng)頁直接爬到本地
例1:
import urllib.request
web = urllib.request.urlretrieve("http://www.hellobi.com", filename="E:/1.html")
print(web)
urlcleanup():將urlretrieve()產(chǎn)生的緩存清掉凰盔,加快運行速度。
info():顯示信息
getcode():返回狀態(tài)碼,如果返回200狀態(tài)碼,意思是正確的爬取狮杨,如果返回的是403,就是禁止爬取
geturl():查看當前爬取的網(wǎng)站是什么
例2:
import urllib.request
web = urllib.request.urlretrieve("http://www.hellobi.com", filename="E:/1.html")
print(web)
urllib.request.urlcleanup()
file = urllib.request.urlopen("http://www.hellobi.com")
a = file.info()
b = file.getcode()
c = file.geturl()
print(a)
print(b)
print(c)
2.超時設置:timeout 單位秒
爬蟲有時候會因為爬去某些網(wǎng)頁速度極慢甚垦,影響性能届垫。所有可以設置超時時間释液。