urllib是Python自帶的標(biāo)準(zhǔn)庫,不用安裝眉反,直接可以用昙啄。
提供了如下功能:
網(wǎng)頁請求
響應(yīng)獲取
代理和cookie設(shè)置
異常處理
URL解析
ulilib 四個(gè)模塊
urllib.request:用于獲取網(wǎng)頁的響應(yīng)內(nèi)容
urllib.error:異常處理模塊,用于處理異常的模塊
urllib.parse:用于解析url
urllib.robotparse:用于解析robots.txt寸五,主要用于看哪些網(wǎng)站不能進(jìn)行爬取梳凛,不過少用
urllib.urlopen()
urlopen返回對象提供方法:
read() , readline() ,readlines() , fileno() , close() :這些方法的使用方式與文件對象完全一樣
info():返回一個(gè)httplib.HTTPMessage對象,表示遠(yuǎn)程服務(wù)器返回的頭信息
getcode():返回Http狀態(tài)碼梳杏。如果是http請求韧拒,200請求成功完成;404網(wǎng)址未找到
geturl():返回請求的url
Cookie:客戶端用于記錄用戶身份,維持登錄信息
urllib提供了一系列用于操作URL的功能。
Get
Post