Urllib

Pytho2:

  • Urllib庫
  • Urllib2庫

Python3:

  • Urllib庫

變化:

  • 在Pytho2.x中使用import urllib2——-對應的,在Python3.x中會使用import urllib.request饵逐,urllib.error。
  • 在Pytho2.x中使用import urllib——-對應的菱阵,在Python3.x中會使用import urllib.request,urllib.error,urllib.parse宏蛉。
  • 在Pytho2.x中使用import urlparse——-對應的儿咱,在Python3.x中會使用import urllib.parse庭砍。
  • 在Pytho2.x中使用import urlopen——-對應的,在Python3.x中會使用import urllib.request.urlopen混埠。
  • 在Pytho2.x中使用import urlencode——-對應的怠缸,在Python3.x中會使用import urllib.parse.urlencode。
  • 在Pytho2.x中使用import urllib.quote——-對應的钳宪,在Python3.x中會使用import urllib.request.quote揭北。
  • 在Pytho2.x中使用cookielib.CookieJar——-對應的,在Python3.x中會使用http.CookieJar吏颖。
  • 在Pytho2.x中使用urllib2.Request——-對應的搔体,在Python3.x中會使用urllib.request.Request。

最簡單的爬蟲程序

import urllib.request
file=urllib.request.urlopen('http://www.baidu.com')
data=file.read()    #讀取全部
fhandle=open("./1.html","wb")    #將爬取的網(wǎng)頁保存在本地
fhandle.write(data)
fhandle.close()

模擬瀏覽器行為

import urllib.request
import urllib.parse

url = 'http://www.baidu.com'
header = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36'
}

request = urllib.request.Request(url, headers=header)
reponse = urllib.request.urlopen(request).read()

fhandle = open("./baidu.html", "wb")
fhandle.write(reponse)
fhandle.close()

代理IP的使用

import urllib.request
def use_proxy(proxy_addr,url):
    
    proxy=urllib.request.ProxyHandler({'http':proxy_addr})
    opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
    data=urllib.request.urlopen(url).read().decode('utf8')
    return data

proxy_addr='61.163.39.70:9999'
data=use_proxy(proxy_addr,'http://www.baidu.com')
print(len(data))

cookielib庫和HTTPCookieProcessor處理器

Python處理Cookie半醉,一般是通過cookielib模塊和urllib的request模塊的HTTPCookieProcessor處理器類一起使用

  • cookielib模塊:主要作用是提供用于存儲cookie的對象
  • HTTPCookieProcessor處理器:只要處理cookies對象疚俱,并構建handler對象

cookielib庫
該模塊主要的對象有CookieJar、FileCookieJar缩多、MozillaCookieJar呆奕、LWPCookieJar

  • CookieJar:管理HTTP cookie值、存儲HTTP請求生成的cookie衬吆、向傳出的HTTP請求添加cookie的對象梁钾。整個 cookie 都存儲在內存中。
  • FileCookieJar (filename,delayload=None,policy=None):CookieJar 派生而來逊抡,將 cookie 存儲到文件中陈轿。filename 是存儲 cookie 的文件名。delayload 為 True 時支持延遲訪問文件,即只有在需要時才讀取文件或在文件中存儲數(shù)據(jù)麦射。
  • MozillaCookieJar (filename,delayload=None,policy=None) : 從 FileCookieJar 派 生 而 來 蛾娶,MozillaCookieJar 實例與 Mozilla 瀏覽器 cookies.txt 兼容。
  • LWPCookieJar (filename,delayload=None,policy=None):從 FileCookieJar 派生而來潜秋,實例與
    libwww-perl 標準的 Set-Cookie3 文件格式兼容蛔琅。
  • HTTPCookieProcessor 處理器:處理 cookie 對象,并構建 handler 處理器對象峻呛。

COOKIES的使用

import urllib.request
import urllib.parse
import urllib.error
import http.cookiejar

url='http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=La2A2'
data={
    'username':'zhanghao',
    'password':'mima',
}
postdata=urllib.parse.urlencode(data).encode('utf8')
header={
    'User-Agent':'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

request=urllib.request.Request(url,postdata,headers=header)
#使用http.cookiejar.CookieJar()創(chuàng)建CookieJar對象
cjar=http.cookiejar.CookieJar()
#使用HTTPCookieProcessor創(chuàng)建cookie處理器罗售,并以其為參數(shù)構建opener對象
cookie=urllib.request.HTTPCookieProcessor(cjar)
opener=urllib.request.build_opener(cookie)
#將opener安裝為全局
urllib.request.install_opener(opener)

try:
    reponse=urllib.request.urlopen(request)
except urllib.error.HTTPError as e:
    print(e.code)
    print(e.reason)

fhandle=open('./test1.html','wb')
fhandle.write(reponse.read())
fhandle.close()

url2='http://bbs.chinaunix.net/forum-327-1.html'   #打開test2.html文件,會發(fā)現(xiàn)此時會保持我們的登錄信息钩述,為已登錄狀態(tài)寨躁。也就是說,對應的登錄狀態(tài)已經通過Cookie保存牙勘。
reponse2=urllib.request.urlopen(url)
fhandle2=open('./test2.html','wb')
fhandle2.write(reponse2.read())
fhandle2.close()
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末职恳,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子方面,更是在濱河造成了極大的恐慌放钦,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件恭金,死亡現(xiàn)場離奇詭異操禀,居然都是意外死亡,警方通過查閱死者的電腦和手機横腿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門颓屑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人耿焊,你說我怎么就攤上這事邢锯。” “怎么了搀别?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵丹擎,是天一觀的道長。 經常有香客問我歇父,道長蒂培,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任榜苫,我火速辦了婚禮护戳,結果婚禮上,老公的妹妹穿的比我還像新娘垂睬。我一直安慰自己媳荒,他們只是感情好抗悍,可當我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著钳枕,像睡著了一般缴渊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上鱼炒,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天衔沼,我揣著相機與錄音,去河邊找鬼昔瞧。 笑死指蚁,一個胖子當著我的面吹牛,可吹牛的內容都是我干的自晰。 我是一名探鬼主播凝化,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼酬荞!你這毒婦竟也來了搓劫?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤袜蚕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后绢涡,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體牲剃,經...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年雄可,在試婚紗的時候發(fā)現(xiàn)自己被綠了凿傅。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡数苫,死狀恐怖聪舒,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情虐急,我是刑警寧澤箱残,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站止吁,受9級特大地震影響被辑,放射性物質發(fā)生泄漏。R本人自食惡果不足惜敬惦,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一盼理、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧俄删,春花似錦宏怔、人聲如沸奏路。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鸽粉。三九已至,卻和暖如春妨猩,著一層夾襖步出監(jiān)牢的瞬間潜叛,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工壶硅, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留威兜,地道東北人。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓庐椒,卻偏偏與公主長得像椒舵,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子约谈,可洞房花燭夜當晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內容