Python爬蟲入門(4):Urllib庫的高級(jí)用法

1.設(shè)置Headers

有些網(wǎng)站不會(huì)同意程序直接用上面的方式進(jìn)行訪問渠旁,如果識(shí)別有問題烫映,那么站點(diǎn)根本不會(huì)響應(yīng)业扒,所以為了完全模擬瀏覽器的工作捎废,我們需要設(shè)置一些Headers 的屬性。

首先胀糜,打開我們的瀏覽器颅拦,調(diào)試瀏覽器F12,我用的是Chrome教藻,打開網(wǎng)絡(luò)監(jiān)聽距帅,示意如下,比如知乎括堤,點(diǎn)登錄之后碌秸,我們會(huì)發(fā)現(xiàn)登陸之后界面都變化 了,出現(xiàn)一個(gè)新的界面悄窃,實(shí)質(zhì)上這個(gè)頁面包含了許許多多的內(nèi)容讥电,這些內(nèi)容也不是一次性就加載完成的,實(shí)質(zhì)上是執(zhí)行了好多次請(qǐng)求轧抗,一般是首先請(qǐng)求HTML文 件恩敌,然后加載JS,CSS 等等横媚,經(jīng)過多次請(qǐng)求之后纠炮,網(wǎng)頁的骨架和肌肉全了,整個(gè)網(wǎng)頁的效果也就出來了灯蝴。

拆分這些請(qǐng)求恢口,我們只看一第一個(gè)請(qǐng)求,你可以看到穷躁,有個(gè)Request URL耕肩,還有headers,下面便是response,圖片顯示得不全猿诸,小伙伴們可以親身實(shí)驗(yàn)一下婚被。那么這個(gè)頭中包含了許許多多是信息,有文件編碼啦两芳,壓縮方式啦摔寨,請(qǐng)求的agent啦等等。

其中怖辆,agent就是請(qǐng)求的身份是复,如果沒有寫入請(qǐng)求身份,那么服務(wù)器不一定會(huì)響應(yīng)竖螃,所以可以在headers中設(shè)置agent,例如下面的例子淑廊,這個(gè)例子只是說明了怎樣設(shè)置的headers,小伙伴們看一下設(shè)置格式就好特咆。

importurllib

importurllib2

url='http://www.server.com/login'

user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

values={'username':'cqc','password':'XXXX'}

headers={'User-Agent':user_agent}

data=urllib.urlencode(values)

request=urllib2.Request(url,data,headers)

response=urllib2.urlopen(request)

page=response.read()

這樣季惩,我們?cè)O(shè)置了一個(gè)headers,在構(gòu)建request時(shí)傳入腻格,在請(qǐng)求時(shí)画拾,就加入了headers傳送,服務(wù)器若識(shí)別了是瀏覽器發(fā)來的請(qǐng)求菜职,就會(huì)得到響應(yīng)青抛。

另外,我們還有對(duì)付”反盜鏈”的方式酬核,對(duì)付防盜鏈蜜另,服務(wù)器會(huì)識(shí)別headers中的referer是不是它自己,如果不是嫡意,有的服務(wù)器不會(huì)響應(yīng)举瑰,所以我們還可以在headers中加入referer

例如我們可以構(gòu)建下面的headers

headers={'User-Agent':'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',

'Referer':'http://www.zhihu.com/articles'}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市蔬螟,隨后出現(xiàn)的幾起案子此迅,更是在濱河造成了極大的恐慌,老刑警劉巖旧巾,帶你破解...
    沈念sama閱讀 207,248評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件耸序,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡菠齿,警方通過查閱死者的電腦和手機(jī)佑吝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門坐昙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來绳匀,“玉大人,你說我怎么就攤上這事〖部茫” “怎么了戈钢?”我有些...
    開封第一講書人閱讀 153,443評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長是尔。 經(jīng)常有香客問我殉了,道長,這世上最難降的妖魔是什么拟枚? 我笑而不...
    開封第一講書人閱讀 55,475評(píng)論 1 279
  • 正文 為了忘掉前任薪铜,我火速辦了婚禮,結(jié)果婚禮上恩溅,老公的妹妹穿的比我還像新娘隔箍。我一直安慰自己,他們只是感情好脚乡,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評(píng)論 5 374
  • 文/花漫 我一把揭開白布蜒滩。 她就那樣靜靜地躺著,像睡著了一般奶稠。 火紅的嫁衣襯著肌膚如雪俯艰。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,185評(píng)論 1 284
  • 那天锌订,我揣著相機(jī)與錄音竹握,去河邊找鬼。 笑死瀑志,一個(gè)胖子當(dāng)著我的面吹牛涩搓,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播劈猪,決...
    沈念sama閱讀 38,451評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼昧甘,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了战得?” 一聲冷哼從身側(cè)響起充边,我...
    開封第一講書人閱讀 37,112評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎常侦,沒想到半個(gè)月后浇冰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,609評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡聋亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評(píng)論 2 325
  • 正文 我和宋清朗相戀三年肘习,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坡倔。...
    茶點(diǎn)故事閱讀 38,163評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡漂佩,死狀恐怖脖含,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情投蝉,我是刑警寧澤养葵,帶...
    沈念sama閱讀 33,803評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站瘩缆,受9級(jí)特大地震影響关拒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜庸娱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評(píng)論 3 307
  • 文/蒙蒙 一着绊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧熟尉,春花似錦畔柔、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至雇毫,卻和暖如春玄捕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背棚放。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評(píng)論 1 261
  • 我被黑心中介騙來泰國打工枚粘, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人飘蚯。 一個(gè)月前我還...
    沈念sama閱讀 45,636評(píng)論 2 355
  • 正文 我出身青樓馍迄,卻偏偏與公主長得像,于是被迫代替她去往敵國和親局骤。 傳聞我的和親對(duì)象是個(gè)殘疾皇子攀圈,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)峦甩,斷路器赘来,智...
    卡卡羅2017閱讀 134,601評(píng)論 18 139
  • 1.設(shè)置Headers有些網(wǎng)站不會(huì)同意程序直接用上面的方式進(jìn)行訪問,如果識(shí)別有問題凯傲,那么站點(diǎn)根本不會(huì)響應(yīng)犬辰,所以為了...
    babybus_hentai閱讀 328評(píng)論 0 0
  • Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分3個(gè)大的版塊:抓取,分析冰单,存儲(chǔ) 另外幌缝,比較常用的爬蟲框架Scrapy,這里最后也詳細(xì)...
    楚江數(shù)據(jù)閱讀 1,461評(píng)論 0 6
  • 1 先扒一個(gè)網(wǎng)頁下來看看 import urllib2response=urllib2.urlopen("http...
    Master_K閱讀 801評(píng)論 0 3
  • 如何提高你的選擇質(zhì)量诫欠? 我認(rèn)為提高選擇的質(zhì)量無非就是擁有大數(shù)據(jù)涵卵,深入分析每一種選擇背后所存在的利益大小腿宰,分析利益大...
    智御閱讀 151評(píng)論 0 0