Python爬蟲在學(xué)習(xí)中整理的一些小技巧

序言

如果你對工作不滿意或?qū)ι畈粷M意,請不用抱怨申屹,因?yàn)楹翢o用處,你只有努力提升技能隧膏,努力的完善自己哗讥,不斷地向前奔跑,才會(huì)越來越好的胞枕!

使用代理IP

開發(fā)爬蟲過程中經(jīng)常會(huì)遇到IP被封掉的情況杆煞,這時(shí)就需要用到代理IP;
在urllib2包中有個(gè)ProxyHandler類腐泻,通過此類可以設(shè)置代理訪問網(wǎng)頁决乎。

Cookies處理

cookies是某些網(wǎng)站為了辨別用戶身份、進(jìn)行session跟蹤而儲(chǔ)存在用戶本地終端上的數(shù)據(jù)(通常經(jīng)過加密)派桩,python提供了cookielib模塊用于處理cookies构诚,cookielib模塊的主要作用是提供可存儲(chǔ)cookie的對象,以便于與urllib2模塊配合使用來訪問Internet資源铆惑。

偽裝成瀏覽器

某些網(wǎng)站反感爬蟲的到訪唤反,于是對爬蟲一律拒絕請求。所以用urllib2直接訪問網(wǎng)站經(jīng)常會(huì)出現(xiàn)HTTP Error 403: Forbidden的情況對有些 header 要特別留意鸭津,服務(wù)端會(huì)針對這些 header 做檢查彤侍。

  1. User-Agent 有些服務(wù)端或 Proxy 會(huì)檢查該值,用來判斷是否是瀏覽器發(fā)起的 Request逆趋;
  2. Content-Type 在使用 REST 接口時(shí)盏阶,服務(wù)端會(huì)檢查該值,用來確定 HTTP Body 中的內(nèi)容該怎樣解析闻书。

頁面解析

對于頁面解析最強(qiáng)大的當(dāng)然是正則表達(dá)式名斟。其次就是解析庫了脑慧,常用的有兩個(gè) lxml 和 BeautifulSoup,對于這兩個(gè)庫砰盐,我的評(píng)價(jià)是闷袒,都是HTML/XML的處理庫。

  1. Beautifulsoup是純python實(shí)現(xiàn)的岩梳,效率雖然低一些囊骤,但是功能實(shí)用,比如:它可以通過結(jié)果搜索獲得某個(gè)HTML節(jié)點(diǎn)的源碼這樣的冀值;
  2. lxml 底層是由C語言編碼的也物,比較高效,支持Xpath列疗。

驗(yàn)證碼的處理

對于一些簡單的驗(yàn)證碼滑蚯,可以進(jìn)行簡單的識(shí)別。本人也只進(jìn)行過一些簡單的驗(yàn)證碼識(shí)別抵栈。但是有些反人類的驗(yàn)證碼告材,比如12306,可以通過打碼平臺(tái)進(jìn)行人工打碼古劲,當(dāng)然這是要付費(fèi)的斥赋。

gzip壓縮

大家有沒有遇到過某些網(wǎng)頁,不論你怎么轉(zhuǎn)碼都是一團(tuán)亂碼绢慢。
如果你遇到了灿渴,說明你還不知道目前許多web服務(wù)具有發(fā)送壓縮數(shù)據(jù)的能力洛波,這可以將網(wǎng)絡(luò)線路上傳輸?shù)拇罅繑?shù)據(jù)消減 60% 以上胰舆。尤其適用于 XML web 服務(wù),因?yàn)?XML 數(shù)據(jù)的壓縮率可以很高蹬挤。但是一般服務(wù)器不會(huì)為你發(fā)送壓縮數(shù)據(jù)缚窿,除非你告訴服務(wù)器你可以處理壓縮數(shù)據(jù)。

如果本文對你學(xué)習(xí)有所幫助-可以點(diǎn)贊??+ 關(guān)注 + 打賞焰扳!將持續(xù)更新更多新的文章倦零。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市吨悍,隨后出現(xiàn)的幾起案子扫茅,更是在濱河造成了極大的恐慌,老刑警劉巖育瓜,帶你破解...
    沈念sama閱讀 216,470評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件葫隙,死亡現(xiàn)場離奇詭異,居然都是意外死亡躏仇,警方通過查閱死者的電腦和手機(jī)恋脚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門腺办,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人糟描,你說我怎么就攤上這事怀喉。” “怎么了船响?”我有些...
    開封第一講書人閱讀 162,577評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵躬拢,是天一觀的道長。 經(jīng)常有香客問我灿意,道長估灿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,176評(píng)論 1 292
  • 正文 為了忘掉前任缤剧,我火速辦了婚禮馅袁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘荒辕。我一直安慰自己汗销,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評(píng)論 6 388
  • 文/花漫 我一把揭開白布抵窒。 她就那樣靜靜地躺著弛针,像睡著了一般。 火紅的嫁衣襯著肌膚如雪李皇。 梳的紋絲不亂的頭發(fā)上削茁,一...
    開封第一講書人閱讀 51,155評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音掉房,去河邊找鬼茧跋。 笑死,一個(gè)胖子當(dāng)著我的面吹牛卓囚,可吹牛的內(nèi)容都是我干的瘾杭。 我是一名探鬼主播,決...
    沈念sama閱讀 40,041評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼哪亿,長吁一口氣:“原來是場噩夢啊……” “哼粥烁!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蝇棉,我...
    開封第一講書人閱讀 38,903評(píng)論 0 274
  • 序言:老撾萬榮一對情侶失蹤讨阻,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后篡殷,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體钝吮,經(jīng)...
    沈念sama閱讀 45,319評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了搀绣。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片飞袋。...
    茶點(diǎn)故事閱讀 39,703評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖链患,靈堂內(nèi)的尸體忽然破棺而出巧鸭,到底是詐尸還是另有隱情,我是刑警寧澤麻捻,帶...
    沈念sama閱讀 35,417評(píng)論 5 343
  • 正文 年R本政府宣布纲仍,位于F島的核電站,受9級(jí)特大地震影響贸毕,放射性物質(zhì)發(fā)生泄漏郑叠。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評(píng)論 3 325
  • 文/蒙蒙 一明棍、第九天 我趴在偏房一處隱蔽的房頂上張望乡革。 院中可真熱鬧,春花似錦摊腋、人聲如沸沸版。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽视粮。三九已至,卻和暖如春橙凳,著一層夾襖步出監(jiān)牢的瞬間蕾殴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評(píng)論 1 269
  • 我被黑心中介騙來泰國打工岛啸, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留钓觉,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,711評(píng)論 2 368
  • 正文 我出身青樓值戳,卻偏偏與公主長得像议谷,于是被迫代替她去往敵國和親炉爆。 傳聞我的和親對象是個(gè)殘疾皇子堕虹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容