爬蟲:7.反反爬蟲

反反爬蟲

通常通過如下方法來進行反爬蟲

  1. 檢查User-Agent
  2. 驗證碼
  3. 一個IP訪問的頻次或總的訪問次數(shù)
  4. cookie有效時間
  5. 數(shù)據(jù)存儲為圖片格式

應(yīng)對方法:

  1. 隨機UA
# -*- coding:utf-8 -*-

"""
File Name : 'random_ua'.py
Description:
Author: 'chengwei'
Date: '2016/5/13' '16:31'
"""
import sys
import random

# reload(sys)
# sys.setdefaultencoding('utf-8')

def example():
    print random_chose()


def random_chose():
    """
    隨機返回列表中的UA
    :return:
    """
    user_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0',
                   'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0',
                   'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+  (KHTML, like Gecko) Element Browser 5.0',
                   'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)',
                   'Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14',
                   'Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5355d Safari/8536.25',
                   'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1468.0 Safari/537.36',
                   'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)',
                   'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36',
                   'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36',
                   'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',
                   'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'
    ]

    user_agent = random.choice(user_agents)
    ua = {'User-Agent': user_agent}
    return ua


if __name__ == '__main__':
    example()
  1. 驗證碼擒滑,使用opencv進行預(yù)先處理,再通過Tesseract-OCR識別虏等,當(dāng)然如果針對特定的驗證碼進行人工訓(xùn)練,效果更好丧蘸。驗證碼部分請參考爬蟲:8.驗證碼識別部分乾蛤。

  2. 一個IP的訪問頻次或者總的次數(shù)蝗敢,需要大量的代理IP。
    后面會用go實現(xiàn)一個動態(tài)IP声搁,對外開放一個IP黑竞,此IP將請求轉(zhuǎn)發(fā)到后臺的代理IP去執(zhí)行請求。

  3. cookie有效時間經(jīng)常針對賬號和IP疏旨,常用的解決辦法是建立賬號對應(yīng)的cookie池很魂,并自動更新,隨機使用cookie檐涝,一旦無效就進行更新或者排除遏匆,排除是因為某些情況一個賬號一天只允許特定次數(shù)的請求。

  4. 有的網(wǎng)站將部分?jǐn)?shù)據(jù)以圖片格式存儲骤铃,那么我們又需要應(yīng)用OCR技術(shù)拉岁。
    提供OCR接口的公司很多,微軟的牛津計劃中就有很方便的OCR接口惰爬,而且每個月的免費次數(shù)不少喊暖,一般情況夠用。
    附牛津計劃地址:https://www.azure.cn/cognitive-services

歡迎補充撕瞧!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末陵叽,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子丛版,更是在濱河造成了極大的恐慌巩掺,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件页畦,死亡現(xiàn)場離奇詭異胖替,居然都是意外死亡,警方通過查閱死者的電腦和手機豫缨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進店門独令,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人好芭,你說我怎么就攤上這事燃箭。” “怎么了舍败?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵招狸,是天一觀的道長敬拓。 經(jīng)常有香客問我,道長裙戏,這世上最難降的妖魔是什么乘凸? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮挽懦,結(jié)果婚禮上翰意,老公的妹妹穿的比我還像新娘木人。我一直安慰自己信柿,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布醒第。 她就那樣靜靜地躺著渔嚷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪稠曼。 梳的紋絲不亂的頭發(fā)上形病,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天,我揣著相機與錄音霞幅,去河邊找鬼漠吻。 笑死,一個胖子當(dāng)著我的面吹牛司恳,可吹牛的內(nèi)容都是我干的途乃。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼扔傅,長吁一口氣:“原來是場噩夢啊……” “哼耍共!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起猎塞,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤试读,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后荠耽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體钩骇,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年铝量,在試婚紗的時候發(fā)現(xiàn)自己被綠了倘屹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡款违,死狀恐怖唐瀑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情插爹,我是刑警寧澤哄辣,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布请梢,位于F島的核電站,受9級特大地震影響力穗,放射性物質(zhì)發(fā)生泄漏毅弧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一当窗、第九天 我趴在偏房一處隱蔽的房頂上張望够坐。 院中可真熱鬧,春花似錦崖面、人聲如沸元咙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽庶香。三九已至,卻和暖如春简识,著一層夾襖步出監(jiān)牢的瞬間赶掖,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工七扰, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留奢赂,地道東北人。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓颈走,卻偏偏與公主長得像膳灶,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子疫鹊,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容