Python數(shù)據(jù)采集4

反反爬手段

偽裝瀏覽器

1.定義頭部信息中的User-Agent级零,Referer

2.urllib中使用Request(url,headers)構(gòu)造方法構(gòu)造請求對象

2.requests中將頭部信息賦值給get/post()方法的headers參數(shù)

通過驗(yàn)證碼

肉眼打碼

使用cookie繞過用戶名、密碼、驗(yàn)證碼

1.定義Session對象:s = requests.Session()

2.使用Session對象向服務(wù)器發(fā)送請求:response= s.get(url)

知識點(diǎn):Session是客戶端向服務(wù)器一次請求的對話页慷,在服務(wù)器端會對客戶端進(jìn)行身份登記(s_id)肖爵,同時服務(wù)端會向客戶端發(fā)送cookie(客戶端的身份信息),客戶端第二次向服務(wù)端發(fā)送請求時可通過cookie繞過用戶名美旧、密碼及驗(yàn)證的認(rèn)證鼎文。

將驗(yàn)證碼圖片保存渔肩,通過人為識別

自動打碼

使用pytesseract第三方庫

準(zhǔn)備:

1.下載并安裝 tesseract

https://digi.bib.uni-mannheim.de/tesseract/

2.安裝第三方庫:Pillow,pytesseract

3.找到pytesseract庫文件夾中的pytesseract.py

修改:tesseract_cmd = r"tesseract安裝路徑\tesseract"

步驟

1.導(dǎo)入模塊:

import pytesseract

from PIL import Image

2.使用Image中的open方法打開外部存儲的驗(yàn)證碼圖片

img = Image.open("驗(yàn)證碼圖片路徑")

3.使用pytesseract中的image_to_string()方法對圖片進(jìn)行識別

res = pytesseract.image_to_string(img)

ip代理

代理ip:計(jì)算機(jī)訪問互聯(lián)網(wǎng)需要有唯一的ip,通過ip向服務(wù)器發(fā)送請求拇惋,服務(wù)器通過ip可以識別訪問者的信息周偎,可以通過更換ip(設(shè)置代理ip)來改變訪問者信息。

獲取代理ip

西刺代理撑帖、快代理.....

驗(yàn)證ip:花刺代理軟件

使用步驟

1.定義ip代理池

proxy={“http/https”: “ip:port”,......}

2.在requests中g(shù)et/post()方法的proxies參數(shù)蓉坎,設(shè)置其參數(shù)值為ip代理池proxy

response = requests.get(url,headers,params,data,cookies,proxies=proxy)

js混淆和渲染

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市胡嘿,隨后出現(xiàn)的幾起案子蛉艾,更是在濱河造成了極大的恐慌,老刑警劉巖灶平,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件伺通,死亡現(xiàn)場離奇詭異,居然都是意外死亡逢享,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進(jìn)店門吴藻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瞒爬,“玉大人,你說我怎么就攤上這事沟堡〔嗟” “怎么了?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵航罗,是天一觀的道長禀横。 經(jīng)常有香客問我,道長粥血,這世上最難降的妖魔是什么柏锄? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮复亏,結(jié)果婚禮上趾娃,老公的妹妹穿的比我還像新娘。我一直安慰自己缔御,他們只是感情好抬闷,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著耕突,像睡著了一般笤成。 火紅的嫁衣襯著肌膚如雪评架。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天炕泳,我揣著相機(jī)與錄音纵诞,去河邊找鬼。 笑死喊崖,一個胖子當(dāng)著我的面吹牛挣磨,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播荤懂,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼茁裙,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了节仿?” 一聲冷哼從身側(cè)響起晤锥,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎廊宪,沒想到半個月后矾瘾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡箭启,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年壕翩,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片傅寡。...
    茶點(diǎn)故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡放妈,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出荐操,到底是詐尸還是另有隱情芜抒,我是刑警寧澤,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布托启,位于F島的核電站宅倒,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏屯耸。R本人自食惡果不足惜拐迁,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望肩民。 院中可真熱鬧唠亚,春花似錦、人聲如沸持痰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至割卖,卻和暖如春前酿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鹏溯。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工罢维, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人丙挽。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓肺孵,卻偏偏與公主長得像,于是被迫代替她去往敵國和親颜阐。 傳聞我的和親對象是個殘疾皇子平窘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內(nèi)容

  • 爬蟲的基礎(chǔ)知識 爬蟲的定義 只要是瀏覽器可以做的事情,原則上凳怨,爬蟲都可以幫助我們做瑰艘,即:瀏覽器不能夠做到的,爬蟲也...
    jxvl假裝閱讀 937評論 0 1
  • 1 爬蟲高級 1.1 動態(tài)HTML處理和機(jī)器圖像識別 爬蟲(Spider)肤舞,反爬蟲(Anti-Spider)紫新,反反...
    創(chuàng)造new_world閱讀 406評論 0 0
  • 轉(zhuǎn)自:https://weibo.com/ttarticle/p/show?id=2309404129469920...
    xpf2000閱讀 4,718評論 0 48
  • 20個屬于我常用工具的Python庫 Requests.Kenneth Reitz寫的最富盛名的http庫。每個P...
    飛吧_5966閱讀 1,929評論 0 1
  • 表情是什么李剖,我認(rèn)為表情就是表現(xiàn)出來的情緒芒率。表情可以傳達(dá)很多信息。高興了當(dāng)然就笑了篙顺,難過就哭了敲董。兩者是相互影響密不可...
    Persistenc_6aea閱讀 124,553評論 2 7