30行代碼模擬登錄新版知乎(使用selenium)

一.簡述

爬蟲爬取數(shù)據(jù)時赴恨,有些數(shù)據(jù)并不能讓游客訪問到毫胜,這時候就需要進行登錄狂打,再爬取數(shù)據(jù)擂煞,登錄后再爬取的手段很多,但核心都是通過cookie的方式來記錄身份信息趴乡,因此模擬登錄的核心在于對cookie的使用对省。

二.登錄方法

目前我所知的登錄方法有兩種:

1.通過selenium進行瀏覽器模擬登錄(簡單粗暴)

2.通過分析登錄頁面,獲取登錄接口和提交表單進行登錄驗證

由于知乎改版后晾捏,登錄接口變的有些復雜蒿涎,加入動態(tài)js的方法,因此我采用selenium方式來登錄粟瞬,同時通過session記錄登錄后的cookies同仆,進一步對知乎內(nèi)的內(nèi)容進行爬取萤捆。

三.實現(xiàn)登錄

平臺:windows

工具:Python 2.7.14裙品,Chrome瀏覽器

首先用pip安裝好所需的模塊selenium,requests俗或,BeautifulSoup(網(wǎng)上有教程)市怎,然后下載好chromedriver,將其加入系統(tǒng)環(huán)境變量辛慰,或者直接放在python 安裝目錄下的scripts中区匠。

思路:用selenium打開chrome,通過程序自動輸入賬號密碼帅腌,有驗證碼則需手動填寫下驗證碼驰弄。等到成功登陸之后使用“get_cookies()”函數(shù)來調(diào)出它的Cookies,然后將cookies保存在requests.Session中速客,通過session繼續(xù)訪問登錄后的頁面戚篙。

代碼如下:


from selenium import webdriver

import requests

from time import sleep

from bs4 import BeautifulSoup

browser = webdriver.Chrome()

url= 'https://www.zhihu.com/'

s = requests.Session()

s.headers.clear()#清除requests頭部中的Python機器人信息,否則登錄失敗

browser.get(url)

browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[2]/div[2]/span').click()#避免屏幕失去焦點

browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[2]/div[1]/form/div[1]/div[2]/div[1]/input').send_keys('賬號')

browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[2]/div[1]/form/div[2]/div/div[1]/input').send_keys('密碼')

try:

  img = browser.find_element_by_xpath('//*    [@id="root"]/div/main/div/div/div/div[2]/div[1]/form/div[3]/div/div[2]/img')#驗證碼圖片鏈接--倒立文字

  sleep(10)

except:

  img= browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[2]/div[1]/form/div[3]/div/span/div/img').get_attribute("src")#驗證碼圖片鏈接--字母數(shù)字

  sleep(10)#填寫驗證碼

else:

  pass

browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[2]/div[1]/form/button').submit()#登錄

sleep(5)#等待Cookies加載

cookies = browser.get_cookies()

browser.quit()

for cookie in cookies:

  s.cookies.set(cookie['name'],cookie['value'])#為session設(shè)置cookies

html=s.get(url).text

soup = BeautifulSoup(html)

items = soup.find_all('a',attrs={'data-za-detail-view-element_name':"Title"})#獲取登錄后加載出的前幾個話題的標題

for item in items:

  print item.string

運行結(jié)果:


afsasdfas.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末溺职,一起剝皮案震驚了整個濱河市岔擂,隨后出現(xiàn)的幾起案子位喂,更是在濱河造成了極大的恐慌,老刑警劉巖乱灵,帶你破解...
    沈念sama閱讀 211,496評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件塑崖,死亡現(xiàn)場離奇詭異,居然都是意外死亡痛倚,警方通過查閱死者的電腦和手機规婆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,187評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蝉稳,“玉大人聋呢,你說我怎么就攤上這事〉咔” “怎么了削锰?”我有些...
    開封第一講書人閱讀 157,091評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長毕莱。 經(jīng)常有香客問我器贩,道長,這世上最難降的妖魔是什么朋截? 我笑而不...
    開封第一講書人閱讀 56,458評論 1 283
  • 正文 為了忘掉前任蛹稍,我火速辦了婚禮,結(jié)果婚禮上部服,老公的妹妹穿的比我還像新娘唆姐。我一直安慰自己,他們只是感情好廓八,可當我...
    茶點故事閱讀 65,542評論 6 385
  • 文/花漫 我一把揭開白布奉芦。 她就那樣靜靜地躺著,像睡著了一般剧蹂。 火紅的嫁衣襯著肌膚如雪声功。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,802評論 1 290
  • 那天宠叼,我揣著相機與錄音先巴,去河邊找鬼。 笑死冒冬,一個胖子當著我的面吹牛伸蚯,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播简烤,決...
    沈念sama閱讀 38,945評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼剂邮,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了乐埠?” 一聲冷哼從身側(cè)響起抗斤,我...
    開封第一講書人閱讀 37,709評論 0 266
  • 序言:老撾萬榮一對情侶失蹤囚企,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后瑞眼,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體龙宏,經(jīng)...
    沈念sama閱讀 44,158評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,502評論 2 327
  • 正文 我和宋清朗相戀三年伤疙,在試婚紗的時候發(fā)現(xiàn)自己被綠了银酗。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,637評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡徒像,死狀恐怖黍特,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情锯蛀,我是刑警寧澤灭衷,帶...
    沈念sama閱讀 34,300評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站旁涤,受9級特大地震影響翔曲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜劈愚,卻給世界環(huán)境...
    茶點故事閱讀 39,911評論 3 313
  • 文/蒙蒙 一瞳遍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧菌羽,春花似錦掠械、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,744評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至氓轰,卻和暖如春婚夫,著一層夾襖步出監(jiān)牢的瞬間浸卦,已是汗流浹背署鸡。 一陣腳步聲響...
    開封第一講書人閱讀 31,982評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留限嫌,地道東北人靴庆。 一個月前我還...
    沈念sama閱讀 46,344評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像怒医,于是被迫代替她去往敵國和親炉抒。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,500評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 模擬登錄知乎 這幾天在研究模擬登錄稚叹, 以知乎 - 與世界分享你的知識焰薄、經(jīng)驗和見解為例拿诸。實現(xiàn)過程遇到不少疑問,借鑒了...
    sunhaiyu閱讀 27,124評論 51 115
  • 前言:最近看到公眾號python之禪里面的歷史文章塞茅,模擬登錄知乎亩码,又看到很多人在網(wǎng)上嘗試寫代碼,自己也想試試野瘦,最新...
    j4fan閱讀 645評論 0 2
  • (文/冉清韞) 擺渡靈魂描沟,擺渡即愛 趙吏死了。 在經(jīng)歷了一系列真真假假的變化之后鞭光,為了大義吏廉,他死在了所愛之人的...
    QSQN編輯部閱讀 573評論 0 0
  • I: 人人都喜歡笑臉,因為別人的笑會讓自己放松惰许,我想這應該就是”大腦偏愛笑臉“的表現(xiàn)吧席覆。走在人群中,如果看到一個迎...
    熊媽侯蕾閱讀 228評論 1 0
  • 1;背景介紹 Java 8 (又稱為 jdk 1.8) 是Java 語言開發(fā)的一個主要版本汹买。Oracle 公司于 ...
    hahahehe123閱讀 545評論 0 0