Python爬蟲基礎-模擬登陸

為什么我們要讓爬蟲模擬登陸呢旨指?

  1. 有些內(nèi)容只有登陸才能進行爬取宏侍,如知乎,不登錄的主頁只能看到注冊和登陸 医增;
  2. 你想爬取自己的個人信息

有什么方法呢慎皱?

  1. cookie
    在互聯(lián)網(wǎng)發(fā)展的早期,由于大家的服務器都不是太好叶骨,所以服務端不會記住你的個人信息茫多,這會增加服務器的壓力。因此早期的連接都是一次性的忽刽,服務器在不會記得你什么時候來過天揖,也不知道你做了什么。但是隨著服務器的升級換代跪帝,淘寶這類網(wǎng)站需要記住你的個人信息今膊,這樣你下次訪問的時候可以繼續(xù)上次的工作。但是http協(xié)議依舊保持了無狀態(tài)的特性伞剑,cookies應運而生斑唬。cookies在訪問服務器后會記錄在瀏覽器上,這樣就可以在客戶端下次訪問的時候想起它是誰了黎泣。

  2. HTTP持久連接
    在沒有持久連接之前恕刘,為獲取每一個URL指定的資源都必須建立一個獨立額TCP連接,一方面加重了HTTP服務器的負擔抒倚;另一方面由于服務器不會記住客服端褐着,導致我們需要每一個請求都要執(zhí)行登錄操作。但是有了HTTP持久連接后托呕,我們對同一個主機的多次請求會使用同一個TCP連接献起。因此登錄后就可以保持這類狀態(tài)進行請求操作。

實現(xiàn)方法镣陕!

針對方法1谴餐,我們只要從在瀏覽器獲取cookie,然后帶著cookie進行訪問就行了呆抑,如下:

  1. 利用chrome的開發(fā)者工具獲取cookies


    獲取cookies
  2. 填寫cookies cookies = {'cookie':'紅框部分'}

  3. 帶cookies發(fā)起請求:html = requests.get(url,cookies=cookies).content

針對方法2岂嗓,我們使用requests的Session類進行持久連接,就直接上代碼了哦

#導入必要的庫
import requests
from bs4 import BeautifulSoup
url = 'https://www.zhihu.com/#signin'
session = requests.Session() #實例化Session
wb_data = session.get(url).text
soup = BeautifulSoup(wb_data,'lxml')
# 填寫登錄表單
xsrf = soup.select('input[value]')[-1].get('value')
data = {
    '_xsrf': xsrf,
    'password': 'your password',
    'remember_me': 'true',
    'email': 'your email'
}
# 提交表單
log_post =session.post('http://www.zhihu.com/login/email', data=data)
url = 'https://www.zhihu.com/'
test = session.get(url)
wb_data = BeautifulSoup(test.text, 'lxml')
# 檢驗是否成功登錄
wb_data.select('#feed-0 > div.feed-item-inner > div.feed-main > div.feed-content > h2 > a')

結(jié)語

HTTP持久鏈接和Cookies其實沒有沖突鹊碍,雖然我說是兩種方法厌殉,但是你可以在使用cookies免提交表單登陸的時使用Session食绿,這樣只需要第一次get的時候帶上cookies,剩余操作就不需要cookies了公罕。
但是我使用cookies發(fā)現(xiàn)還是不能變成登陸狀態(tài)器紧,我也是很憂傷。但是你可以在模擬登陸后楼眷,然后取得cookies信息铲汪,用獲得的cookies登陸,不過這就失去用cookie免登陸的價值了罐柳。


當我用jupyter notebook發(fā)現(xiàn)無法使用cookie讓服務器認識我掌腰,當我用命令行時候,同樣的代碼反而沒有問題张吉,我無奈了齿梁。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市肮蛹,隨后出現(xiàn)的幾起案子勺择,更是在濱河造成了極大的恐慌,老刑警劉巖伦忠,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件省核,死亡現(xiàn)場離奇詭異,居然都是意外死亡缓苛,警方通過查閱死者的電腦和手機芳撒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來未桥,“玉大人笔刹,你說我怎么就攤上這事《ⅲ” “怎么了舌菜?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長亦镶。 經(jīng)常有香客問我日月,道長,這世上最難降的妖魔是什么缤骨? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任爱咬,我火速辦了婚禮,結(jié)果婚禮上绊起,老公的妹妹穿的比我還像新娘精拟。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布蜂绎。 她就那樣靜靜地躺著栅表,像睡著了一般。 火紅的嫁衣襯著肌膚如雪师枣。 梳的紋絲不亂的頭發(fā)上怪瓶,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天,我揣著相機與錄音践美,去河邊找鬼洗贰。 笑死,一個胖子當著我的面吹牛拨脉,可吹牛的內(nèi)容都是我干的哆姻。 我是一名探鬼主播宣增,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼玫膀,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了爹脾?” 一聲冷哼從身側(cè)響起帖旨,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎灵妨,沒想到半個月后解阅,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡泌霍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年货抄,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片朱转。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡蟹地,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出藤为,到底是詐尸還是另有隱情怪与,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布缅疟,位于F島的核電站分别,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏存淫。R本人自食惡果不足惜耘斩,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望桅咆。 院中可真熱鬧括授,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至曲管,卻和暖如春却邓,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背院水。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工腊徙, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人檬某。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓撬腾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親恢恼。 傳聞我的和親對象是個殘疾皇子民傻,可洞房花燭夜當晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn)场斑,斷路器漓踢,智...
    卡卡羅2017閱讀 134,671評論 18 139
  • HTTP cookie(也稱為web cookie,網(wǎng)絡cookie,瀏覽器cookie或者簡稱cookie)是網(wǎng)...
    留七七閱讀 17,971評論 2 71
  • 一、概念(載錄于:http://www.cnblogs.com/EricaMIN1987_IT/p/3837436...
    yuantao123434閱讀 8,359評論 6 152
  • http協(xié)議有http0.9漏隐,http1.0喧半,http1.1和http2三個版本,但是現(xiàn)在瀏覽器使用的是htt...
    一現(xiàn)_閱讀 1,865評論 0 3
  • 1青责、他們在一起很久了挺据,她愛他,可是他卻一直不提結(jié)婚脖隶。家里人催婚了扁耐,她的年紀也耗不起。有一天她對她說:我要結(jié)婚了浩村。他...
    余小頭閱讀 479評論 0 0