python爬蟲入門之模擬登陸新浪微博

很多網(wǎng)頁瀏覽都需要首先登陸,比如說新浪微博锄贷。當(dāng)然译蒂,這里有一個(gè)小技巧,用手機(jī)3G版登陸谊却。電腦版會(huì)有各種加密柔昼,動(dòng)態(tài)加載什么的。我們就耍一下小流氓炎辨,柿子揀軟的捏么岳锁。

瀏覽器保持登陸是利用我們登陸時(shí)收到的cookies,發(fā)送給網(wǎng)站蹦魔,這樣網(wǎng)站就知道用戶已經(jīng)登陸過來激率。我們的思路是這樣:首先提交賬號密碼登陸,接受cookies勿决,然后才開始瀏覽微博乒躺。

但是很多網(wǎng)站不僅需要提交賬號密碼,為了防止爬蟲低缩,他們會(huì)在登錄頁面源代碼里生成一些隨機(jī)數(shù)據(jù)嘉冒,瀏覽器會(huì)自動(dòng)處理,post出去咆繁。所以我們也要找到它們讳推。

這是我們的步驟:第一步要找出我們需要提交的數(shù)據(jù),第二步在登錄頁面的網(wǎng)頁代碼里Ctrl +F尋找那些數(shù)據(jù)玩般,第三步開始寫代碼银觅,利用requests.get(登錄頁面),抓取代碼坏为,re正則表達(dá)式提取出來究驴,組成列表镊绪。第四步登陸,獲取cookies洒忧。第五步開始抓取微博蝴韭。

第一步:找出瀏覽器發(fā)送的數(shù)據(jù)

1,我們打開登陸網(wǎng)頁: https://login.weibo.cn/login/

2熙侍,右鍵單擊榄鉴,查看元素,點(diǎn)擊控制臺(tái)蛉抓,網(wǎng)絡(luò)庆尘。

3,右鍵單擊芝雪,查看源代碼。(為了找到發(fā)送數(shù)據(jù)后回來看這些數(shù)據(jù)在源代碼的位置)

4综苔,填寫賬號密碼惩系,點(diǎn)擊登陸。我們可以看見如筛,瀏覽器發(fā)送了一個(gè)POST堡牡,我們點(diǎn)開看看

5,我們分析一下杨刨,可以看到晤柄,POST的請求網(wǎng)址不是原來的,即我們要提交數(shù)據(jù)的url妖胀。這是一個(gè)我們需要找的芥颈。

還有表單提交的內(nèi)容:

vk,tryCount赚抡,submit爬坑,remember,password_8439涂臣,mobile盾计,backURL,backTitle這幾項(xiàng)赁遗。我們需要找的是vk署辉,password_8439就行了。

第二步在登錄頁面的網(wǎng)頁代碼里Ctrl +F尋找那些數(shù)據(jù)


我們分別搜索rand岩四,vk哭尝,password關(guān)鍵詞,找到它們的位置剖煌,發(fā)現(xiàn)數(shù)值確實(shí)和發(fā)送的數(shù)值一致刚夺。

第三步requests.get(登錄頁面)献丑,抓取代碼,re正則表達(dá)式提取

第四步獲取cookies

cookie=requests.session().post(new_url,data=data).cookies

第五步抓取微博


代碼如下

#-*-coding:utf8-*-

import requests

from lxml import etree

import re

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

#防止編碼錯(cuò)誤

url_login = 'https://login.weibo.cn/login/'

html = requests.get(url_login).content

selector = etree.HTML(html)

password = selector.xpath('//input[@type="password"]/@name')[0]

vk = selector.xpath('//input[@name="vk"]/@value')[0]

action = selector.xpath('//form[@method="post"]/@action')[0]

print action

print password

print vk

print" ************* "

newurl = url_login + action

data={

? ?'mobile' : '登陸賬號',

? ?password : '登陸密碼',

? ?'remember' : 'on',

? ?'backURL' : 'http://weibo.cn/',

? ?'backTitle' : u'手機(jī)新浪網(wǎng)',

? ?'tryCount' : '',

? ?'vk' : vk,

? ?'submit' : u'登錄'

}


headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36'}

cookie=requests.session().post(newurl,data=data侠姑,headers=headers).cookies

print cookie


page = []

for i in range(1,21):

? ?newpage = 'http://weibo.cn/greatanny?page=' + str(i)

? ?page.append(newpage)

for url in page:

? ?html = requests.get(url,cookies = cookie,headers=headers).content

? ?selector = etree.HTML(html)

? ?content = selector.xpath('//span[@class="ctt"]')

? ?for each in content:

? ? ? ?text = each.xpath('string(.)')

? ? ? ?print text

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末创橄,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子莽红,更是在濱河造成了極大的恐慌妥畏,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件安吁,死亡現(xiàn)場離奇詭異醉蚁,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)鬼店,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門网棍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人妇智,你說我怎么就攤上這事滥玷。” “怎么了巍棱?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵惑畴,是天一觀的道長。 經(jīng)常有香客問我航徙,道長如贷,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任到踏,我火速辦了婚禮杠袱,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘窝稿。我一直安慰自己霞掺,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布讹躯。 她就那樣靜靜地躺著菩彬,像睡著了一般。 火紅的嫁衣襯著肌膚如雪潮梯。 梳的紋絲不亂的頭發(fā)上骗灶,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天,我揣著相機(jī)與錄音秉馏,去河邊找鬼耙旦。 笑死,一個(gè)胖子當(dāng)著我的面吹牛萝究,可吹牛的內(nèi)容都是我干的免都。 我是一名探鬼主播锉罐,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼绕娘!你這毒婦竟也來了脓规?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤险领,失蹤者是張志新(化名)和其女友劉穎侨舆,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绢陌,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡挨下,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了脐湾。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片臭笆。...
    茶點(diǎn)故事閱讀 38,161評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖秤掌,靈堂內(nèi)的尸體忽然破棺而出愁铺,到底是詐尸還是另有隱情,我是刑警寧澤机杜,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布帜讲,位于F島的核電站衅谷,受9級特大地震影響椒拗,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜获黔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一蚀苛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧玷氏,春花似錦堵未、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至赞辩,卻和暖如春雌芽,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背辨嗽。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工世落, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人糟需。 一個(gè)月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓屉佳,卻偏偏與公主長得像谷朝,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子武花,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容