大二的時(shí)候剛開(kāi)始學(xué)的時(shí)候?qū)懙呐老x(chóng)绿语,突然翻出來(lái)再看的時(shí)候都忘了沼瘫,于是心血來(lái)潮打算記下來(lái):)
使用的庫(kù)也比較基礎(chǔ)桃熄,request和Beautifulsoup着茸,python 3
基本的bs4語(yǔ)法文章中沒(méi)有講到粤策,request略微提及樟澜,這個(gè)比較簡(jiǎn)單,用的都是基礎(chǔ)的叮盘,自學(xué)很快就能學(xué)會(huì)秩贰。
第一步:具體思路
首先,我們需要有模擬自己登陸把用戶名和密碼提交給網(wǎng)頁(yè)后臺(tái)柔吼,一般來(lái)說(shuō)提交的內(nèi)容可以是一個(gè)字典形式毒费,也可以是json形式的。這時(shí)候我們需要借助抓包軟件來(lái)獲取——到底需要上傳一個(gè)什么形式的字典愈魏,內(nèi)容除了用戶名和密碼還需要?jiǎng)e的嗎觅玻?
電子科大信息門戶首頁(yè)
如圖是電子科大信息門戶首頁(yè),輸入用戶名和密碼才能登陸成功培漏,我們知道request庫(kù)里面有一個(gè)post的方法溪厘,用來(lái)提交表單數(shù)據(jù)(網(wǎng)頁(yè)交互其實(shí)就是post數(shù)據(jù)和get數(shù)據(jù)的過(guò)程)然后學(xué)校服務(wù)器認(rèn)證成功就登陸完成了。
其次牌柄,我們?cè)诘卿洺晒缶托枰业揭粋€(gè)有我們需要數(shù)據(jù)的網(wǎng)址畸悬,例如我想爬取自己的所有學(xué)年的成績(jī)清單,http://eams.uestc.edu.cn/eams/teach/grade/course/person!historyCourseGrade.action對(duì)應(yīng)的是電子科大的所有成績(jī)網(wǎng)址(成績(jī)不好隱藏一下=珊佣。=)
該網(wǎng)址顯示的內(nèi)容
至此就只剩下爬取相應(yīng)內(nèi)容了
第二步:實(shí)現(xiàn)過(guò)程
真正動(dòng)手操作起來(lái)才能發(fā)現(xiàn)許多潛在的問(wèn)題
首先我們需要知道上傳的表單是什么樣的傻昙,這里提供兩種方法,去年自己用fiddler查看的彩扔,今年突然發(fā)現(xiàn)chorme自帶也可以妆档。
1.fidder
fiddler抓取的報(bào)文
第二種方法:chrome瀏覽器自帶
按下f12鍵彈出chrome的開(kāi)發(fā)者模式,點(diǎn)擊上面標(biāo)題欄的Network虫碉,然后先模擬登錄一遍
注意看這個(gè)login頁(yè)面對(duì)應(yīng)的下面有個(gè)form Data(表單數(shù)據(jù))贾惦,里面其實(shí)就是我們提交給網(wǎng)頁(yè)后天的信息。
通過(guò)多次比對(duì)發(fā)現(xiàn)除了用戶名username和密碼password,lt每一次登錄都在變化须板,而剩下的值都是固定不變的碰镜。
通過(guò)搜索lt,我發(fā)現(xiàn)了這個(gè)數(shù)據(jù)的具體含義习瑰,lt可以理解成每個(gè)需要登錄的用戶都有一個(gè)流水號(hào)绪颖。只有有了webflow發(fā)放的有效的流水號(hào),用戶才可以說(shuō)明是已經(jīng)進(jìn)入了webflow流程甜奄。否則柠横,沒(méi)有流水號(hào)的情況下,webflow會(huì)認(rèn)為用戶還沒(méi)有進(jìn)入webflow流程课兄,從而會(huì)重新進(jìn)入一次webflow流程牍氛,從而會(huì)重新出現(xiàn)登錄界面。因此我們需要想辦法保存登陸成功的cookie以便下次使用仍然能進(jìn)入系統(tǒng)烟阐。
request.session()可以讓同一個(gè)實(shí)例發(fā)出的請(qǐng)求具有相同的cookie搬俊。
操作過(guò)程:
1.準(zhǔn)備好登錄網(wǎng)址和成績(jī)爬取網(wǎng)址
2.獲取lt和準(zhǔn)備上傳的表單數(shù)據(jù)
我們?cè)诘卿浘W(wǎng)址頁(yè)面f12,crtl+f 搜索lt蜒茄,發(fā)現(xiàn)lt對(duì)應(yīng)在<input>中的value里面
用戶名和密碼填自己的即可
完成登錄部分
至此我們可以先print輸出一下
登陸成功
登陸成功唉擂,以及出現(xiàn)了筆者的名字。檀葛。源代碼等同于這個(gè)登陸成功的頁(yè)面
接下來(lái)直接登錄那個(gè)爬取成績(jī)的頁(yè)面就行了楔敌。但是出現(xiàn)了一個(gè)問(wèn)題。電子科大學(xué)校的網(wǎng)站經(jīng)常會(huì)有這種情況驻谆,就是如果多方登錄,就會(huì)有個(gè)彈窗頁(yè)面顯示重復(fù)登錄庆聘,這時(shí)候經(jīng)測(cè)試發(fā)現(xiàn)f5刷新頁(yè)面即可胜臊。
但是webdriver可以模擬操作,request庫(kù)最簡(jiǎn)單的方法就是重新get一遍該頁(yè)面伙判∠蠖裕【get兩次】
get兩次