前言
av8d大家好鴿了幾個(gè)月的我又回來了疆前!
在上一篇用Python查詢成績|(一)網(wǎng)絡(luò)爬蟲基礎(chǔ)知識中我大概的講了一下網(wǎng)絡(luò)爬蟲的基礎(chǔ)知識,這一篇就有干貨了啊禽翼,直接開始模擬登錄教務(wù)網(wǎng)捍壤。
本篇內(nèi)容
- 1续誉, 用 Python 模擬登錄教務(wù)網(wǎng)
- 2哲银, 獲取成績
以下代碼均可以在我的 Github 上找到:
https://github.com/DuChuan19/NkemisScoreSpider
免責(zé)聲明:本文僅供學(xué)習(xí)交流扛吞,如出現(xiàn)任何法律問題本人概不負(fù)責(zé)!
用 Python 模擬登錄教務(wù)網(wǎng)
整體思路
1荆责,向登錄界面發(fā)送登錄請求滥比,POST 一系列參數(shù),包括賬號做院、密碼等盲泛,獲得響應(yīng),提取一些關(guān)鍵參數(shù)
2山憨,得到參數(shù)重新發(fā)送登錄請求查乒,POST 參數(shù)之后即可登錄
第一次向登錄界面發(fā)送請求
第一次向登陸頁面發(fā)送請求弥喉,是為了看看需要 POST 哪些參數(shù)郁竟,光提交賬號密碼是肯定不行的。
這里可以看除了賬號密碼還有另外的四個(gè)參數(shù)由境,分別是__VIEWSTATE
棚亩、__VIEWSTATEGENERATOR
和ImageButton1.x
蓖议、ImageButton1.y
,前兩個(gè)經(jīng)過分析可以在登錄頁面找到
我們可以通過 requests 的 get 方法得到
后面兩個(gè)應(yīng)該是登錄按鈕的位置
然后可以通過以下代碼來得到需要的參數(shù)讥蟆,賬號密碼可以手動輸入
def post_data(self):
"""
獲取用戶登錄時(shí)需要提交的數(shù)據(jù)
:return: data
"""
try:
html = requests.get(self.SYSTEMLOGIN_URL, headers=self.random_header())
bsObj = BeautifulSoup(html.text, 'lxml')
__VIEWSTATE = bsObj.find('input').attrs['value']
__VIEWSTATEGENERATOR = bsObj.find('input', id='__VIEWSTATEGENERATOR').attrs['value']
data = {
"__VIEWSTATE": __VIEWSTATE,
"__EVENTVALIDATION": __VIEWSTATEGENERATOR,
"txtUserID": self.textUserID,
"txtPasswd": self.textPasswd,
"ImageButton1.x": 1,
"ImageButton1.y": 1
}
return data
第二次向登錄界面發(fā)送請求
這次請求需要包含以上獲得的參數(shù)勒虾,不然沒法得到正確的響應(yīng)
直接來看代碼:
session = requests.session()
session.post(self.SYSTEMLOGIN_URL, data=self.post_data())
關(guān)于 session 的詳細(xì)說明以及用法,可以訪問官方文檔進(jìn)行查看
這里我大概的說一下
requests 庫的 session 對象能夠幫我們跨請求保持某些參數(shù)瘸彤,也會在同一個(gè) session 實(shí)例發(fā)出的所有請求之間保持cookies
所以我們發(fā)送了帶有登錄參數(shù)的數(shù)據(jù)修然,如果參數(shù)正確,就能登錄成功了
獲取成績
成功登錄教務(wù)網(wǎng)之后质况,接下來便是獲取成績了
我們需要獲取的數(shù)據(jù)只有兩個(gè)愕宋,課程標(biāo)題以及對應(yīng)的總評成績
這里有兩種方法,一種是通過正則表達(dá)式來獲取结榄,另一種是用 pandas 庫
用正則表達(dá)式來獲取成績
可以看到中贝,課程名稱和總評成績都包含在 tr 標(biāo)簽下
為了方便看,我把課程名稱和總評成績分開寫
# 課程標(biāo)題
title_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>(.*?)</a>', re.S)
title_items = re.findall(title_pattern, res.text)
# 每科對應(yīng)總成績
score_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>.*?</a>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>(.*?)<td>',re.S)
score_items = re.findall(score_pattern, res.text)
下面是登錄和獲取成績的完整代碼:
def get_score(self):
"""
登錄教務(wù)網(wǎng)并且獲取課程標(biāo)題以及對應(yīng)的成績
:return:
"""
# Login
session = requests.session()
session.post(self.SYSTEMLOGIN_URL, data=self.post_data())
# Get score
res = session.get(url=self.SCOREQUERY_URL)
# 課程標(biāo)題
title_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>(.*?)</a>', re.S)
title_items = re.findall(title_pattern, res.text)
# 每科對應(yīng)總成績
score_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>.*?</a>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>(.*?)<td>',re.S)
score_items = re.findall(score_pattern, res.text)
# 將數(shù)據(jù)保存為字典格式
for title, score in zip(title_items, score_items):
self.ITEMS.append({
'title': title.replace('\r', '').replace('\t', '').replace('\n', ''),
'score': score.replace('</td>', '')
})
我們將獲取到的數(shù)據(jù)保存為字典格式臼朗,以便后面入庫
運(yùn)行一下邻寿,成功得到了課程名稱和總評成績(學(xué)渣一枚,成績太差了视哑,見笑)
下面是完整代碼:
# -*-coding:utf8-*-
import re
import random
import pandas
import pymysql
import requests
from bs4 import BeautifulSoup
class Nkemis_helper(object):
def __init__(self, textUserID, textPasswd):
"""
Nkemis Helper
:param textUserID: 學(xué)號
:param textPasswd: 密碼
"""
self.textUserID = textUserID
self.textPasswd = textPasswd
self.SYSTEMLOGIN_URL = 'http://222.30.63.15/NKEMIS/SystemLogin.aspx'
self.SCOREQUERY_URL = "http://222.30.63.15/nkemis/Student/ScoreQuery.aspx"
self.ITEMS = [] # 存放課程標(biāo)題以及對應(yīng)的成績
def random_header(self):
"""
隨機(jī)選取一個(gè) User-Agent
:return: random header
"""
USERAGENT_LIST = [
"Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1",
"Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1)",
"Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11",
"Mozilla/5.0(Macintosh;IntelMacOSX10_7_0)AppleWebKit/535.11(KHTML,likeGecko)Chrome/17.0.963.56Safari/535.11",
"Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1)",
"Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Trident/4.0;SE2.XMetaSr1.0;SE2.XMetaSr1.0;.NETCLR2.0.50727;SE2.XMetaSr1.0)",
]
return {"User-Agent": random.choice(USERAGENT_LIST)}
def post_data(self):
"""
獲取用戶登錄時(shí)需要提交的數(shù)據(jù)
:return:
"""
try:
html = requests.get(self.SYSTEMLOGIN_URL, headers=self.random_header())
bsObj = BeautifulSoup(html.text, 'lxml')
__VIEWSTATE = bsObj.find('input').attrs['value']
__VIEWSTATEGENERATOR = bsObj.find('input', id='__VIEWSTATEGENERATOR').attrs['value']
data = {
"__VIEWSTATE": __VIEWSTATE,
"__EVENTVALIDATION": __VIEWSTATEGENERATOR,
"txtUserID": self.textUserID,
"txtPasswd": self.textPasswd,
"ImageButton1.x": 1,
"ImageButton1.y": 1
}
return data
except:
print('網(wǎng)絡(luò)未連接, 請查看網(wǎng)絡(luò)')
def get_score(self):
"""
登錄教務(wù)網(wǎng)并且獲取課程標(biāo)題以及對應(yīng)的成績
:return:
"""
# Login
session = requests.session()
session.post(self.SYSTEMLOGIN_URL, data=self.post_data())
# Get score
res = session.get(url=self.SCOREQUERY_URL)
# 課程標(biāo)題
title_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>(.*?)</a>', re.S)
title_items = re.findall(title_pattern, res.text)
# 每科對應(yīng)總成績
score_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>.*?</a>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>(.*?)<td>',re.S)
score_items = re.findall(score_pattern, res.text)
# 將數(shù)據(jù)保存為字典格式
for title, score in zip(title_items, score_items):
self.ITEMS.append({
'title': title.replace('\r', '').replace('\t', '').replace('\n', ''),
'score': score.replace('</td>', '')
})
print(self.ITEMS)
def save_to_mysql(self):
# connect mysql
db = pymysql.connect("localhost", "root", "toor", "db_nkemis")
cursor = db.cursor()
# 以學(xué)號作為表名創(chuàng)建表
try:
CREATE_TABLE_SQL = "CREATE TABLE student_%s (title varchar(255), score varchar(255))" % self.textUserID
cursor.execute(CREATE_TABLE_SQL)
db.commit()
except:
db.rollback()
# 將學(xué)生成績存進(jìn)數(shù)據(jù)庫
for item in self.ITEMS:
INSERT_SQL = "INSERT INTO student_%s (title, score) VALUES ('%s', '%s')" % (self.textUserID, item['title'], item['score'])
cursor.execute(INSERT_SQL)
db.commit()
db.close()
if __name__ == '__main__':
textUserID = input("學(xué)號: ")
textPasswd = input("密碼: ")
helper = Nkemis_helper(textUserID, textPasswd)
helper.get_score()
helper.save_to_mysql()
爬取數(shù)據(jù)下來之后入庫:
用 pandas 來獲取成績
我們可以看到绣否,無論是課程名稱還是成績,都是包含在一個(gè) table 里黎炉,用 pandas 就可以很方便快速的提取這個(gè) table
下面是完整代碼:
# -*-coding:utf8-*-
import re
import random
import pandas
import pymysql
import requests
from bs4 import BeautifulSoup
html = requests.get('http://222.30.63.15/NKEMIS/SystemLogin.aspx')
bsObj = BeautifulSoup(html.text, 'lxml')
__VIEWSTATE = bsObj.find('input').attrs['value']
__VIEWSTATEGENERATOR = bsObj.find('input', id='__VIEWSTATEGENERATOR').attrs['value']
data = {
"__VIEWSTATE": __VIEWSTATE,
"__EVENTVALIDATION": __VIEWSTATEGENERATOR,
"txtUserID": 學(xué)號,
"txtPasswd": 密碼,
"ImageButton1.x": 1,
"ImageButton1.y": 1
}
session = requests.session()
session.post('http://222.30.63.15/NKEMIS/SystemLogin.aspx', data=data)
res = session.get(url='http://222.30.63.15/nkemis/Student/ScoreQuery.aspx')
bsObj = BeautifulSoup(res.text, 'lxml')
dfs = pandas.read_html(bsObj.select_one('table.dgrdglobal').prettify())
df = pandas.DataFrame(dfs[0]).drop([1,2,3,4,7,9,8,12], axis=1)
總結(jié)
這人太懶了枝秤,沒有寫總結(jié)。
偷偷BB一句慷嗜,這個(gè)爬蟲拿去參加了計(jì)算機(jī)系的多媒體大賽淀弹,混到了個(gè)獎狀 :)
(叉會兒腰)