Python爬蟲(chóng)入門(mén)例題:抓取排辏客網(wǎng)題目

最近做題的時(shí)候要寫(xiě)一些題解炉媒,在把牛客網(wǎng)的題目復(fù)制下來(lái)的時(shí)候昆烁,數(shù)學(xué)公式的處理比較麻煩吊骤,所以我用Python的selenium、urllib.request和BeautifulSoup4庫(kù)對(duì)題目信息進(jìn)行了爬取静尼,寫(xiě)題解的時(shí)候時(shí)間節(jié)約了很多白粉。

2. 前期準(zhǔn)備

安裝selenium、urllib和BeautifulSoup庫(kù)鼠渺。

pip3 install urllib

pip3 install selenium

pip3 install beautifulsoup4

3. 獲取網(wǎng)頁(yè)內(nèi)容

以?叛及停客網(wǎng) NC204552 咪咪游戲?為例。

# 導(dǎo)入庫(kù)

import urllib.request

import bs4

import time

from bs4 import BeautifulSoup

from selenium import webdriver

# 題目屬性

problemId = "204552"

# 打開(kāi)瀏覽器拦盹,模擬登陸

# 此處用的是Chrome鹃祖,如果沒(méi)有安裝可以替換為其他支持的瀏覽器

driver = webdriver.Chrome()

獲取網(wǎng)頁(yè)內(nèi)容

# 獲取頁(yè)面內(nèi)容

# 題目鏈接

url = f"https://ac.nowcoder.com/acm/problem/{problemId}"

# 打開(kāi)網(wǎng)頁(yè)

driver.get(url)

# 網(wǎng)頁(yè)加載等待時(shí)間

time.sleep(3)

# 找到 輸入 用戶(hù)名 和密碼框,并且設(shè)置內(nèi)容

username = driver.find_element_by_id('jsEmailIpt')

# 輸入賬號(hào)名普舆,xxx替換為自己的賬戶(hù)名

username.send_keys('xxx')

time.sleep(1)

password = driver.find_element_by_id('jsPasswordIpt')

#輸入密碼恬口,xxx替換為自己的密碼

password.send_keys('xxx')

time.sleep(1)

# 分析網(wǎng)頁(yè)校读,找到登錄按鈕

login = driver.find_elements_by_css_selector('div[class=col-input-login] a')[0]

# 點(diǎn)擊按鈕

login.click()

time.sleep(3)

# 格式化源代碼

soup = BeautifulSoup(driver.page_source,'lxml')

# 退出瀏覽器

driver.quit()

存儲(chǔ)和預(yù)處理

# 存儲(chǔ)

data_dict = {}

# 找到主體內(nèi)容

mainContent = soup.find_all(name="div", attrs={"class" :"terminal-topic"})[0]

# 去除公式的重復(fù)html元素

for each in mainContent.find_all('mrow'):

? ? each.decompose()

for each in mainContent.find_all(name="span", attrs={"class" :"katex-html"}):

? ? each.decompose()

# 更換換行符

for each in mainContent.find_all('br'):

? ? each.replace_with("\n\n")

4. 內(nèi)容處理

4.1. Limit

先從比較簡(jiǎn)單的信息入手,找到題目標(biāo)題祖能、時(shí)間地熄、和內(nèi)存限制。

# Limit

# 找到題目標(biāo)題芯杀、時(shí)間、和內(nèi)存限制

div = mainContent.find_all(name="div", attrs={"class":"subject-item-wrap"})[0].find_all("span")

# 放入字典中存儲(chǔ)

data_dict['Title'] = f"叛盘叮客網(wǎng) NC{problemId} " + soup.title.contents[0]

# Time Limit

data_dict['Time Limit'] = div[0].contents[0].split(':')[1]

# Memory Limit

data_dict['Memory Limit'] = div[1].contents[0].split(':')[1]

定義函數(shù)揭厚,處理主體內(nèi)容中詭異的空格和公式的符號(hào)。

def divTextProcess(div):

? ? """

? ? 處理<div>標(biāo)簽中的文本內(nèi)容

? ? """

#? ? 獲取文本

? ? strBuffer = div.get_text()

#? ? 替換公式標(biāo)記

? ? strBuffer = strBuffer.replace("{", " $").replace("}", "$ ")

#? ? 去除多個(gè)空格

? ? strBuffer = strBuffer.replace("? ", "")

#? ? 去除多個(gè)換行符

? ? strBuffer = strBuffer.replace("\n\n\n", "\n")

#? ? 去除內(nèi)容中用\xa0表示的空格

? ? strBuffer = strBuffer.replace("\xa0", "")

#? ? 去除首位空格

? ? strBuffer = strBuffer.strip()

? ? # 返回結(jié)果

? ? return strBuffer

4.2. Problem Description

獲取題目描述

# 處理題目描述

div = mainContent.find_all(name="div", attrs={"class": "subject-question"})[0]

data_dict['Problem Description'] = divTextProcess(div)

4.3. Input

輸入描述

div = mainContent.find_all(name="pre")[0]

data_dict['Input'] = divTextProcess(div)

4.4. Output

輸出描述

div = mainContent.find_all(name="pre")[1]

data_dict['Output'] = divTextProcess(div)

4.5. Sample Input & Onput

輸入樣例扶供,用代碼框環(huán)境包圍筛圆。

# Input

div = mainContent.find_all(name="div", attrs={"class":"question-oi-cont"})[0]

data_dict['Sample Input'] = "```cpp" + div.get_text() + '```'

# Onput

div = mainContent.find_all(name="div", attrs={"class":"question-oi-cont"})[1]

data_dict['Sample Onput'] = "```cpp" + div.get_text() + '```'

4.6. Note

備注

# 若有備注

if len(mainContent.find_all(name="pre")) >= 5:

? ? div = mainContent.find_all(name="pre")[-1]

? ? data_dict['Note'] = divTextProcess(div)

4.7. Source

題目鏈接

data_dict['Source'] = '[' + data_dict['Title'] + ']' + '(' + url + ')'

5. 輸出

for each in data_dict.keys():

? ? print('### ' + each + '\n')

? ? print(data_dict[each].replace("\n\n**", "**").replace("**\n\n", "**") + '\n')

下面是最后的輸出結(jié)果

### Title

牛客網(wǎng) NC204552 咪咪游戲

### Time Limit

C/C++ 1秒椿浓,其他語(yǔ)言2秒

### Memory Limit

C/C++ 524288K太援,其他語(yǔ)言1048576K

### Problem Description

牛牛最近喜歡玩咪咪游戲,于是自己寫(xiě)了個(gè)程序編了個(gè)游戲讓牛妹來(lái)玩扳碍。游戲是這樣的:

牛牛有一個(gè)長(zhǎng)的字符串(只包26含個(gè)小寫(xiě)字母)提岔,他想讓牛妹判斷這個(gè)字符串是好的。

定義一個(gè)串是好的:這個(gè)串是由連續(xù)的mq連接而成的笋敞。

比如 $mqmq$ 說(shuō)明這個(gè)串是好的碱蒙, $mqmqm$ 或 $mqmqx$ 都是不好的。現(xiàn)在牛牛 想問(wèn)牛妹這個(gè)串是否是好的夯巷,如果好的輸出 $Yes$ 赛惩,否則輸出 $No$

### Input

第一行一個(gè)整數(shù)Q,表示詢(xún)問(wèn)次數(shù)

就下來(lái)Q行趁餐,一個(gè)字符串$s

### Output

Q行喷兼,每行輸出 $Yes$ 或 $No$

### Sample Input

// 這里會(huì)有```cpp代碼環(huán)境,在這里為了展示方便去掉了

4

mqmq

mqmqm

mqakioi

mqqmmq

### Sample Onput

Yes

No

No

No

### Note

對(duì)于 $60\%$ 的數(shù)據(jù)滿(mǎn)足: $|s|<=10,Q<=10$ 且保證只出現(xiàn)m,q兩個(gè)字符

對(duì)于 $100\%$ 的數(shù)據(jù): $|s| <=10^5,Q<=10$

對(duì)于所有數(shù)據(jù)保證只出現(xiàn)26個(gè)英文小寫(xiě)字母

### Source

[藕罄祝客網(wǎng) NC204552 咪咪游戲](https://ac.nowcoder.com/acm/problem/204552)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末季惯,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子喷面,更是在濱河造成了極大的恐慌星瘾,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惧辈,死亡現(xiàn)場(chǎng)離奇詭異琳状,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)盒齿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén)念逞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)困食,“玉大人,你說(shuō)我怎么就攤上這事翎承∷俄铮” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,875評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵叨咖,是天一觀的道長(zhǎng)瘩例。 經(jīng)常有香客問(wèn)我,道長(zhǎng)甸各,這世上最難降的妖魔是什么垛贤? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,441評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮趣倾,結(jié)果婚禮上聘惦,老公的妹妹穿的比我還像新娘。我一直安慰自己儒恋,他們只是感情好善绎,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著诫尽,像睡著了一般禀酱。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上牧嫉,一...
    開(kāi)封第一講書(shū)人閱讀 51,365評(píng)論 1 302
  • 那天比勉,我揣著相機(jī)與錄音,去河邊找鬼驹止。 笑死浩聋,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的臊恋。 我是一名探鬼主播衣洁,決...
    沈念sama閱讀 40,190評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼抖仅!你這毒婦竟也來(lái)了坊夫?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,062評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤撤卢,失蹤者是張志新(化名)和其女友劉穎环凿,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體放吩,經(jīng)...
    沈念sama閱讀 45,500評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡智听,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評(píng)論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片到推。...
    茶點(diǎn)故事閱讀 39,834評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡考赛,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出莉测,到底是詐尸還是另有隱情颜骤,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評(píng)論 5 345
  • 正文 年R本政府宣布捣卤,位于F島的核電站忍抽,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏董朝。R本人自食惡果不足惜梯找,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望益涧。 院中可真熱鬧,春花似錦驯鳖、人聲如沸闲询。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,779評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)扭弧。三九已至,卻和暖如春记舆,著一層夾襖步出監(jiān)牢的瞬間鸽捻,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,912評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工泽腮, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留御蒲,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,958評(píng)論 2 370
  • 正文 我出身青樓诊赊,卻偏偏與公主長(zhǎng)得像厚满,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子碧磅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評(píng)論 2 354