簡明爬蟲教程

準備工作

python3.7
requests(負責網(wǎng)絡請求)娘赴,lxml(負責解析響應的數(shù)據(jù)),chrome瀏覽器(定位要抓取的元素)跟啤。

安裝requests和lxml诽表。

進入命令行 執(zhí)行命令 pip install requests.pip install lxml
這里的pip是python的包管理工具,可以理解為手機里的應用市場腥光,你可以使用它下載安裝第三方包关顷。
我這里是已經(jīng)安裝好了,所以顯示requirement already satisfied武福。


安裝第三方庫

爬取目標

學校官網(wǎng)的通知信息的標題(點擊上面標題就可以看到了)


通知公告

先上代碼,自己手動敲一遍痘番,跑一下看看運行結果

import requests
from lxml import etree


#要下載的網(wǎng)頁網(wǎng)址 
url = 'http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/vmsglist?mtype=m&lan=101,102,103&tts=&tops=&pn=1'
#請求該網(wǎng)頁捉片,獲取返回結果
res = requests.get(url)
#將返回的結果解析成html
html = etree.HTML(res.content)
# 爬取所有標題節(jié)點
titles = html.xpath('//*[@id="bok_0"]/div[7]/div/a/span/text()')#定位標題節(jié)點
for title in titles:
  print(title)

這里可以看出主要是分為三步:1,確定你要請求網(wǎng)頁的網(wǎng)址汞舱。2伍纫、定位你需要爬取的元素。3昂芜,存儲或打印你爬取得數(shù)據(jù)莹规。
比較關鍵得一點在于怎么定位你需要的元素,或者說怎么將你需要的數(shù)據(jù)泌神,從一個完整的網(wǎng)頁中篩選出來(即本例中通知的標題),在代碼中的體現(xiàn)如下良漱,

title = html.xpath('//*[@id="bok_0"]/div[7]/div/a/span/text()')#定位標題節(jié)點

這里簡單提一句xpath使用來定位元素的一種方式舞虱,根據(jù)的元素的層級關系來進行定位(網(wǎng)頁元素的結構就是層級的)。我們只需要搞明白怎么獲取//*[@id="bok_0"]/div[7]/div/a/span/text()就行了母市,這里需要用到chrome瀏覽器矾兜,我們訪問該網(wǎng)址看到結果如下


通知公告

我們需要抓取的是通知的標題信息,點擊右鍵->檢查


image.png

然后在標題位置患久,點擊右鍵椅寺,復制-復制Xpath,得到xpath蒋失,//*[@id="bok_0"]/div[7]/div[19]/a/span
好像跟我們代碼中的xpath不太一樣返帕,主要在兩個地方div[19]和text()
1,div[19]是一個確定的值,我們需要爬取的是所有的標題篙挽,這里定位的div[19]下的那個標題溉旋,可以簡單理解為第十九個標題。所以我們將div[19]替換為div匹配所有的標題嫉髓。
2從上圖我們可以看出观腊,我們需要的是<span>標簽里面的文字,而xpath只定位到了span.多加text()使其匹配到所有標題的文本算行。

練習

爬取練習網(wǎng)頁的新聞標題

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末梧油,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子州邢,更是在濱河造成了極大的恐慌儡陨,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件量淌,死亡現(xiàn)場離奇詭異骗村,居然都是意外死亡,警方通過查閱死者的電腦和手機呀枢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進店門胚股,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人裙秋,你說我怎么就攤上這事琅拌。” “怎么了摘刑?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵进宝,是天一觀的道長。 經(jīng)常有香客問我枷恕,道長党晋,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮未玻,結果婚禮上灾而,老公的妹妹穿的比我還像新娘。我一直安慰自己深胳,他們只是感情好绰疤,可當我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著舞终,像睡著了一般轻庆。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上敛劝,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天余爆,我揣著相機與錄音,去河邊找鬼夸盟。 笑死蛾方,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的上陕。 我是一名探鬼主播桩砰,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼释簿!你這毒婦竟也來了亚隅?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤庶溶,失蹤者是張志新(化名)和其女友劉穎煮纵,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體偏螺,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡行疏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了套像。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片酿联。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖凉夯,靈堂內(nèi)的尸體忽然破棺而出货葬,到底是詐尸還是另有隱情,我是刑警寧澤劲够,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站休傍,受9級特大地震影響征绎,放射性物質發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一人柿、第九天 我趴在偏房一處隱蔽的房頂上張望柴墩。 院中可真熱鬧,春花似錦凫岖、人聲如沸江咳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽歼指。三九已至,卻和暖如春甥雕,著一層夾襖步出監(jiān)牢的瞬間踩身,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工社露, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留挟阻,地道東北人。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓峭弟,卻偏偏與公主長得像附鸽,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子瞒瘸,可洞房花燭夜當晚...
    茶點故事閱讀 45,086評論 2 355