文章結(jié)構(gòu):
實驗主題管嬉、實驗工具皂林、實驗過程、錯誤報告與錯誤分析蚯撩、小組個人利用scrapy爬取教師信息實驗報告
一. 實驗主題
爬取四川大學(xué)公共管理學(xué)院新聞動態(tài)上的新聞础倍,包括標(biāo)題、發(fā)布時間胎挎、正文沟启。
二. 實驗工具
八爪魚采集器7.3.8
三. 實驗過程
八爪魚是一款可視化的網(wǎng)絡(luò)爬蟲制作工具。本次實驗使用八爪魚的自定義采集犹菇,完成數(shù)據(jù)采集實驗德迹。
-
將新聞動態(tài)的網(wǎng)址,復(fù)制粘貼到采集網(wǎng)址處后项栏,點(diǎn)擊保存網(wǎng)址浦辨,系統(tǒng)會進(jìn)入到流程設(shè)計頁面并自動打開輸入的網(wǎng)址。
-
采集新聞動態(tài)屬于分頁列表詳細(xì)信息采集沼沈,我們先建立分頁循環(huán)流程流酬,鼠標(biāo)點(diǎn)擊瀏覽器頁面的“下一頁”按鈕,在彈出的對話框中選擇“循環(huán)點(diǎn)擊下一頁”列另。
下面對新聞標(biāo)題創(chuàng)建循環(huán)點(diǎn)擊
我們要把每個新聞的鏈接打開芽腾,進(jìn)入詳情頁面,然后再采集詳情里面的數(shù)據(jù)页衙。結(jié)合前面建立的翻頁循環(huán)摊滔,我們就能自動點(diǎn)擊下一頁翻頁阴绢,對每一頁的新聞標(biāo)題列表都能逐個打開進(jìn)入詳情頁,從而完成對所有新聞詳細(xì)數(shù)據(jù)的點(diǎn)擊并最終達(dá)到提取所有數(shù)據(jù)的效果艰躺。
-
鼠標(biāo)點(diǎn)擊下圖中第一個新聞標(biāo)題“行政管理系成功舉辦臺灣臺北大學(xué)張四明教授學(xué)術(shù)講座”鏈接呻袭,這時候點(diǎn)擊右邊操作提示框中的“選擇全部”選項,然后再選擇“循環(huán)點(diǎn)擊每個鏈接”選項即可腺兴。
接下來就是最終提取數(shù)據(jù)的步驟了左电。
-
鼠標(biāo)點(diǎn)擊頁面中要提取的內(nèi)容,包括標(biāo)題页响,發(fā)布時間和正文篓足,連續(xù)選擇提取內(nèi)容闰蚕,默認(rèn)“采集該元素的文本”,選擇好后没陡,點(diǎn)擊“采集數(shù)據(jù)”。
-
這樣提取完畢之后我們可以點(diǎn)擊流程按鈕诗鸭,修改字段名稱以及簡單的處理一下提取到的數(shù)據(jù)。在下面的界面中强岸,左側(cè)是采集任務(wù)的邏輯圖,在右側(cè)修改字段名稱蝌箍。修改完成后,點(diǎn)擊“確定”保存妓盲。
采集邏輯如下圖所示:
-
在上圖中杂拨,我們可以看見在時間字段中,包括“發(fā)布時間:”這幾個字悯衬,通過八爪魚弹沽,我們可以在采集的時候?qū)⑦@幾個字去掉。選中時間這個字段筋粗,點(diǎn)擊“自定義數(shù)據(jù)字段”策橘。
依次點(diǎn)擊“格式化數(shù)據(jù)”,“添加步驟”娜亿,“正則表達(dá)式匹配”丽已,輸入如圖所示正則表達(dá)式,點(diǎn)擊“計算”和“確定”买决,即可沛婴。
然后再次點(diǎn)擊“確定”吼畏,即可回到流程界面,這時可以看見時間字段中嘁灯,數(shù)據(jù)只有日期了泻蚊。
-
點(diǎn)擊“保存”后,點(diǎn)擊“開始采集”旁仿,再在彈出的對話框中選擇“啟動本地采集”(其他幾種方式需要付費(fèi))
采集結(jié)果如下圖:
系統(tǒng)會在本地電腦上開啟一個采集任務(wù)并采集數(shù)據(jù)藕夫,任務(wù)采集完之后會彈出一個采集結(jié)束的提示,接下來選擇導(dǎo)出數(shù)據(jù)枯冈,我們選擇將數(shù)據(jù)導(dǎo)出為csv文件,采集完之后办悟,我們發(fā)現(xiàn)有41條重復(fù)數(shù)據(jù)尘奏,最終我們采集到400條新聞。
四. 錯誤報告與錯誤分析
錯誤報告:
錯誤分析
提取數(shù)據(jù)的目標(biāo)網(wǎng)頁是:
- 新聞欄中有專題欄目病蛉,點(diǎn)擊進(jìn)入后與目標(biāo)頁面網(wǎng)頁結(jié)構(gòu)不一致炫加,采集失敗
- 鏈接中含有來自四川大學(xué)網(wǎng)站的新聞,點(diǎn)擊進(jìn)入后與目標(biāo)頁面網(wǎng)頁結(jié)構(gòu)不一致铺然,采集失敗
- 新聞中有英文專題俗孝,也是因為網(wǎng)頁結(jié)構(gòu)不一致的原因,采集失敗魄健。
- 還有來自CCTV官網(wǎng)的視頻新聞
數(shù)據(jù)重復(fù)的原因
目標(biāo)新聞網(wǎng)頁存在重復(fù):
五. 總結(jié)
當(dāng)前使用八爪魚所設(shè)置的爬取規(guī)則太過簡單革骨,缺乏對特殊情況的判斷和處理析恋。
六. 小組成員個人利用scrapy爬取公共管理學(xué)院教師信息的實驗報告
cc01——使用scrapy爬取四川大學(xué)公共管理學(xué)院教師信息實驗報告
yjl33——scrapy學(xué)習(xí)
zl36——八爪魚+Scrapy爬取公共管理學(xué)院新聞動態(tài)&教師信息