一墓贿、實驗目的和要求:
爬取川大公共管理學院網(wǎng)站新聞欄里的鏈接距潘,進而獲取詳情頁信息。
二仑撞、實驗步驟:
(1)分析被采集對象:公共管理學院網(wǎng)站新聞欄里的新聞標題以及詳情頁的文本信息等赤兴。
利用開發(fā)者工具,我們可以查看標題鏈接代碼
在linux配置好scrapy的前提下隧哮,每次使用需要先激活虛擬環(huán)境
cd /home/slx/venv //進入venv虛擬環(huán)境的目錄
source bin/activate //激活
(2)創(chuàng)建一個新的Scrapy項目桶良,運行下列命令
# scrapy startproject newsbox
(3)定義item
(4)編寫爬蟲
設置完items之后,在spiders目錄下新建一個ggglnews.py文件,代碼如下:
(5)運行命令沮翔,得到數(shù) 據(jù)陨帆,并得到命名為ggglnews的xml文件
scrapy crawl ggglnews -o ggglnews.xml
截取部分內(nèi)容顯示如下:在終端顯示的內(nèi)容
三、實驗結(jié)果:
爬取到的十二條item數(shù)據(jù)對應新聞欄的十二條新聞消息
四采蚀、討論和分析:
過程中遇到的難點:定位元素并利用xpath進行路徑選擇