關(guān)鍵詞:ubuntu系統(tǒng)芥牌、scrapy簡單爬取任務(wù)
1. 明確目標:明確采集任務(wù)
任務(wù):是爬取學(xué)院網(wǎng)站上教師列表以及教師詳情
2. 規(guī)劃步驟:分兩步采集
借用一個items.py定義兩個item類,再分別用Teacherlist、Teacher兩個spider抓取教師信息
3. 項目準備:觀察所要爬取頁面的框架結(jié)構(gòu)
圖示中每個\<li>標簽下包含教師列表信息谬俄,所以以其作為鏈接迭代入口溃论。
詳情頁因為不涉及動態(tài)頁面的抓取痘昌,所以只考慮頁面層級問題辆苔,就是怎么從教師列表頁進入詳情頁。
4. 項目實施:構(gòu)建爬蟲框架
- 建立爬蟲框架
* scrapy startproject teacher
- 根據(jù)你的需求在items.py文件中定義元數(shù)據(jù)菲驴,這里直接定義兩個模塊骑冗。
(注意:兩個類定義需要用空行隔開赊瞬,當然注意使用同一種方式縮進)
- 編寫Teacherlist的spider文件
(注:python時使用縮進來區(qū)分代碼塊,使用空行表示下一個類贼涩、函數(shù)等的開始)
- 編寫Teacher的spider文件
(注:parse函數(shù)名不能更改巧涧,留意頁面層級結(jié)構(gòu))
5. 項目調(diào)試:通過觀察運行后代碼分析修改代碼
* scrapy crawl 爬蟲名
這里尤其注意未定義,xpath書寫遥倦,到底是item.xpath()還是response.xpath(),以及縮進(空格褒侧、tap混用,是否整齊)谊迄,英文:(中英文輸入)等錯誤
6. 數(shù)據(jù)保存:可選擇json闷供、xml、csv等格式保存
運行代碼
* scrapy crawl 爬蟲名 -o 文件名.格式
注意:文件夾權(quán)限
root用戶該文件夾上級目錄下使用命令
* sudo chmod 777 文件名