首先生成項目結構
定義要抓取的數據為:新聞標題乔宿、新聞發(fā)生時間窑业、新聞具體內容和uil
找到item文件并進行修改
但是修改失敗了(不知道原因)把修改的url=scrapy.Field()這句刪掉后表示修改成功坑鱼,后面發(fā)現這不是主要原因枷遂。修改失敗主要是權限問題湿蛔,使用root來修改時表現為成功。
進入所在項目子文件
編寫提取item數據的Spider
整個實驗過程最困難的就是這段代碼過程抵知,定位方法選擇的是xpath墙基,感覺它對于非熟練者較為友好。我選擇只爬取了官網主頁的12條新聞刷喜。
在代碼編寫過程中出現了兩個類似問題(感覺都是xpath定位不準導致的語法錯誤):1残制、在詳情頁爬取的過程中,對時間的爬取出現了一定方面的理解誤差掖疮,導致最后沒能實現對時間的爬取2初茶、在嘗試對新聞具體列表頁進行爬取時出現了類似的問題,但報錯的內容集中在類似于SyntaxError: Non-ASCII character '\xce' in file
/home/lc/venv/news/news/spiders/newsscrapy.py on lin這種浊闪,應該還是語法錯誤恼布。