roots.txt文件解讀
通過一天多的努力钝诚,我終于成功搭建好了云服務器上的各種環(huán)境并去抓取了數(shù)據德撬。在這個過程中扎阶,我先用了MobaXterm,后改用了Xshell上沐。
*1. MobaXterm使用體驗
MobaXterm首頁.png
MobaXterm是一個很方便的軟件皮服,它免安裝,連接迅速参咙,并且代碼書寫界面美觀龄广。
連接云服務器.png
然而,在我使用了一段時間后蕴侧,也發(fā)現(xiàn)了它的一些瑕疵择同。MobaXterm連接是不太穩(wěn)定的,即使我更改過了設置戈盈,情況也沒有改善奠衔。
alive設置.png
除此之外,我還遇上了上傳文件權限不足的問題
文件操作權限不足.png
通過塘娶,多方查找归斤,這是由于新用戶并沒有獲得對文件進行操作的權限,這可以通過
sudo chmod 777 spiders(文件名)
命令來賦予用戶權限刁岸。
*2. Xshell使用體驗
相較于MobaXterm而言脏里,Xshell需要安裝
安裝Xshell.png
連接云服務器成功界面
連接云服務器.png
但是,Xshell連接較穩(wěn)定虹曙,頁面簡單迫横。上傳下載文件,Xshell需要安裝Xftp軟件酝碳,安裝過后矾踱,我上傳下載文件并沒有受到權限限制,
下載文件.png
總的來說疏哗,就界面設計而言呛讲,我更喜歡MobaXterm,但是就使用體驗來說返奉,我更傾向由于Xshell贝搁。
*3. 抓取數(shù)據存成json格式并轉換為xml
當在本地編寫好spiders文件后(我使用的是Notepad++),將其上傳到spiders目錄下芽偏,執(zhí)行scrapy crawl quot(爬蟲名字)命令
代碼.png
數(shù)據存儲為json格式.png
我需要將爬取下來的數(shù)據存成json文件格式雷逆,使用以下命令:
scrapy crawl qout -o aaa.json
其中qout是爬蟲名稱,aaa.json是你想保存的json文件名稱污尉。爬取結束后膀哲,我們可以在spiders目錄下看到新生成的aaa.json文件往产。
文件.png
接下來,可以用
sz aaa.json(文件名)
命令來下載該文件等太。下載下來的json文件里數(shù)據很多捂齐,所以,我找了一個比較投機取巧的方式來將它轉換成xml格式缩抡。
JSON與XML互轉這個網站能夠將json與xml進行相互轉換奠宜。
我抓取的json文件與轉換后的xml文件:json文件與xml