scrapy抓取名人名言

roots.txt文件解讀
通過一天多的努力钝诚,我終于成功搭建好了云服務器上的各種環(huán)境并去抓取了數(shù)據德撬。在這個過程中扎阶,我先用了MobaXterm,后改用了Xshell上沐。
*1. MobaXterm使用體驗

MobaXterm首頁.png

MobaXterm是一個很方便的軟件皮服,它免安裝,連接迅速参咙,并且代碼書寫界面美觀龄广。
連接云服務器.png

然而,在我使用了一段時間后蕴侧,也發(fā)現(xiàn)了它的一些瑕疵择同。MobaXterm連接是不太穩(wěn)定的,即使我更改過了設置戈盈,情況也沒有改善奠衔。
alive設置.png

除此之外,我還遇上了上傳文件權限不足的問題
文件操作權限不足.png

通過塘娶,多方查找归斤,這是由于新用戶并沒有獲得對文件進行操作的權限,這可以通過

sudo chmod 777 spiders(文件名)

命令來賦予用戶權限刁岸。

*2. Xshell使用體驗
相較于MobaXterm而言脏里,Xshell需要安裝


安裝Xshell.png

連接云服務器成功界面


連接云服務器.png

但是,Xshell連接較穩(wěn)定虹曙,頁面簡單迫横。上傳下載文件,Xshell需要安裝Xftp軟件酝碳,安裝過后矾踱,我上傳下載文件并沒有受到權限限制,
下載文件.png

總的來說疏哗,就界面設計而言呛讲,我更喜歡MobaXterm,但是就使用體驗來說返奉,我更傾向由于Xshell贝搁。

*3. 抓取數(shù)據存成json格式并轉換為xml
當在本地編寫好spiders文件后(我使用的是Notepad++),將其上傳到spiders目錄下芽偏,執(zhí)行scrapy crawl quot(爬蟲名字)命令


代碼.png

數(shù)據存儲為json格式.png

我需要將爬取下來的數(shù)據存成json文件格式雷逆,使用以下命令:

scrapy crawl qout -o aaa.json

其中qout是爬蟲名稱,aaa.json是你想保存的json文件名稱污尉。爬取結束后膀哲,我們可以在spiders目錄下看到新生成的aaa.json文件往产。


文件.png

接下來,可以用

sz aaa.json(文件名)

命令來下載該文件等太。下載下來的json文件里數(shù)據很多捂齐,所以,我找了一個比較投機取巧的方式來將它轉換成xml格式缩抡。
JSON與XML互轉這個網站能夠將json與xml進行相互轉換奠宜。
我抓取的json文件與轉換后的xml文件:json文件與xml

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市瞻想,隨后出現(xiàn)的幾起案子压真,更是在濱河造成了極大的恐慌,老刑警劉巖蘑险,帶你破解...
    沈念sama閱讀 222,464評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件滴肿,死亡現(xiàn)場離奇詭異,居然都是意外死亡佃迄,警方通過查閱死者的電腦和手機泼差,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來呵俏,“玉大人堆缘,你說我怎么就攤上這事∑账椋” “怎么了吼肥?”我有些...
    開封第一講書人閱讀 169,078評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長麻车。 經常有香客問我缀皱,道長,這世上最難降的妖魔是什么动猬? 我笑而不...
    開封第一講書人閱讀 59,979評論 1 299
  • 正文 為了忘掉前任啤斗,我火速辦了婚禮,結果婚禮上赁咙,老公的妹妹穿的比我還像新娘钮莲。我一直安慰自己,他們只是感情好序目,可當我...
    茶點故事閱讀 69,001評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著伯襟,像睡著了一般猿涨。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上姆怪,一...
    開封第一講書人閱讀 52,584評論 1 312
  • 那天叛赚,我揣著相機與錄音澡绩,去河邊找鬼。 笑死俺附,一個胖子當著我的面吹牛肥卡,可吹牛的內容都是我干的。 我是一名探鬼主播事镣,決...
    沈念sama閱讀 41,085評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼步鉴,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了璃哟?” 一聲冷哼從身側響起氛琢,我...
    開封第一講書人閱讀 40,023評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎随闪,沒想到半個月后阳似,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 46,555評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡铐伴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,626評論 3 342
  • 正文 我和宋清朗相戀三年撮奏,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片当宴。...
    茶點故事閱讀 40,769評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡畜吊,死狀恐怖,靈堂內的尸體忽然破棺而出即供,到底是詐尸還是另有隱情定拟,我是刑警寧澤,帶...
    沈念sama閱讀 36,439評論 5 351
  • 正文 年R本政府宣布逗嫡,位于F島的核電站青自,受9級特大地震影響,放射性物質發(fā)生泄漏驱证。R本人自食惡果不足惜延窜,卻給世界環(huán)境...
    茶點故事閱讀 42,115評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望抹锄。 院中可真熱鬧逆瑞,春花似錦、人聲如沸伙单。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽吻育。三九已至念秧,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間布疼,已是汗流浹背摊趾。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評論 1 274
  • 我被黑心中介騙來泰國打工币狠, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人砾层。 一個月前我還...
    沈念sama閱讀 49,191評論 3 378
  • 正文 我出身青樓漩绵,卻偏偏與公主長得像,于是被迫代替她去往敵國和親肛炮。 傳聞我的和親對象是個殘疾皇子止吐,可洞房花燭夜當晚...
    茶點故事閱讀 45,781評論 2 361

推薦閱讀更多精彩內容

  • 基礎裝備: Linux云服務器(阿里云Ubuntu 16.04);??建立遠程連接的軟件(這里用的是XShell)...
    ?葉閱讀 5,572評論 4 14
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理铸董,服務發(fā)現(xiàn)祟印,斷路器,智...
    卡卡羅2017閱讀 134,714評論 18 139
  • 工具/原料: 阿里云服務器粟害、MobaXterm_v9.4/Xshell 實驗目的: 了解云服務器蕴忆、搭建虛擬環(huán)境、學...
    Echo真二閱讀 403評論 2 1
  • 本篇文章已授權微信公眾號 guolin_blog (郭霖)獨家發(fā)布 又來寫文章了悲幅,懶癌晚期拖啊拖總抽出點時間來套鹅,直...
    _小河馬閱讀 11,568評論 18 138
  • 回想,那曾是屬于我們的夏天 時光汰具,總是在不經意間消散 ...
    劉家二狗閱讀 318評論 0 1