今天下午繼續(xù)飼養(yǎng)蟲子玩列粪,嘗試把商務(wù)部網(wǎng)站上的雙邊投資協(xié)定抓下來(lái)薇宠,作為資料備用肖油。
startproject bits web
進(jìn)入bits目錄憨愉,genspider bit1烦绳,出了一只小蟲子,bit1配紫。
打開items.py径密,加入兩個(gè)item,title和link躺孝,前者是條約的標(biāo)題享扔,后者是條約鏈接。作為初學(xué)者植袍,不搞水平垂直一齊上的模式惧眠。先把所有條約的鏈接抓下來(lái),做個(gè)文件于个,然后再?gòu)奈募锇焰溄幼x出來(lái)氛魁,再去抓內(nèi)容。五四式半自動(dòng),老槍秀存,可靠捶码。
結(jié)果,shell中搞定了xpath或链,ItemLoader惫恼,加進(jìn)去兩個(gè)變量。保存株扛。
scrapy crawl bit1
嘩啦啦......
字符跑屏尤筐,仔細(xì)一看,一個(gè)數(shù)據(jù)也沒(méi)有洞就。弄啥嘞盆繁?
再一看,有個(gè)錯(cuò)誤:
twisted.internet.error.DNSLookupError: DNS lookup failed: no results
DNS解析出錯(cuò)了旬蟋?我是在Ubuntu下跑的油昂,據(jù)說(shuō)這個(gè)系統(tǒng)無(wú)線網(wǎng)卡老是不中,掉線連接再掉線倾贰,難道我也遇到了冕碟?度娘查下,比硬也查下匆浙,谷歌不讓上安寺,算了。說(shuō)什么的都有首尼。查了網(wǎng)卡驅(qū)動(dòng)挑庶,沒(méi)事∪砟埽看了DNS迎捺,也沒(méi)有事哈。有的說(shuō)把無(wú)線路由電源斷了重啟查排,我覺(jué)得這位老兄是個(gè)電工凳枝,說(shuō)法不太行。
一個(gè)小時(shí)過(guò)去了跋核。
我有點(diǎn)煩岖瑰,打開包黑臉一樣的終端,再看你一眼了罪,我這代碼在那個(gè)蘋果本是沒(méi)有問(wèn)題锭环,怎么在UB上出事了?
這一看不打緊泊藕,我發(fā)現(xiàn)了一個(gè)極其弱智的錯(cuò)誤:
我把start_url寫錯(cuò)了辅辩。
http://http//tf......
天啊难礼,什么DNS服務(wù)器也沒(méi)法解析啊。以后得再細(xì)心些玫锋。