就目前學(xué)到的這點(diǎn)知識(shí)脆淹,先做個(gè)總結(jié)盾饮,飼養(yǎng)蟲子得有四大金鋼:settings.py讹弯,items.py月幌,pipelines.py以及spider文件夾里的那些你自己可起起名字的蟲子雪隧。settings是配置文件西轩,利用這個(gè)文件,你可以對(duì)蟲子的行動(dòng)進(jìn)行總控脑沿。items設(shè)置你是抓的項(xiàng)目藕畔,命名一定要簡潔,這些項(xiàng)目既有網(wǎng)頁里的項(xiàng)目庄拇,你也可以設(shè)定自己的項(xiàng)目注服,如時(shí)間。而pipelines則是設(shè)置抓取后數(shù)據(jù)的走向措近,你可以把數(shù)據(jù)寫進(jìn)數(shù)據(jù)庫溶弟,也可以寫到j(luò)son,json line等文件里熄诡。至于spider文件夾里的蟲子可很,則是干活的主力,你要根據(jù)任務(wù)需要進(jìn)行設(shè)置凰浮。飼養(yǎng)蟲子最費(fèi)工夫的就在這里我抠。
首先你的學(xué)習(xí)如何配置飼料苇本,CSS和XPATH學(xué)一下,谷歌菜拓、火狐兩個(gè)瀏覽器下的WEB開發(fā)工具得搞得掂瓣窄。
其次你得學(xué)習(xí)飼料的預(yù)處理,抓取的元素如果沒有把握纳鼎,就在SCRAPY SHELL里先試好俺夕。
然后,把這些飼料喂給小蟲子贱鄙,這些蟲子才會(huì)干活劝贸。
最后,作為法律人逗宁,我兩提醒各位養(yǎng)殖戶映九,你的蟲子不能到別人家里去啃莊稼,吃點(diǎn)別人地里的草就行了,啃莊稼多了,會(huì)有牢獄之災(zāi)漠嵌。