本文源代碼在 https://github.com/zhangshier/-.git 可下載
安裝 pip install scrapy ?
安裝pip install pymongo
需要爬取的內(nèi)容
?分析拉鉤頁面 ?按住F12
開始創(chuàng)建項(xiàng)目
1.新建個文件夾 ?本人是在F 盤下的pachong文件夾下 ?各位隨意
然后win+R啟動cmd命令 ?跳轉(zhuǎn)到你的文件下?
使用 scrapy startproject lagou 創(chuàng)建存放爬蟲的文件
回車后創(chuàng)建項(xiàng)目 然后 進(jìn)入你創(chuàng)建的項(xiàng)目 然后創(chuàng)建爬蟲
使用scrapy genspider lgw lagou.com 創(chuàng)建爬蟲
main.py 里配置下
fromscrapy.cmdlineimportexecute
importsys
importos
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","lgw"])
要找到的‘java開發(fā)工程師’?
使用xpath 匹配
xpath 不會的可以參考 http://www.w3school.com.cn/xpath/index.asp
使用xpath匹配java工程師
response.xpath('//div[@class="list_item_top"]/div[@class="position"]/div[@class="p_top]/a/h2/text(')
可以直接在main 里使用run 運(yùn)行
items.py