嘗試?yán)胹crapy框架來抓取招聘信息,選了同城藝龍的牵祟,點(diǎn)擊同城藝龍社招
先建立好一個爬蟲項(xiàng)目和爬蟲文件深夯,之前有寫過,在此不做贅述诺苹。
一咕晋、分析網(wǎng)頁中職位信息
選取一個職位名稱,鼠標(biāo)右擊收奔,點(diǎn)擊“檢查”掌呜,可以看到代碼內(nèi)容。
在建立的爬蟲文件中坪哄,編寫如下代碼:
在pipelines.py文件中編寫代碼如下:
最后在setting.py中設(shè)置如下:
ROBOTSTXT_OBEY 默認(rèn)是True质蕉,一定要設(shè)為False呢撞,不然爬取不到內(nèi)容
最后執(zhí)行以下代碼,可以爬取的內(nèi)容如下:
我在代碼中利用切片功能將爬取職位數(shù)設(shè)置為爬取三個
tr_list = response.xpath("http://table[@class='jobsTable']/tr")[1:4]
如果將[1:4]
改為[1:-1]
饰剥,則會將當(dāng)前頁面的所有職位內(nèi)容都爬取下來殊霞,如下圖:
數(shù)了一下,發(fā)現(xiàn)最后一個職位沒有爬取下來汰蓉,莫非被網(wǎng)站禁止了绷蹲,最多只能爬取14個職位?這個待我研究研究哈