案例說(shuō)明:
爬取51job網(wǎng)上與python有關(guān)的工作崗位泵肄,工作范圍為全國(guó)捆交。分別采集職位信息,職位url凡伊,企業(yè)零渐,工作地點(diǎn),薪資系忙。并將數(shù)據(jù)寫(xiě)入到excel中,方便日后進(jìn)行處理惠豺。
案例分析:
首先明確一共有636個(gè)頁(yè)面银还,然后就是這些頁(yè)面url構(gòu)成規(guī)則是顯而易見(jiàn)。如:
https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=洁墙,對(duì)于這個(gè)鏈接蛹疯,首先我們可以去掉一些無(wú)用的信息,去除后就剩下https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html热监,通過(guò)修改最后一個(gè)數(shù)字捺弦,可以發(fā)現(xiàn)頁(yè)面發(fā)生了改變,跳轉(zhuǎn)到了最后一個(gè)一組數(shù)字對(duì)應(yīng)的網(wǎng)頁(yè)孝扛。
其次就是對(duì)采集的數(shù)據(jù)的提取了列吼,我這里使用的是xpath方法提取的。
最后就是數(shù)據(jù)的存儲(chǔ)了苦始,這部分就在管道中再創(chuàng)建兩個(gè)函數(shù)寞钥,一個(gè)是 __init__,用來(lái)初始化陌选,打開(kāi)文件理郑,初始化寫(xiě)excel文件信息蹄溉。
中間一個(gè)函數(shù)用來(lái)寫(xiě)入采集到的數(shù)據(jù)。最后一個(gè)函數(shù)用來(lái)關(guān)閉爬蟲(chóng)您炉。這塊就需要理解scrapy的個(gè)工作原理柒爵。