前言
????自從學(xué)了python爬蟲后就想去找一份爬蟲的工作珊肃,但是簡歷如何寫作是個問題绅你,就想到了何不用爬蟲去爬取別人的簡歷模板一看合溺,找了一些網(wǎng)站最后看最準了站長之家毁欣。
一庇谆、分析網(wǎng)頁結(jié)構(gòu)
????進入到站長之家,我們可以看到免費的offer一共有426頁之多凭疮,把這些全部爬下來也足夠使用了吧饭耳,
我們右鍵檢查,選中一份簡歷执解,明顯可以看到進入這份簡歷的鏈接寞肖,然后點擊這個鏈接進入到這份簡歷的頁面里。
往下翻可以看到下面有很多下載的地址衰腌,什么福建新蟆,山東,江蘇右蕊,廣東琼稻,廈門等,隨便點擊一個都可以下載的饶囚,還是右鍵檢查一下帕翻,選中一個下載的地址,也可以看到下載的鏈接就在這里面萝风。
好了嘀掸,我們接下來的工作就好辦了,只要把這兩個鏈接用正則取到规惰,在請求不就好了嗎睬塌,就這么簡單。
二卿拴、編寫python代碼
????我們先請求站長之家的鏈接獲取到網(wǎng)頁源代碼衫仑,在用正則提取出第一個鏈接就好了。
在請求這個鏈接堕花,提取出下載鏈接文狱,在請求下載鏈接就可以下載到本地了。
好了缘挽,小伙伴是不是覺得很簡單瞄崇,感覺python爬蟲就是這樣呻粹,只要找到了鏈接,在用正則提取就行了苏研,思路要清晰等浊。