目前該網(wǎng)(戳這里~~)采用較簡(jiǎn)單的結(jié)構(gòu):
1蔑穴,頁(yè)碼遞增
2乞封,動(dòng)態(tài)渲染個(gè)人頁(yè)面
好了酥诽,跟小編一起分析分析
頁(yè)面結(jié)構(gòu)
不設(shè)置條件點(diǎn)擊搜索(這樣會(huì)出來(lái)全部數(shù)據(jù)匙隔,僅對(duì)該類(lèi)站而言)
one
第一頁(yè)的URL:
http://www.cfw.cn/rencai/search/?keywords=&keyType=1&JobAreaID=&invite_posttimeg=&request_experience=&request_edu=&salaryg=&AreaName=&page=1
發(fā)現(xiàn)URL很長(zhǎng)涌韩,其實(shí)存在不必要的參數(shù)授舟,點(diǎn)擊下一頁(yè)
第二頁(yè)URL:
http://www.cfw.cn/rencai/Search?page=2&keytype=1
少了很多,刪掉“&keytype=1”刷新贸辈,發(fā)現(xiàn)網(wǎng)頁(yè)正常顯示,說(shuō)明必須參數(shù)是page=num肠槽,
接下來(lái)就可以構(gòu)造每一頁(yè)的URL了
http://www.cfw.cn/rencai/Search?page=num
按F12擎淤,檢查一份的簡(jiǎn)歷鏈接地址
查看簡(jiǎn)歷鏈接
點(diǎn)開(kāi)此簡(jiǎn)歷
簡(jiǎn)歷內(nèi)信息
對(duì)比標(biāo)簽href屬性,說(shuō)明個(gè)人頁(yè)面的鏈接是
http://www.cfw.cn/resumes/?ids=id
個(gè)人頁(yè)面內(nèi)容加載方式
打開(kāi)個(gè)人頁(yè)面秸仙,按F12嘴拢,查看頁(yè)面源代碼如圖
個(gè)人的信息并不在頁(yè)面上,說(shuō)明這不是一個(gè)靜態(tài)頁(yè)面寂纪,個(gè)人信息通過(guò)別的方式渲染進(jìn)來(lái)席吴,這就需要自己尋找了
找到一個(gè)好朋友~~,小編發(fā)現(xiàn)show_resume/這個(gè)請(qǐng)求里返回了這份簡(jiǎn)歷的內(nèi)容
好朋友
那就簡(jiǎn)單啦捞蛋,攜帶參數(shù)向請(qǐng)求地址發(fā)POST請(qǐng)求就獲得了信息孝冒,如下圖
請(qǐng)求方法
簡(jiǎn)歷信息
返回的信息格式比較簡(jiǎn)單,json.loads()一下 ?字典和正則表達(dá)式就可以提取了
福利:服務(wù)器性能較好拟杉,不封ip庄涡,不封賬號(hào)and so on,沒(méi)有煩人的反爬蟲(chóng)限制著搬设,那玩起來(lái)就舒服多啦
若查看個(gè)人基本信息不注冊(cè)即可穴店,聯(lián)系方式需要開(kāi)通服務(wù)
到此結(jié)束撕捍,小編要去洗澡了,趕快鞭策你的代碼吧泣洞,忧风,哈哈哈哈