深圳:利用商事主體查詢公司名https://app03.szmqs.gov.cn/xyjggs.webui/xyjggs/List.aspx?view=nbxx獲取年報網(wǎng)址所需要的參數(shù)→直接合成年報網(wǎng)址采集內(nèi)容妓羊。例
注意事項:
深圳的接口為模糊匹配破婆,故年檢的公司名必須與搜索公司名一致吐辙。
北京:http://qyxy.baic.gov.cn/wapqyzb/wapqyzbAction!wapbsnd.dhtml?entId=ff80808160546468016057ec2eae13df
利用網(wǎng)址后綴的endid合成年報列表辽俗,循環(huán)采集适篙。(只能在服務(wù)器上運行)例:
API特點:step1需更換IP;step2需手動更換最新COOKIE
年檢采集思路:北京地區(qū)與其他地區(qū)不同筹燕,因年報內(nèi)容頁的采集需要實時的cookie
注意事項:
北京年報的URL具有時效性,個別參數(shù)會變化導(dǎo)致年報網(wǎng)址無保存價值密任。(下圖為年報網(wǎng)址的三個參數(shù),其中前兩個參數(shù)固定驳棱,第三個參數(shù)隨機改變)
北京年報的請求頭需實時更新批什,cookie同樣也具有時效性。過期的cookie訪問無效
(由Selenium自動化完成搜索公司名完成第一步)
廣州:http://cri.gz.gov.cn/Detail/AnnualReport?zch=DF23367B523674AB8459D328EA557F6A同上不做贅述
東莞:http://qyxy.dg.cn/compub/qwjs/qyxx!qyjyxx.action?qywyh=38576bb5-0159-1000-e001-1c160a0c0115
信用東莞社搅,利用庫內(nèi)標準工商網(wǎng)址參數(shù)挨個訪問年報列表驻债。