url:http://gs.amac.org.cn/amac-infodisc/res/pof/fund/index.html
需求:把此網(wǎng)頁中表格數(shù)據(jù)全部爬取出來導到excel里
頁面如下:
小白一枚静陈,第一次拿到這個需求笤喳,整個人是懵的。咦锁摔?怎么每次url都不變?怎么照網(wǎng)上說的用xpath追蹤定位table爬取不成功呢免猾?百度了三四天網(wǎng)上也沒有類似案例夹孔,最后,在一位大神幫助下成功解決貌夕。【這個網(wǎng)頁應該跟異步加載型的網(wǎng)頁差不多民镜,或者這也算是是防爬蟲的手段吧啡专。數(shù)據(jù)是通過另一個接口的請求得到的,而不是直接由html文件給出的制圈。】
實際網(wǎng)址:f12調試模式——>network里面——>xhr選項们童,看異步請求
思路:
(1)獲取接口的數(shù)據(jù)(headers頭部)
(2)提取接口數(shù)據(jù) (json模塊)
(3)時間戳的轉換 (time模塊)
附上詳細代碼: