第一步:確定目標(biāo)地址
國家統(tǒng)計(jì)統(tǒng)計(jì)局網(wǎng)址:http://data.stats.gov.cn/easyquery.htm?cn=C01
1.1????找的國內(nèi)生產(chǎn)總值,即需要爬取的數(shù)據(jù)
1.2? ? ?鼠標(biāo)右擊--->檢查網(wǎng)頁源代碼--->在網(wǎng)頁源代碼中查找是否存在我們需要的數(shù)據(jù)(Ctrl+F,在查找框中輸入要查找的數(shù)據(jù))
由此可以判斷膏孟,我們需要的數(shù)據(jù)并不是直接在HTML頁面中(數(shù)據(jù)是動態(tài)加載的孵稽,即url并不是地址欄中的地址),所以我們需要去判斷誰是真正的url
1.3? ? 按F12
選中Network---->XHR(動態(tài)數(shù)據(jù)都會在這里面)---->重新刷新頁面---->在開發(fā)者界面中找到我們的數(shù)據(jù)包
在數(shù)據(jù)包中的Headers部分找到Request URL (這就是我們所需要的URL)
第二步:獲得數(shù)據(jù)
通過python中requests庫肾扰,模擬瀏覽器發(fā)起請求鸳吸,獲得我們所需要的數(shù)據(jù)包(其中包含我們所需要的數(shù)據(jù))
第三步:解析數(shù)據(jù)
本次爬蟲解析數(shù)據(jù)的方式比較基礎(chǔ)艘刚,通過定位+循環(huán)的方式即可獲得數(shù)據(jù)
第四步:保存數(shù)據(jù)
通過python的csv模塊张肾,保存數(shù)據(jù)芭析,即可,代碼如上
第五步:欣賞實(shí)驗(yàn)結(jié)果
源代碼
結(jié)果