2000-2020年中國(guó)村(居)委會(huì)及其以上區(qū)劃代碼和數(shù)據(jù)
背景
要求分析2000年到2020年,中國(guó)城鄉(xiāng)區(qū)劃的空間變化减噪,查閱到開(kāi)源數(shù)據(jù)有國(guó)家統(tǒng)計(jì)局統(tǒng)計(jì)用區(qū)劃和城鄉(xiāng)劃分代碼數(shù)據(jù)。
方法
步驟一:配置環(huán)境
python環(huán)境配置
網(wǎng)上教程太多醋闭,安裝anaconda就好朝卒,只需要把路徑添加到系統(tǒng)環(huán)境變量中
redis數(shù)據(jù)庫(kù)的配置
由于需要爬取數(shù)據(jù)量比較大,我是用的是scrapy-redis框架囚企,分布式爬取瑞眼,所以用到redis數(shù)據(jù)庫(kù),具體方法請(qǐng)參考我的知乎文章linux 安裝配置redis - 知乎 (zhihu.com)以及這個(gè)win10 部署scrapy-redis - 知乎 (zhihu.com)
配置一個(gè)虛擬環(huán)境(選做)
這部分不是必須的,但是我個(gè)人習(xí)慣做爬蟲(chóng)類(lèi)掩浙,我就用一個(gè)爬蟲(chóng)類(lèi)的虛擬環(huán)境進(jìn)行
步驟二:編寫(xiě)核心代碼
編寫(xiě)scrapy爬蟲(chóng)代碼秸歧,使用這個(gè)框架,你不用再浪費(fèi)心思去思考異步等問(wèn)題谬墙,只需要專(zhuān)心寫(xiě)你提取的規(guī)則就好经备。
步驟三
啟動(dòng)項(xiàng)目,靜靜等待數(shù)據(jù)采集
步驟四:從存儲(chǔ)數(shù)據(jù)中提取數(shù)據(jù)
最終爬取完之后造虎,數(shù)據(jù)都存在redis數(shù)據(jù)庫(kù)中泰讽,可以使用redis-dump工具忆畅,進(jìn)行數(shù)據(jù)的遷移氓轰。
結(jié)果
代碼已開(kāi)源,請(qǐng)參考https://gitee.com/bahapku/china_area_code
數(shù)據(jù)已經(jīng)整理好署鸡,有需要請(qǐng)郵件聯(lián)系bahapku@foxmail.com告知具體訴求储玫,拒絕商業(yè)化利用!H銮睢端礼!
聲明
拒絕惡意爬取,拒絕商業(yè)化利用蛤奥,非本人允許,禁止轉(zhuǎn)載蟀伸。