歡迎關(guān)注R語(yǔ)言數(shù)據(jù)分析指南
最近有觀眾老爺在做GBD數(shù)據(jù)庫(kù)挖掘問(wèn)小編一些數(shù)據(jù)處理的問(wèn)題育韩,正好去年也寫(xiě)過(guò)相關(guān)的代碼,既然觀眾老爺們有需求那么就寫(xiě)一些文檔來(lái)介紹一下闺鲸,數(shù)據(jù)代碼已經(jīng)上傳VIP群筋讨,請(qǐng)自行下載
正文
數(shù)據(jù)庫(kù)主頁(yè)(https://www.healthdata.org/)
該數(shù)據(jù)庫(kù)具體內(nèi)容各位可以自行了解,下面讓我們直接來(lái)到數(shù)據(jù)下載的頁(yè)面進(jìn)行數(shù)據(jù)下載摸恍,近期可能由于改版緣故下載數(shù)據(jù)需要進(jìn)行賬號(hào)注冊(cè)悉罕,小編去年是不需要登錄賬號(hào)就能下載數(shù)據(jù)
數(shù)據(jù)下載
https://vizhub.healthdata.org/gbd-results/
數(shù)據(jù)選擇
可以看到左側(cè)有很多選項(xiàng),一般小編做如下選擇
GBD Estimate (Cause of death or inijury)
Measure (Deaths,DALYs,Incidence)
Metric (Number,Percent,Rate)
Cause (這個(gè)選自己需要研究的)
Location (select all)
Age (select all)
Sex (select all)
year (select all)
數(shù)據(jù)下載
執(zhí)行完選擇后點(diǎn)Download網(wǎng)站就會(huì)開(kāi)始為我們準(zhǔn)備數(shù)據(jù)立镶,準(zhǔn)備完成后克看到如下畫(huà)面
批量下載數(shù)據(jù)
如果數(shù)據(jù)量較大壁袄,系統(tǒng)會(huì)自動(dòng)幫我們切割成很多個(gè)文件,大概幾十個(gè)之多媚媒;當(dāng)然你也可以點(diǎn)擊 Download 一個(gè)一個(gè)下載嗜逻,如果要批量下載數(shù)據(jù)復(fù)制下載鏈接終端進(jìn)行下載即可,由于這份數(shù)據(jù)只有兩個(gè)所以為
{1..2}
;請(qǐng)不要執(zhí)行這個(gè)輸入你自己的網(wǎng)址即可
for i in {1..2}
do
wget "https://dl.healthdata.org/gbd-api-2019-public/2e492f56c96451fce3d1ac_files/IHME-GBD_2019_DATA-8c0d0ff4-$i.zip"
done
批量解壓縮
由于下載的都為壓縮文件缭召,如果數(shù)據(jù)量較大會(huì)有幾十個(gè)之多栈顷;所以還是批量處理來(lái)的痛快
for z in *.zip; do unzip "$z"; done
批量合并數(shù)據(jù)
library(tidyverse)
list.files(path = "~/liver-cancer/data",
pattern = "*.csv", full.names=TRUE) %>%
lapply(read_csv) %>% bind_rows() %>% write_csv(.,file="liver_cancer.csv",quote="none")
經(jīng)過(guò)上面的步驟,我們就順利的下載好了后續(xù)需要進(jìn)行數(shù)據(jù)挖掘的文件嵌巷,后面就是一系列的數(shù)據(jù)統(tǒng)計(jì)分析內(nèi)容了萄凤,本節(jié)只是簡(jiǎn)單介紹一下數(shù)據(jù)下載僅此而已;喜歡的觀眾老爺歡迎分享轉(zhuǎn)發(fā)