library(survey)
##加權(quán)下隧,定義survey數(shù)據(jù)集
NHANES_all, <- svydesign(id = ~psu,#id處傳數(shù)據(jù)中的psu變量,代表告知指初級(jí)抽樣單位,不需要處理直接傳入
strata = ~strata,#strata處傳strata變量渔肩,代表告知分層指標(biāo),不需要處理直接傳入
weights = ~persWeight, #nhanes數(shù)據(jù)分析中weight需要提前計(jì)算
nest = TRUE,
data = nhanesAnalysis #數(shù)據(jù)集)
#取亞數(shù)據(jù)集
NHANES <- subset(NHANES_all, #survey數(shù)據(jù)集
inAnalysis #!duplicated(RXQ_RX_E$SEQN) 篩選條件
)
#計(jì)算加權(quán)均值及標(biāo)準(zhǔn)差,定義函數(shù)
getSummary <- function(varformula, byformula, design){
# Get mean, stderr, and unweighted sample size
c <- svyby(varformula, byformula, design, unwtd.count )
p <- svyby(varformula, byformula, design, svymean )
outSum <- left_join(select(c,-se), p)
outSum
}
#計(jì)算
getSummary(~Depression, ~one, NHANES)
#' By sex
getSummary(~Depression, ~Gender, NHANES)
#' By age
getSummary(~Depression, ~Age.Group, NHANES)
#' By sex and age
getSummary(~Depression, ~Gender + Age.Group, NHANES)
#data_2為原數(shù)據(jù)集厨相,design_new為svydesign以后的新數(shù)據(jù)集
#計(jì)算數(shù)據(jù)中的年齡及種族加權(quán)及未加權(quán)的均值或比例,可以看出加權(quán)及未加權(quán)結(jié)果有很大差異鸥鹉,對(duì)數(shù)據(jù)進(jìn)行基線信息描述時(shí)蛮穿,應(yīng)該使用加權(quán)結(jié)果。
#unweighted age and se
mean(data_2$age,na.rm=T)
#49.54916
# weighted age and se
svymean(~age, design_new, na.rm = TRUE)
#45.874
#' Proportion of unweighted interview sample
data_2 %>% count(race) %>%
mutate(prop= round(n / sum(n)*100, digits=1))
#' Proportion of weighted interview sample
data_2 %>% count(race, wt=WTMEC2YR) %>%
#svyglm分析
#使用常規(guī)的glm和weighted glm會(huì)對(duì)結(jié)果進(jìn)行有偏估計(jì)毁渗,應(yīng)該在構(gòu)建survey數(shù)據(jù)庫(kù)的基礎(chǔ)上践磅,進(jìn)行svyglm分析,以下是三個(gè)方法的比較
#glm
Result2 <- glm(TT4~Bromoform+age+Gender+race+BMI+Education,
family = gaussian(), data=data_2)
summary(Result2)
#weighted glm
Result3 <- glm(TT4~Bromoform+age+Gender+race+BMI+Education,
family = gaussian(), data=data_2,weights =WTMEC2YR )
summary(Result3)
#survey-weighted glm
Result1 <- svyglm(TT4~Bromoform+age+Gender+race+BMI+Education,
family = gaussian(), data=data_2,design=design_new)
summary(Result1)
背景知識(shí)
創(chuàng)建樣本權(quán)重是為了考慮復(fù)雜的調(diào)查設(shè)計(jì)(包括過(guò)度抽樣)灸异、調(diào)查無(wú)響應(yīng)和后分層(以確保計(jì)算出的估計(jì)值代表美國(guó)平民非機(jī)構(gòu)化人口NHANES復(fù)雜抽樣導(dǎo)致需要)計(jì)算權(quán)重
The sample weights are created to account for the complex survey design (including oversampling), survey nonresponse, and post-stratification in order to ensure that calculated estimates are representative of the U.S. civilian noninstitutionalized population.
權(quán)重選擇
①所有變量都是以in-home interview的方式收集誓篱,權(quán)重采用wtint2yr朋贬;
只有研究的所有變量都是以in-home interview的方式收集的,權(quán)重才用wtint2yr窜骄,如果還有其他方式收集的變量锦募,接著往下看;
②部分變量是以MEC的方式收集的邻遏,權(quán)重采用wtmec2yr糠亩;
如果所有變量只有以in-home interview和MEC檢查兩種方式收集的,權(quán)重就用wtmec2yr准验,如果還有子樣本變量(沒(méi)有24-hour dietary recall變量)赎线,參考第③點(diǎn)選擇權(quán)重;如果包含24-hour dietary recall變量則直接參考第④點(diǎn)選擇權(quán)重糊饱;
③部分變量是調(diào)查子樣本的一部分垂寥,則采用相應(yīng)子樣本權(quán)重;
如果研究的變量同時(shí)包括wtint2yr另锋,wtmec2yr以及自樣本權(quán)重這個(gè)三種權(quán)重滞项,則選擇相應(yīng)子樣本權(quán)重;
因?yàn)樗袇⑴c者都接受采訪(in-home interview)(人群1)夭坪,在接受采訪的人中部分接受MEC檢查(人群2)文判,在接受MEC檢查的人中,只有空腹8小時(shí)以上的人才檢查了空腹甘油三酯(人群3:子樣本人群)室梅,即人群3(子樣本人群)<人群2<人群1律杠,根據(jù)權(quán)重選擇的核心原則,所以選擇子樣本變量對(duì)應(yīng)的權(quán)重為最終權(quán)重竞惋。
④一些變量來(lái)自24小時(shí)飲食回憶(24-hour dietary recall)
24小時(shí)飲食回憶不屬于子樣本變量柜去,但是完成這部分調(diào)查的參與者其權(quán)重比較特殊,一周中工作日和周末的飲食攝入量可能會(huì)存在差異拆宛,該權(quán)重可以調(diào)整這些差異嗓奢。只要研究中有變量是以24-hour dietaryrecall方式收集的(不管是否包括wtint2yr,wtmec2yr或者子樣本權(quán)重)浑厚,最終權(quán)重都為wtdrd1(第一天)/wtdrd2(2天)股耽。
結(jié)合周期計(jì)算權(quán)重
(合并多個(gè)周期時(shí)需合并權(quán)重根盒,這里只針對(duì)1999年后的數(shù)據(jù))
先根據(jù)以上原則選擇相應(yīng)的權(quán)重類(lèi)型,然后根據(jù)合并的周期重新計(jì)算物蝙,以下以wtint2yr權(quán)重為例炎滞。
總原則:對(duì)于任何不包括1999-2000年的2001-2002年及以后的任何周期合并,權(quán)重都等于1/周期數(shù)*(相應(yīng)權(quán)重)诬乞。
①如果只合并1999-2000和2001-2002四年(2個(gè)周期)的數(shù)據(jù)册赛,則最終權(quán)重為wtint4yr(全部周期中,只有合并了1999-2002四年的數(shù)據(jù)才有wtint4yr這個(gè)權(quán)重類(lèi)型震嫉,其他所有的都是wtint2yr)森瘪;
②如果合并1999-2004六年(3個(gè)周期)的數(shù)據(jù),需分成1999-2002年(作為整體算2個(gè)周期)和2003-2004(1個(gè)周期)兩部分考慮:
1999-2002年(2個(gè)周期)的權(quán)重為2/3*wtint4yr票堵;
2003-2004年(1個(gè)周期)的權(quán)重為1/3*wtint2yr
③如果合并2001-2002和2003-2004四年(2個(gè)周期)的數(shù)據(jù)扼睬,則最終權(quán)重為1/2*wtint2yr;
④如果合并2001-2006六年(3個(gè)周期)的數(shù)據(jù)悴势,因?yàn)闆](méi)有包括1999-2000年的數(shù)據(jù)窗宇,所以最終權(quán)重為1/3*wtint2yr。
至此基本可滿足大部分研究的權(quán)重選擇和計(jì)算特纤,計(jì)算好之后將最終的權(quán)重?cái)?shù)據(jù)傳入svydesign()方法中weigths即完成了抽樣方式的設(shè)置担映,這樣就可以進(jìn)行后續(xù)的分析了,包括根據(jù)納入和排除標(biāo)準(zhǔn)選擇最終納入分析的人群以及統(tǒng)計(jì)分析叫潦。
文獻(xiàn)
參考資料
1.NHANES數(shù)據(jù)庫(kù)的介紹及使用(二) https://blog.csdn.net/weixin_40563866/article/details/120291633
- NHANES數(shù)據(jù)庫(kù)權(quán)重計(jì)算 https://blog.csdn.net/qq_42458954/article/details/121296965
- NHANES官方文檔 NHANES 教程 - 模塊 3 - 加權(quán) (cdc.gov)