2022-11-05 權(quán)重

library(survey)
##加權(quán)下隧,定義survey數(shù)據(jù)集
NHANES_all, <- svydesign(id      = ~psu,#id處傳數(shù)據(jù)中的psu變量,代表告知指初級(jí)抽樣單位,不需要處理直接傳入
                          strata  = ~strata,#strata處傳strata變量渔肩,代表告知分層指標(biāo),不需要處理直接傳入
                          weights = ~persWeight, #nhanes數(shù)據(jù)分析中weight需要提前計(jì)算
                          nest    = TRUE,
                          data    = nhanesAnalysis #數(shù)據(jù)集)
#取亞數(shù)據(jù)集
NHANES <- subset(NHANES_all, #survey數(shù)據(jù)集
                inAnalysis #!duplicated(RXQ_RX_E$SEQN) 篩選條件
)
#計(jì)算加權(quán)均值及標(biāo)準(zhǔn)差,定義函數(shù)
getSummary <- function(varformula, byformula, design){
  # Get mean, stderr, and unweighted sample size
  c <- svyby(varformula, byformula, design, unwtd.count ) 
  p <- svyby(varformula, byformula, design, svymean ) 
  outSum <- left_join(select(c,-se), p) 
  outSum
}
#計(jì)算
getSummary(~Depression, ~one, NHANES)
#' By sex
getSummary(~Depression, ~Gender, NHANES)
#' By age
getSummary(~Depression, ~Age.Group, NHANES)
#' By sex and age
getSummary(~Depression, ~Gender + Age.Group, NHANES)

#data_2為原數(shù)據(jù)集厨相,design_new為svydesign以后的新數(shù)據(jù)集
#計(jì)算數(shù)據(jù)中的年齡及種族加權(quán)及未加權(quán)的均值或比例,可以看出加權(quán)及未加權(quán)結(jié)果有很大差異鸥鹉,對(duì)數(shù)據(jù)進(jìn)行基線信息描述時(shí)蛮穿,應(yīng)該使用加權(quán)結(jié)果。
#unweighted age and se
mean(data_2$age,na.rm=T)
#49.54916 
# weighted age and se
svymean(~age, design_new, na.rm = TRUE)
#45.874
 
#' Proportion of unweighted interview sample 
data_2 %>% count(race) %>% 
  mutate(prop= round(n / sum(n)*100, digits=1))
 
#' Proportion of weighted interview sample
data_2 %>% count(race, wt=WTMEC2YR) %>%

#svyglm分析
#使用常規(guī)的glm和weighted glm會(huì)對(duì)結(jié)果進(jìn)行有偏估計(jì)毁渗,應(yīng)該在構(gòu)建survey數(shù)據(jù)庫(kù)的基礎(chǔ)上践磅,進(jìn)行svyglm分析,以下是三個(gè)方法的比較
#glm
Result2 <- glm(TT4~Bromoform+age+Gender+race+BMI+Education,
                  family = gaussian(), data=data_2)
summary(Result2)
 
#weighted glm
Result3 <- glm(TT4~Bromoform+age+Gender+race+BMI+Education,
               family = gaussian(), data=data_2,weights =WTMEC2YR )
summary(Result3)
 
#survey-weighted glm
Result1 <- svyglm(TT4~Bromoform+age+Gender+race+BMI+Education,
                  family = gaussian(), data=data_2,design=design_new)
summary(Result1)

背景知識(shí)

創(chuàng)建樣本權(quán)重是為了考慮復(fù)雜的調(diào)查設(shè)計(jì)(包括過(guò)度抽樣)灸异、調(diào)查無(wú)響應(yīng)和后分層(以確保計(jì)算出的估計(jì)值代表美國(guó)平民非機(jī)構(gòu)化人口NHANES復(fù)雜抽樣導(dǎo)致需要)計(jì)算權(quán)重
The sample weights are created to account for the complex survey design (including oversampling), survey nonresponse, and post-stratification in order to ensure that calculated estimates are representative of the U.S. civilian noninstitutionalized population.

復(fù)雜抽樣設(shè)計(jì)

復(fù)雜抽樣

提示:對(duì)于按年齡和種族以及西班牙裔血統(tǒng)劃分的估計(jì)值府适,建議使用以下年齡類(lèi)別來(lái)減少樣本權(quán)重的變異性羔飞,從而減少估計(jì)值的方差:5歲及以下,6-11歲细溅,12-19歲褥傍,20-39歲,40-59歲喇聊,60歲及以上恍风。
無(wú)響應(yīng):針對(duì)sample,而非item

權(quán)重選擇

2個(gè)象限,1個(gè)場(chǎng)景

權(quán)重類(lèi)型

①所有變量都是以in-home interview的方式收集誓篱,權(quán)重采用wtint2yr朋贬;

只有研究的所有變量都是以in-home interview的方式收集的,權(quán)重才用wtint2yr窜骄,如果還有其他方式收集的變量锦募,接著往下看;

②部分變量是以MEC的方式收集的邻遏,權(quán)重采用wtmec2yr糠亩;

如果所有變量只有以in-home interview和MEC檢查兩種方式收集的,權(quán)重就用wtmec2yr准验,如果還有子樣本變量(沒(méi)有24-hour dietary recall變量)赎线,參考第③點(diǎn)選擇權(quán)重;如果包含24-hour dietary recall變量則直接參考第④點(diǎn)選擇權(quán)重糊饱;

③部分變量是調(diào)查子樣本的一部分垂寥,則采用相應(yīng)子樣本權(quán)重;

如果研究的變量同時(shí)包括wtint2yr另锋,wtmec2yr以及自樣本權(quán)重這個(gè)三種權(quán)重滞项,則選擇相應(yīng)子樣本權(quán)重
因?yàn)樗袇⑴c者都接受采訪(in-home interview)(人群1)夭坪,在接受采訪的人中部分接受MEC檢查(人群2)文判,在接受MEC檢查的人中,只有空腹8小時(shí)以上的人才檢查了空腹甘油三酯(人群3:子樣本人群)室梅,即人群3(子樣本人群)<人群2<人群1律杠,根據(jù)權(quán)重選擇的核心原則,所以選擇子樣本變量對(duì)應(yīng)的權(quán)重為最終權(quán)重竞惋。

④一些變量來(lái)自24小時(shí)飲食回憶(24-hour dietary recall)

24小時(shí)飲食回憶不屬于子樣本變量柜去,但是完成這部分調(diào)查的參與者其權(quán)重比較特殊,一周中工作日和周末的飲食攝入量可能會(huì)存在差異拆宛,該權(quán)重可以調(diào)整這些差異嗓奢。只要研究中有變量是以24-hour dietaryrecall方式收集的(不管是否包括wtint2yr,wtmec2yr或者子樣本權(quán)重)浑厚,最終權(quán)重都為wtdrd1(第一天)/wtdrd2(2天)股耽。

結(jié)合周期計(jì)算權(quán)重

(合并多個(gè)周期時(shí)需合并權(quán)重根盒,這里只針對(duì)1999年后的數(shù)據(jù))

先根據(jù)以上原則選擇相應(yīng)的權(quán)重類(lèi)型,然后根據(jù)合并的周期重新計(jì)算物蝙,以下以wtint2yr權(quán)重為例炎滞。

總原則:對(duì)于任何不包括1999-2000年的2001-2002年及以后的任何周期合并,權(quán)重都等于1/周期數(shù)*(相應(yīng)權(quán)重)诬乞。

①如果只合并1999-2000和2001-2002四年(2個(gè)周期)的數(shù)據(jù)册赛,則最終權(quán)重為wtint4yr(全部周期中,只有合并了1999-2002四年的數(shù)據(jù)才有wtint4yr這個(gè)權(quán)重類(lèi)型震嫉,其他所有的都是wtint2yr)森瘪;

②如果合并1999-2004六年(3個(gè)周期)的數(shù)據(jù),需分成1999-2002年(作為整體算2個(gè)周期)和2003-2004(1個(gè)周期)兩部分考慮:

1999-2002年(2個(gè)周期)的權(quán)重為2/3*wtint4yr票堵;

2003-2004年(1個(gè)周期)的權(quán)重為1/3*wtint2yr

③如果合并2001-2002和2003-2004四年(2個(gè)周期)的數(shù)據(jù)扼睬,則最終權(quán)重為1/2*wtint2yr;

④如果合并2001-2006六年(3個(gè)周期)的數(shù)據(jù)悴势,因?yàn)闆](méi)有包括1999-2000年的數(shù)據(jù)窗宇,所以最終權(quán)重為1/3*wtint2yr。

至此基本可滿足大部分研究的權(quán)重選擇和計(jì)算特纤,計(jì)算好之后將最終的權(quán)重?cái)?shù)據(jù)傳入svydesign()方法中weigths即完成了抽樣方式的設(shè)置担映,這樣就可以進(jìn)行后續(xù)的分析了,包括根據(jù)納入和排除標(biāo)準(zhǔn)選擇最終納入分析的人群以及統(tǒng)計(jì)分析叫潦。

文獻(xiàn)

2020DC 前糖和骨質(zhì)疏松| https://doi.org/10.2337/dc19-1807

參考資料

1.NHANES數(shù)據(jù)庫(kù)的介紹及使用(二) https://blog.csdn.net/weixin_40563866/article/details/120291633

  1. NHANES數(shù)據(jù)庫(kù)權(quán)重計(jì)算 https://blog.csdn.net/qq_42458954/article/details/121296965
  2. NHANES官方文檔 NHANES 教程 - 模塊 3 - 加權(quán) (cdc.gov)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市官硝,隨后出現(xiàn)的幾起案子矗蕊,更是在濱河造成了極大的恐慌,老刑警劉巖氢架,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件傻咖,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡岖研,警方通過(guò)查閱死者的電腦和手機(jī)卿操,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)孙援,“玉大人害淤,你說(shuō)我怎么就攤上這事⊥厥郏” “怎么了窥摄?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)础淤。 經(jīng)常有香客問(wèn)我崭放,道長(zhǎng)哨苛,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任币砂,我火速辦了婚禮建峭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘决摧。我一直安慰自己亿蒸,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布蜜徽。 她就那樣靜靜地躺著祝懂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拘鞋。 梳的紋絲不亂的頭發(fā)上砚蓬,一...
    開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音盆色,去河邊找鬼灰蛙。 笑死,一個(gè)胖子當(dāng)著我的面吹牛隔躲,可吹牛的內(nèi)容都是我干的摩梧。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼宣旱,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼仅父!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起浑吟,我...
    開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤笙纤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后组力,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體省容,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年燎字,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了腥椒。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡候衍,死狀恐怖笼蛛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蛉鹿,我是刑警寧澤伐弹,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響惨好,放射性物質(zhì)發(fā)生泄漏煌茴。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一日川、第九天 我趴在偏房一處隱蔽的房頂上張望蔓腐。 院中可真熱鬧,春花似錦龄句、人聲如沸回论。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)傀蓉。三九已至,卻和暖如春职抡,著一層夾襖步出監(jiān)牢的瞬間葬燎,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工缚甩, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谱净,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓擅威,卻偏偏與公主長(zhǎng)得像壕探,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子郊丛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容