最近在忙GWAS里imputation的事情羞芍,更新一直拖到了現(xiàn)在哗戈。還是要說一句抱歉,不過可以分享的內(nèi)容又變多了荷科,先挖個坑唯咬,過幾天填~
1. NHANES中描述分布及正態(tài)性
我們還是以官方教程提供的數(shù)據(jù)和代碼為參考,同時加上簡單隨機(jī)抽樣代碼以及Nhanes中復(fù)雜多階段概率抽樣代碼畏浆,便于大家比較
- dataset鏈接地址
https://wwwn.cdc.gov/nchs/data/tutorials/analysis_data.sas7bdat
- SAS代碼
PROC UNIVARIATE normal data=ANALYSIS_DATA; /*常見簡單隨機(jī)抽樣數(shù)據(jù)Univariate過程*/
where ridageyr >= 20;
VAR lbxtc;
title "Distribution of cholesterol: NHANES 1999-2002";
run;
PROC UNIVARIATE normal data=ANALYSIS_DATA; /*Nhanes中官方推薦的Univariate過程*/
where ridageyr >= 20;
VAR lbxtc;
freq wtmec4yr;
title "Distribution of cholesterol: NHANES 1999-2002";
run;
-
結(jié)果展示
一點(diǎn)總結(jié)
有朋友應(yīng)該已經(jīng)發(fā)現(xiàn)區(qū)別了胆胰,代碼里面多了freq這一句,之后輸出的結(jié)果均數(shù)刻获、中位數(shù)略有差距蜀涨,正態(tài)性檢驗(yàn)的結(jié)果基本一致(非正態(tài),不過正態(tài)性檢驗(yàn)對于正態(tài)性要求比較高蝎毡,稍微偏離正態(tài)P值就會<0.05)
2. NHANES中均數(shù)計算
- dataset和之前一樣
- SAS代碼
proc surveymeans data=ANALYSIS_DATA; missing min max median mean clm; /*clm表示輸出mean的95%置信區(qū)間*/
stratum sdmvstra;
cluster sdmvpsu;
weight wtmec4yr;
var lbxtc;
run;
-
結(jié)果輸出
- 一點(diǎn)總結(jié)
surveymeans輸出是mean厚柳,standard error以及95% CI,并不是常見的mean沐兵,standard deviation别垮。standard error與standard deviation是完全不同的概念,前者會小很多扎谎,不要誤用
3. NHANES中頻率計算
- dataset(進(jìn)行變量賦值)
data ANALYSIS_DATA_1;
set ANALYSIS_DATA;
where ridageyr >= 20;
age = .;
if 20 LE ridageyr LE 39 then age=1;
if 40 LE ridageyr LE 59 then age=2;
if ridageyr GE 60 then age=3;
race=.;
if ridreth1=3 then race=1;
if ridreth1=4 then race=2;
if ridreth1=1 then race=3;
if ridreth1=2 or ridreth1=5 then race=4;
run;
- SAS代碼
proc surveyfreq data=ANALYSIS_DATA_1;
stratum sdmvstra;
cluster sdmvpsu;
weight wtmec4yr;
tables age*race/nototal nowt nocellpercent col row ;
run;
-
結(jié)果輸出
- 一點(diǎn)總結(jié)
因?yàn)橛玫膕urvey過程碳想,仍然會有standard error的結(jié)果輸出
4. 參考內(nèi)容
大家對于教程有什么建議或者意見可以寫評論或者發(fā)私信茬贵,我看到后再調(diào)整更新內(nèi)容。這期對內(nèi)容做了一點(diǎn)調(diào)整移袍,相對來說概念更少,更多的是可以實(shí)操的例子老充。
后期Nhanes更新的初步規(guī)劃是t檢驗(yàn)葡盗、方差分析及卡方→線性回歸和logistic回歸→cox回歸→不同周期數(shù)據(jù)集合并及注意事項(xiàng)……
中間會穿插GWAS的內(nèi)容,主要是數(shù)據(jù)前處理的部分啡浊,第一期是Windows電腦Linux系統(tǒng)及常見工具(plink, bcftools, vcftools, vcfcooker, eagle, minimac4)安裝
不要忘了點(diǎn)贊哈~