前言
關(guān)于選用多少個PCA做群體分層校正识椰,各大期刊并沒有一個統(tǒng)一的說法绝葡。 故做了如下綜述。
1 隨心所欲型腹鹉,想選多少就選多少
PCA想選多少就選多少藏畅,這個真的不是開玩笑。有文獻有真相功咒!
比如下面文獻直接選用10個PCA校正群體分層愉阎。
Largest GWAS of PTSD (N=20070) yields genetic overlap with schizophrenia and sex differences in heritability
比如選用前5個主成分校正群體分層。
Accounting for Population Stratification in Practice: A Comparison of the Main Strategies Dedicated to Genome-Wide Association Studies
比如選用前3個主成分校正群體分層力奋。
GWAS identifies novel SLE susceptibility genes and explains the association of the HLA region
比如選用前2個主成分校正群體分層榜旦。
GWAS analysis of suicide attempt in schizophrenia: Main genetic effect and interaction with early life trauma
2 通過EIGENSTRAT軟件確定顯著的主成分
通過EIGENSTRAT軟件確定顯著的主成分的思路是這樣的:
2.1通過EIGENSTRAT軟件計算主成分
2.2計算各個主成分是否有顯著的統(tǒng)計學(xué)意義
2.3將P值小于0.05的主成分納入群體分層校正中。
如下圖所示景殷,主成分1和2是顯著影響群體結(jié)構(gòu)的(P<0.05)溅呢,做關(guān)聯(lián)分析時則被納入?yún)f(xié)變量中澡屡。
此類做法參考文獻:
GWAS Identifies Novel Susceptibility Loci on 6p21.32 and 21q21.3 for Hepatocellular Carcinoma in Chronic Hepatitis B Virus Carriers