要學(xué)習(xí)這一節(jié)星爪,首先是要學(xué)習(xí)什么是主成分钉稍,什么是聚類
這個我一直有點搞混豪硅,可以百度谷歌查一查
http://www.cnblogs.com/pinard/p/6239403.html
http://www.reibang.com/p/794e91f60170
聚類這一塊我做了陌宿,似乎結(jié)果不理想咆疗,以后參考這個http://www.cog-genomics.org/plink/1.9/strat#cluster
這里我著重介紹如何用plink做主成分http://www.cog-genomics.org/plink/1.9/strat#pca
PLINK 1.9 provides two dimension reduction routines: --pca, for principal components analysis (PCA) based on the variance-standardized relationship matrix, and --mds-plot, for multidimensional scaling (MDS) based on raw Hamming distances. Top principal components are generally used as covariates in association analysis regressions to help correct for population stratification, while MDS coordinates help with visualizing genetic distances.
感覺這一塊學(xué)的不是很懂涧黄,我先繼續(xù)走下去篮昧,后面再來補充
似乎如果已經(jīng)定義了種群和聚類,可以在各個類中繼續(xù)做PCA
這里我先不管笋妥,繼續(xù)
plink --bfile clean --pca 5 --out clean
過程如下
產(chǎn)生兩個文件
eigenval eigenvec
這個文件是看每個主成分可以解釋多少基因的變異
這個文件是每個個體在每個主成分上的投影
這一章的內(nèi)容我是為了做EigenGWAS 做準(zhǔn)備