這個工具是很經(jīng)典老牌的工具美莫,是非澄撕簦可靠也得到了學(xué)術(shù)界認可的一款軟件。工具官網(wǎng):https://www.hsph.harvard.edu/alkes-price/software/渔欢, 也可以通過conda下載比較簡便稳衬。這個工具的缺點就是它只支持linux系統(tǒng),而且對輸入文件的格式有一定的要求蚀狰。最新的版本采用的算法可以更好獲得群體結(jié)構(gòu)信息愉昆,具體可參考這篇文章:Fast Principal-Component Analysis Reveals Convergent Evolution of ADH1B in Europe and East Asia. The American Journal of Human Genetics 98, 456–472, March 3, 2016
實 戰(zhàn)
1?首先使用plink將vcf文件轉(zhuǎn)格式轉(zhuǎn)化成.ped和.map結(jié)尾的文件,利用自己的命令獲得標準ped和map格式文件也可以麻蹋。本案例采用數(shù)據(jù)是用plink 對3245份水稻LD pruning過后得到的76萬個SNP跛溉;
2 進一步使用EIGENSOFT中內(nèi)置的convertf 文件轉(zhuǎn)化為smartpca的輸入文件:
convertf -p transfer.conf
該步驟需要一個?transfer.conf,將文件的輸入輸出寫進去,然后執(zhí)行command芳室。
##?transfer.conf
genotypename:? ? 3245_pruned_SNP.ped
snpname:? ? ? ? 3245_pruned_SNP.map # or example.map, either works
indivname:? ? ? 3245_pruned_SNP.ped # or example.ped, either works
outputformat:? ? EIGENSTRAT
genotypeoutname: 3245.eigenstratgeno
snpoutname:? ? ? 3245.snp
indivoutname:? ? 3245.ind
familynames:? ? NO
該步驟會生產(chǎn)生三個pca所需的輸入文件?3245.eigenstrat, 3245.snp 和3245.ind
3 運行smartpca 代碼如下:
smartpca -p runningpca.conf
其參數(shù)文件runningpca.conf內(nèi)容 如下专肪,根據(jù)你的數(shù)據(jù)參照manual來修改對應(yīng)的參數(shù):
genotypename: 3245.geno
snpname: 3245.snp
indivname: 3245.ind
evecoutname: 3245.pca.evec
evaloutname: 3245.eval
altnormstyle: NO
numoutevec: 20
numoutlieriter: 5
outliersigmathresh: 6.0、
截取了運行中的屏幕輸出:
可以看到堪侯,smartpca有對數(shù)據(jù)進行統(tǒng)計與過濾處理嚎尤,這里有一些低質(zhì)量的1360個snp和148份材料被去除,最終生成的文件只有3097份材料的結(jié)果伍宦!
運行完會生成兩個個文件:
3245.pca.evec(特征向量結(jié)果)芽死;3245.eval(特征值結(jié)果)。