最早了解到主成分分析(Principal Component Analysis熬词,PCA)是在一位師兄的畢業(yè)答辯上旁钧,當(dāng)時聽得是云里霧里,一頭霧水互拾。其實歪今,主成分分析是因子分析的一種常用方法,主要目的是為了減少變量數(shù)目颜矿,也就是降維寄猩。
在高通量測序中,主要基于基因表達(dá)量骑疆、種群豐度等進(jìn)行樣本的聚類田篇,下圖是一篇客戶文章的基于表達(dá)量的PCA結(jié)果替废。
那么該如何進(jìn)行主成分分析呢?今天為大家介紹如何用Origin進(jìn)行分析并完成散點圖的繪制泊柬。
數(shù)據(jù)準(zhǔn)備
本文所用的數(shù)據(jù)是OmicShare PCA分析工具的示例文件(如下圖)椎镣,大家可隨意下載練習(xí)(http://www.omicshare.com/tools/Home/Soft/pca)。
示例為6個樣本的1300多個基因的表達(dá)量數(shù)據(jù)兽赁,接下來需要做得是把每個樣本的對應(yīng)的1300多個數(shù)據(jù)用2個數(shù)據(jù)表示状答,降到2維后,就可用二維的散點圖展示刀崖。
這里每個基因的名稱視作1個變量惊科,因此需要對數(shù)據(jù)進(jìn)行手動轉(zhuǎn)置,為了分組著色亮钦,在前面加1列分組數(shù)據(jù)馆截,如下圖(Sheet1 →Sheet3)。然后打開Origin或悲,將數(shù)據(jù)粘貼到Origin的表格中孙咪。
對于這一點OmicShare的 PCA工具就顯得智能和方便多了,直接上傳數(shù)據(jù)巡语,點提交任務(wù)就好啦翎蹈。
分析作圖
點窗口右側(cè)的Apps,在彈出的窗口中點今天要用的PCA插件男公。
然后選擇輸入數(shù)據(jù)(Input data)荤堪,具體方法如下圖,注意這里的數(shù)據(jù)添加小技巧枢赔。
在繪圖設(shè)置中這里選2D的散點圖澄阳,如下圖,當(dāng)然你也可以選3D的散點圖(使用3個主成分)踏拜,點OK 即可完成分析和作圖碎赢。如果樣本較多,也可以選擇顯示置信區(qū)間橢圓(Show Confidence Ellipse)速梗。
雙擊Score Plot中的圖表肮塞,放大散點圖,然后就可以對圖表進(jìn)行個性化調(diào)整姻锁,比如改變標(biāo)記的形狀枕赵、顏色、大小位隶,顯示數(shù)據(jù)標(biāo)簽等拷窜。
最終的的效果如下:
APP安裝
Origin的強(qiáng)大之處在于具有很多官方的拓展工具(Apps),安裝方法與之前介紹的Google Map Import、Heat Map Dendrogram等一樣篮昧,只要將.opx的文件拖拽到打開的Origin界面即可完成安裝赋荆,注意最好安裝Origin 2017之后的版本。
本文用到的PCAC插件和示例數(shù)據(jù)已經(jīng)上傳到論壇恋谭,點擊?這里?可以下載糠睡。
關(guān)于PCA分析挽鞠,更詳細(xì)的教程請查閱周老師的帖子《Omicshare tools——二維PCA分析使用教程》疚颊。
今天的內(nèi)容就到這里啦~
拓展閱讀
參考文獻(xiàn)
Guo J, Qi J, He K, et al. The Asian cornborer Ostrinia furnacalis feeding increases the direct and indirect defense ofmid‐whorl stage commercial maize in the field[J]. Plant biotechnologyjournal, 2018.
為了更好的閱讀體驗,建議關(guān)注基迪奧生物公眾號~