提到差異分析贡茅,大家都不陌生,什么是差異分析呢其做?差異分析的目的是為了什么呢顶考?怎么做差異分析呢?
首先差異分析是什么妖泄?
差異分析又可以被稱為差距分析驹沿,主要就是為了查看兩組之間影響兩組之間差距較大的因素有哪些。
? ? ? ? 對于基因芯片的差異分析而言蹈胡,由于芯片數(shù)據(jù)基本都是服從正態(tài)分布渊季。由于一次性找的基因多朋蔫,因此需要對多重試驗進行校正,控制假陽性却汉,目前基因芯片數(shù)據(jù)分析用的最多的就是limma包驯妄。limma包使用是廣義線性模型的一種,主要就是通過對每一個基因的表達量擬合成一個線性方程合砂。limma的分析包括ANOVA分析青扔、線性回歸等。該方法的核心步驟包括voom既穆、fit赎懦、eBays等步驟。
? ? ? ? 而對于高通量測序的差異分析分析而言幻工,由于高通量的read count 基本都是服從泊松分布励两,不能直接使用limma包篩選差異。一般情況下囊颅,使用DEseq2包和edgeR包對read count的高通量測序數(shù)據(jù)進行差異分析当悔,這兩個包都是基于負二項分布的模型,將數(shù)據(jù)進行轉(zhuǎn)化踢代,讓其滿足正態(tài)分布盲憎。
總之,不管是使用什么方法進行差異分析胳挎,核心點都是分為如下幾步:
1饼疙、預(yù)處理,不管是什么樣的表達數(shù)據(jù)慕爬,數(shù)據(jù)的預(yù)處理是非常重要的窑眯,過濾/取對數(shù),過濾的目的是為了去除某一些基因在所有樣本的表達變化較小的基因医窿,或者去除表達量較低的基因磅甩;而取對數(shù)的目的其實是為了伸縮數(shù)據(jù),讓數(shù)據(jù)更符合正態(tài)分布姥卢。
2卷要、差異計算,即計算兩組比較中独榴,不同基因在兩組的表達的差距僧叉,如用A組的基因比B組的基因的表達量,得到差異倍數(shù)棺榔,差異倍數(shù)越大彪标,說明該基因在A組和B組的表達差別越大,同樣的也說明該基因也就越重要掷豺。
3捞烟、p值的計算薄声,或者是FDR計算。在計算差異后题画,同樣的也需要計算該基因在兩組中的表達是否存在偶然性默辨,因此會根據(jù)數(shù)據(jù)分布的類型選擇合適的統(tǒng)計方法。如數(shù)據(jù)符合正態(tài)分布苍息,樣本量小于30使用t檢驗缩幸,樣本量大于30使用u檢驗,如果數(shù)據(jù)符合偏態(tài)分布竞思,使用秩和檢驗表谊。為了控制假陽性的存在,使用多重檢驗對p值進行校正盖喷,方法有很多爆办,如BH等等。
目前做差異分析的工具很多课梳,很多都是需要用到編程的距辆,這對于不會代碼的人來說,很不友好暮刃。有沒有一種工具跨算,可以做到直接輸入表達譜矩陣,直接作出差異分析的結(jié)果呢椭懊?
這里推薦生信豆芽菜平臺
如果是芯片數(shù)據(jù)诸蚕,直接用limma包做差異,如果是高通量測序數(shù)據(jù)氧猬,count數(shù)據(jù)則使用edgeR包或者是deseq2包做差異分析背犯,如果是tpm/fpkm則先取log,在進行差異分析狂窑。
上傳準備的文件都是一樣的,需要準備一個基因的表達譜數(shù)據(jù)桑腮,和一個分組文件泉哈,記得比較組和被比較組盡量不要出現(xiàn)中文,或者空格這些
表達譜數(shù)據(jù)
分組數(shù)據(jù):有兩列,第一列為樣本提陶,第二列為分組(最好只寫兩組)烫沙,不要出現(xiàn)空行,如果不確定可以選擇下載notepad進行查看隙笆。
運行后等到成功即可锌蓄。
如果不清楚可以查看左側(cè)的說明文檔升筏,寫的很詳細。