01—研究背景
上一篇公眾號(hào)我們?yōu)榇蠹以敿?xì)的介紹了R軟件包limma篩選差異基因,limma包做差異分析要求數(shù)據(jù)滿足正態(tài)分布或近似正態(tài)分布,如基因芯片、TPM格式的高通量測(cè)序數(shù)據(jù)。隨著高通量測(cè)序價(jià)格的降低音五,RNA-seq測(cè)序技術(shù)與芯片測(cè)序技術(shù)相比具有通量高,GC偏好性較小羔沙,能發(fā)現(xiàn)未知的轉(zhuǎn)錄本等特點(diǎn)[1]躺涝,越來越多的科研人員選擇用轉(zhuǎn)錄組高通量測(cè)序技術(shù)來代替?zhèn)鹘y(tǒng)的芯片測(cè)序技術(shù)。高通量測(cè)序得到的原始數(shù)據(jù)為fastq文件撬碟,經(jīng)過數(shù)據(jù)質(zhì)控诞挨,比對(duì),定量之后得到count矩陣呢蛤。通常認(rèn)為Count數(shù)據(jù)不符合正態(tài)分布而服從泊松分布惶傻。對(duì)于count數(shù)據(jù)來說,用limma包做差異分析其障,誤差較大银室,所以小編今天給大家介紹另外兩個(gè)計(jì)算差異基因的方法,分別為edgeR[2]和DESeq2[3]励翼。值得一提的是edgeR和limma是由一個(gè)團(tuán)隊(duì)開發(fā)的蜈敢,算法有點(diǎn)過時(shí)了,DESeq2目前使用頻率較高汽抚。我們平臺(tái)不但集成了這兩個(gè)主流的分析方法抓狭,同時(shí)對(duì)差異分析結(jié)果進(jìn)行可視化,只需輸入表達(dá)矩陣和分組信息造烁,點(diǎn)擊鼠標(biāo)就可完成整個(gè)差異分析否过,老板再也不用催我敲代碼了。
02—使用方法
1.輸入網(wǎng)址:http://sangerbox.com/Tool
點(diǎn)擊“轉(zhuǎn)錄組Count數(shù)據(jù)差異分析工具”即可進(jìn)入分析界面
2.輸入數(shù)據(jù)格式 表達(dá)矩陣:行名為ENSG ID刃鳄,這里小編根據(jù)團(tuán)隊(duì)的項(xiàng)目經(jīng)驗(yàn)說明一下舵揭,這里使用的是ENSG ID 玫镐,并沒有將其轉(zhuǎn)化為Gene Symbol。原因是由于將ENSG ID轉(zhuǎn)化為Gene Symbol煤伟,如果將一個(gè)Gene Symbol對(duì)應(yīng)多個(gè)ENSG ID去中值或者取均值,得到的新矩陣會(huì)含有小數(shù)值木缝。而edgeR和DEseq2這兩個(gè)軟件要求輸入的文件中所有數(shù)值必須要是整數(shù)便锨,所以小編以前在做項(xiàng)目的過程中先用ENSG ID做差異分析,然后得到差異分析結(jié)果以后我碟,在將ENSG ID轉(zhuǎn)化為Gene Symbol鸿秆。列名為樣本名稱,下圖所示怎囚。
分組矩陣:共兩列卿叽,第一列為樣本名稱,要與表達(dá)矩陣的樣本名一一對(duì)應(yīng)恳守,第二列為樣本的分組信息考婴,如normal與tumour如下圖所示
3.參數(shù)設(shè)置
4.結(jié)果目錄:
在個(gè)人中心有結(jié)果目錄,如果事先不指定運(yùn)行結(jié)果目錄催烘,默認(rèn)輸入到Count_DEG目錄下沥阱,結(jié)果如下圖所示:
參考文獻(xiàn)
[1] Agarwal A, Koppstein D, Rozowsky J, et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 2010;11:383. Published 2010 Jun 17.[2] Robinson MD, McCarthy DJ, Smyth GK. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 2010;26(1):139‐140. [3] Love MI, Huber W, Anders S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 2014;15(12):550.