第一次做差異剪接分析,rMATS做完后一頭霧水,查閱資料整理了一下結(jié)果文件式镐。
- 我使用的版本是v4.1.2,用conda安裝的奋蔚,軟件的安裝和使用就不細(xì)說(shuō)了,網(wǎng)上已經(jīng)有很多帖子烈钞,這里只對(duì)幾種比較重要的結(jié)果文件進(jìn)行解讀泊碑。說(shuō)是解讀,其實(shí)也只是翻譯了一下毯欣,目的是幫助自己更好理解馒过。
一些重要的區(qū)分
JC和JCEC區(qū)分
rMATS中,JC是Junction Counts的縮寫酗钞,表示跨越剪切位點(diǎn)的reads(暫且叫為JC reads)數(shù)量腹忽,JCEC是Junction Counts和Exon Counts的縮寫合并,Exon Counts表示不跨越剪切位點(diǎn)的reads數(shù)量砚作,JCEC可以理解為所有比對(duì)上的reads(暫且叫為JCEC reads)窘奏。他們的關(guān)系見下圖:
IJC和SJC區(qū)分
這里引用一位老哥的帖子https://www.plob.org/article/22921.html,自己做了一些標(biāo)注
IJC表示外顯子包含的reads數(shù)目
SJC表示外顯子跳躍的reads數(shù)目
注意葫录,圖中I和S都是外顯子着裹,另外外顯子包含是我瞎起的名字。
rMATS中的AS分類
- SE 外顯子跳躍
- A5SS 5'端可變剪切
- S3SS 3'端可變剪切
- MXE 外顯子選擇性跳躍
- RI 內(nèi)含子保留
結(jié)果文件類型
rMATS生成的文件大致以下幾種:
- [AS_Event].MATS.JC.txt: 只計(jì)算Junction Counts(跨越剪切位點(diǎn)的reads)的最終輸出結(jié)果
- [AS_Event].MATS.JCEC.txt: 計(jì)算了跨越剪切位點(diǎn)的reads和不跨越剪切位點(diǎn)的最終輸出結(jié)果
- fromGTF.[AS_Event].txt: 通過(guò)GTF文件和RNA鑒定的所有選擇性剪接(AS)事件
- fromGTF.novelJunction.[AS_Event].txt: 考慮了RNA后確定的選擇性剪接(AS)事件压昼,不僅僅考慮GTF文件求冷。這個(gè)結(jié)果只用跨越剪切位點(diǎn)進(jìn)行計(jì)算。
- fromGTF.novelSpliceSite.[AS_Event].txt: 只用不跨越剪切位點(diǎn)計(jì)算的結(jié)果窍霞。分析時(shí)使用參數(shù) --novelSS 才會(huì)計(jì)算。
- JC.raw.input.[AS_Event].txt: 跨越剪切位點(diǎn)的reads的AS事件計(jì)數(shù)
- JCEC.raw.input.[AS_Event].txt: 所有reads的AS事件計(jì)數(shù)
[AS_Event].MATS.JC.txt的結(jié)果文件
<font size=1>dfjioan</font>
第幾列 | 第幾列 | 第幾列 | 第幾列 | ||
---|---|---|---|---|---|
表頭 | 描述 | A3SS.MATS.JC.txt MXE.MATS.JC.txt |
RI.MATS.JC.txt | SE.MATS.JC.txt | A5SS.MATS.JC.txt |
ID | AS事件編號(hào) | 1 | 1 | 1 | 1 |
GeneID | 可變剪接事件所在基因編號(hào) | 2 | 2 | 2 | 2 |
geneSymbol | 可變剪接事件所在基因名稱 | 3 | 3 | 3 | 3 |
chr | 可變剪接事件所在染色體 | 4 | 4 | 4 | 4 |
strand | 可變剪接事件所在鏈的方向 | 5 | 5 | 5 | 5 |
longExonStart_0base | 較長(zhǎng)外顯子的起始位點(diǎn) | 6 | |||
longExonEnd | 較長(zhǎng)外顯子的終止位點(diǎn) | 7 | |||
shortES | 較短外顯子的起始位點(diǎn) | 8 | |||
shortEE | 較短外顯子的終止位點(diǎn) | 9 | |||
flankingES | 差異外顯子附近的外顯子的起始位點(diǎn) | 10 | |||
flankingEE | 差異外顯子附近的外顯子的終止位點(diǎn) | 11 | |||
exonStart_0base | 外顯子的起始位點(diǎn) | 6 | |||
exonEnd | 外顯子的終止位點(diǎn) | 7 | |||
1stExonStart_0base | 第一個(gè)外顯子的起始位點(diǎn) | 6 | |||
1stExonEnd | 第一個(gè)外顯子的終止位點(diǎn) | 7 | |||
2ndExonStart_0base | 第二個(gè)外顯子的起始位點(diǎn) | 8 | |||
2ndExonEnd | 第二個(gè)外顯子的終止位點(diǎn) | 9 | |||
riExonStart_0base | 包含內(nèi)含子的外顯子的起始位點(diǎn) | 6 | |||
riExonEnd | 包含內(nèi)含子的外顯子的終止位點(diǎn) | 7 | |||
upstreamES | 上游外顯子的起始位點(diǎn) | 10 | 8 | 8 | |
upstreamEE | 上游外顯子的終止位點(diǎn) | 11 | 9 | 9 | |
downstreamES | 下游外顯子的起始位點(diǎn) | 12 | 10 | 10 | |
downstreamEE | 下游外顯子的起始位點(diǎn) | 13 | 11 | 11 | |
ID | 12 | 14 | 12 | 12 | |
IJC_SAMPLE_1 | 樣品1外顯子包含(見下面的解釋)的reads數(shù)目拯坟,重復(fù)樣品用逗號(hào)隔開 | 13 | 15 | 13 | 13 |
SJC_SAMPLE_1 | 樣品1外顯子跳躍的reads數(shù)目但金,重復(fù)樣品用逗號(hào)隔開 | 14 | 16 | 14 | 14 |
IJC_SAMPLE_2 | 樣品2外顯子包含(見下面的解釋)的reads數(shù)目,重復(fù)樣品用逗號(hào)隔開 | 15 | 17 | 15 | 15 |
SJC_SAMPLE_2 | 樣品2外顯子跳躍的reads數(shù)目郁季,重復(fù)樣品用逗號(hào)隔開 | 16 | 18 | 16 | 16 |
IncFormLen | 外顯子包含轉(zhuǎn)錄本的長(zhǎng)度冷溃,用于標(biāo)準(zhǔn)化 | 17 | 19 | 17 | 17 |
SkipFormLen | 外顯子跳越轉(zhuǎn)錄本的長(zhǎng)度,用于標(biāo)準(zhǔn)化 | 18 | 20 | 18 | 18 |
PValue | 19 | 21 | 19 | 19 | |
FDR | 校正后的PValue | 20 | 22 | 20 | 20 |
IncLevel1 | 樣本1的外顯子包含的水平梦裂。重復(fù)樣品用逗號(hào)分隔似枕。根據(jù)標(biāo)準(zhǔn)化計(jì)數(shù)計(jì)算 | 21 | 23 | 21 | 21 |
IncLevel2 | 樣本2的外顯子包含的水平。重復(fù)樣品用逗號(hào)分隔年柠。根據(jù)標(biāo)準(zhǔn)化計(jì)數(shù)計(jì)算 | 22 | 24 | 22 | 22 |
IncLevelDifference | average(IncLevel1)-average(IncLevel2) | 23 | 25 | 23 | 23 |
</font>
summary.txt文件
這里用以下命令對(duì)summary.txt進(jìn)行了轉(zhuǎn)置凿歼,更方便查看
for i in {1..9}; do cut -f $i summary.txt |xargs|sed 's/ /\t/g' ;done
EventType | SE | A5SS | A3SS | MXE | RI |
---|---|---|---|---|---|
AS事件類型 | 外顯子跳躍 | 5'端可變剪切 | 3'端可變剪切 | 外顯子選擇性跳躍 | 內(nèi)含子保留 |
TotalEventsJC 兩組樣本中)所有跨越剪切位點(diǎn)事件的數(shù)量 |
12548 | 527 | 534 | 1047 | 888 |
TotalEventsJCEC (兩組樣本中)所有跨越與不跨越剪切位點(diǎn)事件的數(shù)量 |
12818 | 538 | 550 | 1059 | 915 |
SignificantEventsJC (兩組樣本中)跨越剪切位點(diǎn)事件達(dá)到顯著水平的數(shù)量 |
1088 | 98 | 82 | 239 | 212 |
SigEventsJCSample1HigherInclusion (與樣本2相比,)樣本1中跨越剪切位點(diǎn)事件達(dá)到顯著水平的數(shù)量 |
370 | 60 | 45 | 92 | 144 |
SigEventsJCSample2HigherInclusion (與樣本1相比,)樣本2中跨越剪切位點(diǎn)事件達(dá)到顯著水平的數(shù)量 |
718 | 38 | 37 | 147 | 68 |
SignificantEventsJCEC (兩組樣本中)跨越與不跨越剪切位點(diǎn)事件達(dá)到顯著水平的數(shù)量 |
1128 | 106 | 95 | 252 | 238 |
SigEventsJCECSample1HigherInclusion (與樣本2相比,)樣本1中跨越與不跨越剪切位點(diǎn)事件達(dá)到顯著水平的數(shù)量 |
391 | 66 | 52 | 100 | 163 |
SigEventsJCECSample2HigherInclusion (與樣本1相比,)樣本2中跨越與不跨越剪切位點(diǎn)事件達(dá)到顯著水平的數(shù)量 |
737 | 40 | 43 | 152 | 75 |
其他文件的表頭信息也差不多。
參考資料:
rMATS差異可變剪切分析 | Public Library of Bioinformatics (plob.org)
rmats-turbo/README.md at v4.1.2 · Xinglab/rmats-turbo · GitHub