●可變剪切(differential splicing)也叫做選擇性剪切alternative splicing, 指的是在mRNA前體到成熟mRNA的過程當(dāng)中缀遍,不同的剪切方式使得同一個(gè)基因可以產(chǎn)生多個(gè)不同的成熟mRNA, 最終產(chǎn)生不同的蛋白質(zhì)
https://zhuanlan.zhihu.com/p/409865441
rMATs軟件可以識別5種可變剪接事件:Skippedexon (SE) 外顯子跳躍慕匠、Alternative5’ splice site (A5SS) 5’端可變剪切、Alternative3’ splice site (A3SS) 3’端可變剪切域醇、Mutuallyexclusive exons (MXE) 互斥可變外顯子台谊、Retainedintron (RI) 內(nèi)含子保留
1、安裝
可以用conda直接安裝
conda install -c bioconda rmats
2譬挚、使用
1)锅铅、計(jì)算可變剪接事件
rmats.py --b1 b1.txt \
--b2 b2.txt \
--gtf /home/sll/genome-sheep/Oar_rambouillet_v1.0-ncbi/GCF_002742125.1_Oar_rambouillet_v1.0_genomic.gtf \
--od AS \
--tmp tmp \
-t paired \
--readLength 150 \
--cstat 0.0001 \
--nthread 10
--b1 b1.txt 輸入sample1的txt格式的文件,文件內(nèi)以逗號分隔重復(fù)樣本的bam文件名
--b2 b2.txt 輸入sample2的txt格式的文件减宣,文件內(nèi)以逗號分隔重復(fù)樣本的bam文件名
-t readType 雙端測序則readType為paired盐须,單端測序則為single
--readLength 測序reads的長度,可以從質(zhì)控報(bào)告看
--gtf gtfFile 需要輸入的gtf文件
--od outDir 所有輸出文件的路徑(文件夾)
--nthread 設(shè)置線程數(shù)
--cstat The cutoff splicing difference. The cutoff used in the null hypothesis test for differential splicing
--statoff,進(jìn)行單樣本或者是單組的分析漆腌,并跳過統(tǒng)計(jì)分析
2)可視化
1 整體可視化
rmats2sashimiplot --b1 SRR17709921_sort.bam,SRR17709920_sort.bam,SRR17709917_sort.bam \
--b2 SRR17709910_sort.bam,SRR17709918_sort.bam,SRR17709919_sort.bam \
-t SE \
-e SE.MATS.JC.txt \
--l1 DP_L \
--l2 Han_L \
-o SE_plot &
可以將需要可視化的基因進(jìn)行篩選贼邓,重新做成SE.MATS.JC.txt這種文件,然后可視化就可以了
rmats2sashimiplot --b1 SRR17709911_sort.bam,SRR17709912_sort.bam,SRR17709913_sort.bam \
--b2 SRR17709916_sort.bam,SRR17709915_sort.bam,SRR17709914_sort.bam \
-t SE \
-e SE.MATS.JC.txt \
--l1 DP_M \
--l2 Han_M \
-o M_SE_plot
--b1 B1 sample_1 in bam format(s1_rep1.bam[,s1_rep2.bam])
--b2 B2 sample_2 in bam format(s2_rep1.bam[,s2_rep2.bam])
-t rMATS結(jié)果中產(chǎn)生的可變剪切類型{SE,A5SS,A3SS,MXE,RI}
-e EVENTS_FILE The rMATS output event file (Onlyif using rMATSformat result as event file).
--l1 L1 The label for first sample.
--l2 L2 The label for second sample.-o OUT_DIR The output directory.
2 基因坐標(biāo)輸入時(shí)
報(bào)錯(cuò)了
Gene: FGF1 in muscle
rmats2sashimiplot --b1 SRR17709911_sort.bam,SRR17709912_sort.bam,SRR17709913_sort.bam \
--b2 SRR17709910_sort.bam,SRR17709918_sort.bam,SRR17709919_sort.bam \
-c chrNC_040256.1:-:55979601:56069122:/home/sll/genome-sheep/Oar_rambouillet_v1.0-ncbi/GCF_002742125.1_Oar_rambouillet_v1.0_genomic.gtf \
--l1 DP_M \
--l2 Han_M -o ./plot
--b1 B1 sample_1 in bam format(s1_rep1.bam[,s1_rep2.bam])
--b2 B2 sample_2 in bam format(s2_rep1.bam[,s2_rep2.bam])
-t rMATS結(jié)果中產(chǎn)生的可變剪切類型{SE,A5SS,A3SS,MXE,RI}
-e EVENTS_FILE The rMATS output event file (Onlyif using rMATSformat result as event file).
--l1 L1 The label for first sample.
--l2 L2 The label for second sample.-o OUT_DIR The output directory.
3闷尿、結(jié)果展示
會輸出好幾種文件塑径,其中.MATS.JC.txt是我們要用到的文件
以MXE.MATS.JC.txt為例說明每列的意義,引自CSDN博主「次亞硫酸鈉」的原創(chuàng)文章https://blog.csdn.net/weixin_42910678/article/details/123587203:
ID GeneID geneSymbol chr strand 1stExonStart_0base 1stExonEnd 2ndExonStart_0base 2ndExonEnd upstreamES upstreamEE downstreamES downstreamEE ID IJC_SAMPLE_1 SJC_SAMPLE_1 IJC_SAMPLE_2 SJC_SAMPLE_2 IncFormLen SkipFormLen PValue FDR IncLevel1 IncLevel2 IncLevelDifference
0 "MS.gene23798" NA chr8.4 - 30758609 30758704 30759122 30759182 30758025 30758095 30760455 30760527 0 1 11 7 9 209 244 0.0120878457309 0.0604392286545 0.096 0.476 -0.38
1 "MS.gene61989" NA chr7.2 - 80697619 80697769 80704270 80704420 80697113 80697232 80705567 80706851 1 1 1 0 3 298 298 0.102057409464 0.34019136488 0.5 0.0 0.5
●ID: 官網(wǎng)描述“rMATS event id”填具,其實(shí)就是序號
●GenelD: 可變剪接事件所在基因編號
●geneSymbol: 可變剪接事件所在基因名稱
●chr: 可變剪接事件所在染色體
●strand: 可變剪接事件所在染色體鏈的方向
●1stExonStart_0base: 第一個(gè)可變剪接事件跳躍外顯子的起始位置晓勇,以0開始計(jì)數(shù)
●1stExonEnd: 第一個(gè)可變剪接事件跳躍外顯子的終止位置
●2ndExonStart_0base:第二個(gè)可變剪接事件跳躍外顯子的起始位置,以0開始計(jì)數(shù)
●2ndExonEnd: 第二個(gè)可變剪接事件跳躍外顯子的終止位置
●upstreamES: 可變剪接事件跳躍外顯子的上游exon起始位置
●upstreamEE: 可變剪接事件跳躍外顯子的上游exon終止位置
●downstreamES: 可變剪接事件跳躍外顯子的下游exon起始位置
●downstreamEE: 可變剪接事件跳躍外顯子的下游exon終止位置
●ID: 同上
●IJC_SAMPLE_1: 樣本一在inclusion junction(IJC)下的count數(shù)灌旧,重復(fù)樣本的結(jié)果以逗號分隔
●SJC_SAMPLE_1: 樣本一在skipping junction(SJC)下的count數(shù),重復(fù)樣本的結(jié)果以逗號分隔
●IJC_SAMPLE_2: 樣本二在inclusion junction(IJC)下的count數(shù)绰筛,重復(fù)樣本的結(jié)果以逗號分隔
●SJC_SAMPLE_2: 樣本二在skipping junction(SJC)下的count數(shù)枢泰,重復(fù)樣本的結(jié)果以逗號分隔
●IncFormLen: 可變剪接事件Exon Inclusion Isoform的有效長度
●SkipFormLen: 可變剪接事件Exon Skipping Isoform的有效長度
●PValue: 兩組樣本間可變剪接事件表達(dá)差異顯著性p值
●FDR: 可變剪接事件表達(dá)差異顯著性FDR值
●IncLevel1: 處理組可變剪接事件Exon Inclusion Isoform在兩個(gè)Isoform總表達(dá)量的比值,也就是PSI
●IncLevel2: 對照組可變剪接事件Exon Inclusion Isoform在兩個(gè)Isoform總表達(dá)量的比值铝噩,也就是PSI
●IncLevelDifference: IncLevel1與IncLevel2的差值衡蚂,和dPSI(different percent spliced in)差不多