今天我們介紹一款使用三代全長轉(zhuǎn)錄本數(shù)據(jù)進行轉(zhuǎn)錄本校正叶摄,聚類,可變剪切分析法瑟,定量和差異分析為一體的工具 - FLAIR剩彬。來自加利福尼亞大學圣克魯斯分校(University of California,Santa Cruz)的Angela Brooks團隊(圖1)開發(fā)的全長可變轉(zhuǎn)錄本(isoform)分析工具FLAIR (Full-Length Alternative Isoform analysis of RNA)弹惦,于2020年03月18號發(fā)表在《Nature Communications》雜志上否淤,題目為 Full-length transcript characterization of SF3B1 mutation in chronic lymphocytic leukemia reveals downregulation of retained introns。該工具可用來鑒定高可信度轉(zhuǎn)錄本棠隐,差異剪切事件分析和差異轉(zhuǎn)錄本異構(gòu)體(isoform)分析石抡。
成熟mRNA前體(Pre-mRNA) 的剪接是由一種被稱為剪接體(Spliceosome)的 RNA-蛋白質(zhì) 復合物執(zhí)行的。剪接體由 5 個小的核糖核蛋白顆粒(snRNPs助泽,包括 U1啰扛、U2、U4嗡贺、U5 和 U6)和非 snRNP因子組裝而成隐解。在這 5 個 snRNP中,U2 snRNP在內(nèi)含子的識別和前體折疊的組裝過程中起著重要作用诫睬。SF3B1是人體U2 snRNP的核心成分煞茫。在各種癌癥中,剪接因子SF3B1中的突變已與基因剪接的特征性改變相關(guān)聯(lián)摄凡。特別是续徽,SF3B1中的復發(fā)性體細胞突變(在同一類疾病不同患者中反復出現(xiàn)的體細胞突變,recurrent somatic mutations)已與多種疾病相關(guān)聯(lián)亲澡,包括慢性淋巴細胞白血睬张ぁ(Chronic Lymphocytic Leukemia,CLL)谷扣、葡萄膜黑色素瘤(Uveal Melanoma)土全、乳腺癌( Breast Cancer)和骨髓增生異常綜合征( Myelodysplastic Syndromes)。雖然已知SF3B1基因中的體細胞突變會導致基因剪接發(fā)生變化会涎,但識別全長轉(zhuǎn)錄本異構(gòu)體(isoform)的變化可能會更好地闡明這些突變的功能后果裹匙。
本文選取3個無SF3B1突變CLL患者樣本(CLL - SF3B1WT)、3個SF3B1K700E 突變CLL患者樣本(CLL - SF3B1K700E) 和3個普通B淋巴細胞樣本為研究對象末秃,通過三代測序 Oxford Nanopore(ONT)技術(shù)平臺進行全長轉(zhuǎn)錄組測序概页,并為此開發(fā)了FLAIR分析流程用于識別高可信度轉(zhuǎn)錄本,進行差異剪接事件和差異轉(zhuǎn)錄本異構(gòu)體(isoform)分析练慕。利用三代數(shù)據(jù)惰匙,作者證實了SF3B1突變與差異性3'剪接位點的變化相關(guān)技掏,與先前的研究結(jié)果一致。還觀察到與SF3B1突變相關(guān)的內(nèi)含子保留事件的明顯下調(diào)项鬼。全長轉(zhuǎn)錄本分析將多個可變剪接事件聯(lián)系在一起哑梳,可以更好地估計有效與無效異構(gòu)體(isoform)的豐度。此項工作展示了納米孔測序在癌癥和轉(zhuǎn)錄本剪接研究中的潛在實用性(圖2)绘盟。
一鸠真、軟件介紹
FLAIR除了單獨使用三代測序數(shù)據(jù),也支持二代短讀長測序數(shù)據(jù)龄毡,用以輔助增加識別剪切位點的準確度吠卷。FLAIR通過多步比對和剪切位點過濾以增加isoform識別的可信度,降低數(shù)據(jù)質(zhì)量引起信號噪音的影響沦零。FLAIR通過算法設(shè)計能夠從三代ONT數(shù)據(jù)中識別微小的剪切變化祭隔。FLAIR軟件一共六個大模塊(modules),flair align
路操,flair correct
疾渴,flair collapse
,flair quantify
屯仗,flair diffExp
和flair diiffSplice
(圖3)程奠。
-
flair align
:將三代測序序列與參考基因組進行比對。 -
flair correct
:根據(jù)參考基因組注釋文件對剪切位點進行校正祭钉。如果提供二代測序數(shù)據(jù),可進一步進行糾錯校正己沛。 -
flair collapse
: 將校正后的序列進行聚類和合并慌核,最終形成來源于樣本的高可信度轉(zhuǎn)錄本參考序列。對于所有實驗重復/不同條件處理的樣本經(jīng)過上一步序列校正后申尼,在這一步進行整合聚類和合并垮卓。 -
flair quantify
:對所有樣本中的isoforms進行表達定量,生成表達矩陣师幕。 -
flair diffExp
:在指定分組的情況下粟按,對組間進行差異表達分析。 -
flair diiffSplice
:對組間差異可變剪切事件進行分析霹粥。
建議在運行flair collapse
步驟之前合并所有樣本的校正序列(psl
或 bed
文件 )灭将,這樣方便于后面的定量。bed12
和 psl
文件之間可以利用 kentUtils 中的bedToPsl
或 pslToBed
命令進行轉(zhuǎn)換后控。
二庙曙、軟件安裝
Flair v2.0 - 2023.6.14
官方github網(wǎng)址:https://github.com/BrooksLabUCSC/flair
操作文檔:https://flair.readthedocs.io/en/latest/
- 最方便和簡單的方法還是利用
conda
進行安裝。
#創(chuàng)建Flair軟件環(huán)境浩淘,并安裝
$ conda create -n flair -c conda-forge -c bioconda flair
$ conda activate flair
$ flair [align/correct/...]
- 支持
docker
鏡像捌朴。
$ docker pull brookslab/flair:latest
$ docker run -w /usr/data -v [your_path_to_data]:/usr/data brookslab/flair:latest flair [align/correct/...]
三吴攒、軟件使用
上面我們提到FLAIR
包含多個模塊,需要依次運行
1. flair align
輸入文件:
- 參考基因組:
ref.fa
砂蔽。 - 三代測序數(shù)據(jù):
reads.fq
或reads.fa
洼怔。
$ flair align -g genome.fa -r <reads.fq>|<reads.fa> [options]
此模塊使用minimap2軟件對三代測序數(shù)據(jù)與提供的參考基因組(ref.fa
)進行比對,最后會將SAM
文件轉(zhuǎn)化為BED12
文件左驾,同時會保留比對BAM
文件镣隶。
輸出文件:
flair.aligned.bam
flair.aligned.bam.bai
flair.aligned.bed
選項:
- 必要選項
--reads Raw reads in fasta or fastq format. This argument accepts multiple
(comma/space separated) files. # 下機測序序列,接受.fasta 或 .fastq格式文件什荣;多個文件可以逗號/空格分開矾缓。
At least one of the following arguments is required (至少提供一個):
--genome Reference genome in fasta format. Flair will minimap index this file
unless there already is a .mmi file in the same location. # 基因組參考序列(.fa),minimap會自動建立索引稻爬。
--mm_index If there already is a .mmi index for the genome it can be supplied
directly using this option. # 可以直接輸入minimap索引文件 .mmi嗜闻。
- 可選選項
--help Show all options. #幫助命令。
--output Name base for output files (default: flair.aligned). You can supply
an output directory (e.g. output/flair_aligned) but it has to exist;
Flair will not create it. If you run the same command twice, Flair
will overwrite the files without warning. #輸出文件夾路徑和文件前綴桅锄,文件夾必須自己創(chuàng)建琉雳。
--threads Number of processors to use (default 4). #線程,默認為4友瘤。
--junction_bed Annotated isoforms/junctions bed file for splice site-guided
minimap2 genomic alignment. #異構(gòu)體/連接位點注釋的bed文件翠肘,用于輔助minimap基因組比對。
--nvrna Use native-RNA specific alignment parameters for minimap2 (-u f -k 14) #RNA直接測序選項辫秧。
--quality Minimum MAPQ score of read alignment to the genome. The default is 1,
which is the lowest possible score. #比對的MAPQ值束倍,默認為最低的 1。
-N Retain at most INT secondary alignments from minimap2 (default 0). Please
proceed with caution, changing this setting is only useful if you know
there are closely related homologs elsewhere in the genome. It will
likely decrease the quality of Flair's final results. #保留幾個次好的比對結(jié)果盟戏,默認為0绪妹。
--quiet Dont print progress statements. #不輸出過程。
注釋:
- 如果對人類全長轉(zhuǎn)錄本進行分析柿究,建議最好使用Heng Li推薦的人類參考基因組 GCA_000001405.15_GRCh38_no_alt_analysis_set邮旷,詳細參見Heng Li的博客。
- 如果下機數(shù)據(jù)來自 Oxford Nanopre(ONT)平臺蝇摸,建議對原始數(shù)據(jù)使用Pychopper后(目的是鑒定全長轉(zhuǎn)錄組本)婶肩,再運行FLAIR。
- 如果測序數(shù)據(jù)已經(jīng)比對過了貌夕,可以使用
bam2Bed12
將bam
文件轉(zhuǎn)換為bed12
律歼,然后再運行flair correct
。 - 關(guān)于
--nvrna
選項設(shè)置蜂嗽,可以參考minimap2文檔苗膝。 - 關(guān)于比對質(zhì)量MAPQ: MAPQ scores。
2. flair correct
輸入文件:
- 上一步比對后的bed文件:
query.bed12
。 - 參考基因組:
ref.fa
辱揭。 - 基因組注釋文件:
ref.gtf
离唐。 - 內(nèi)含子界定文件(可選):
introns.tab
。
usage: flair correct -q query.bed12 [-f annotation.gtf]|[-j introns.tab] -g genome.fa [options]
輸出文件:
-
<prefix>_all_corrected.bed
校正序列的bed文件问窃,供下一模塊使用亥鬓。 -
<prefix>_all_inconsistent.bed
舍棄的比對序列。 -
<prefix>_cannot_verify.bed
如果所在染色體沒有注釋域庇,序列會放入此文件嵌戈。
選項:
- 必要選項
--query Uncorrected bed12 file, e.g. output of flair align. #上一步比對后的bed12文件。
--genome Reference genome in fasta format. #基因組參考文件听皿。
At least one of the following arguments is required:
--shortread Bed format splice junctions from short-read sequencing. You can
generate these from SAM format files using the junctions_from_sam
program that comes with Flair. # 來自于二代短讀長測序的剪切位點(bed文件格式)熟呛,可以利用FLAIR自帶的junctions_from_sam腳本,將比對后生成的SAM文件轉(zhuǎn)化為BED文件尉姨。
--gtf GTF annotation file. #基因組注釋文件庵朝。
- 可選選項
--help Show all options #幫助命令。
--output Name base for output files (default: flair). You can supply an
output directory (e.g. output/flair) but it has to exist; Flair
will not create it. If you run the same command twice, Flair will
overwrite the files without warning. #輸出文件夾路徑和文件前綴又厉,文件夾必須自己創(chuàng)建九府。
--threads Number of processors to use (default 4). #線程,默認為4覆致。
--nvrna Specify this flag to make the strand of a read consistent with
the input annotation during correction. #RNA直接測序選項侄旬。
--ss_window Window size for correcting splice sites (default 15). #校正剪切位點的‘窗口(范圍)’大小,默認值為15煌妈。
--print_check Print err.txt with step checking. #輸出報錯信息儡羔。
3. flair collapse
輸入文件:
- 上一步經(jīng)過校正的轉(zhuǎn)錄本bed文件:
<prefix>_all_corrected.bed
。 - 參考基因組:
ref.fa
璧诵。 - 第一步提供的三代測序數(shù)據(jù):
reads.fq
或reads.fa
笔链。
usage: flair collapse -g genome.fa -q <query.bed> -r <reads.fq>/<reads.fa> [options]
通過校正后的序列定義的高可信度isoforms。因為FLAIR沒有利用注釋文件去合并isoforms腮猖,F(xiàn)LAIR將會以和isoform具有共有剪切位點鏈的名字命名序列。建議提供使用
--gft
選項提供注釋文件赞枕,這樣FLAIR識別的isoforms可以以注釋文件中相匹配的isoforms的名字進行重命名(gtf文件中transcript_id里的名稱)澈缺。這一步產(chǎn)生的中間文件會被刪除,如果想保留則可以使用
--keep_intermediate
炕婶,并且使用--temp_dir
提供存儲路徑姐赡。如果有多個樣本,經(jīng)過校正的序列
bed
文件需要整合柠掂,然后才能運行flair-collapse
项滑。另外,所有原始的fasta
或fastq
文件用--reads指定涯贞,樣本之間用空格/逗號分開枪狂,或者合并成一個文件危喉。請注意,
flair collapse
暫時還不能處理較大的bed
文件 (>1G)州疾。如果發(fā)現(xiàn)FLAIR占用太多內(nèi)存辜限,可以將bed
文件按照染色體分開,然后分別運行严蓖。
輸出文件:
isoforms.bed
isoforms.gtf
isoforms.fa
選項:
- 必要選項
--query Bed file of aligned/corrected reads #比對完成/經(jīng)過校正的序列
--genome FastA of reference genome #參考基因組
--reads FastA/FastQ files of raw reads, can specify multiple files #原始三代測序數(shù)據(jù)fasta/fastq薄嫡, 可以指定多個。
- 可選選項
--help Show all options. #幫助
--output Name base for output files (default: flair.collapse). #命名輸出文件颗胡,默認為flair.collapse毫深。
You can supply an output directory (e.g. output/flair_collapse) #指定輸出文件夾。
--threads Number of processors to use (default: 4). #線程數(shù)毒姨,默認為4哑蔫。
--gtf GTF annotation file, used for renaming FLAIR isoforms to
annotated isoforms and adjusting TSS/TESs. #gtf注釋文件,用于FLAIR聚類的isoform的重新命名手素,調(diào)整轉(zhuǎn)錄本起始和結(jié)束位點鸳址。
--generate_map Specify this argument to generate a txt file of read-isoform
assignments (default: not specified).#生成序列對應isoform的文本文件,默認不指定泉懦。
--annotation_reliant Specify transcript fasta that corresponds to transcripts
in the gtf to run annotation-reliant flair collapse; to ask flair
to make transcript sequences given the gtf and genome fa, use
--annotation_reliant generate. #產(chǎn)生相應的轉(zhuǎn)錄本fasta序列文件稿黍。
- 支持序列參數(shù)選項
--support Minimum number of supporting reads for an isoform; if s < 1,
it will be treated as a percentage of expression of the gene
(default: 3). #最小幾個序列支持一個isoform,默認為3崩哩。
--stringent Specify if all supporting reads need to be full-length (80%
coverage and spanning 25 bp of the first and last exons). #支持序列必須都是全長(80%的覆蓋率巡球,第一個和最后一個外顯子至少有25個堿基)
--check_splice Enforce coverage of 4 out of 6 bp around each splice site and
no insertions greater than 3 bp at the splice site. Please note:
If you want to use --annotation_reliant as well, set it to
generate instead of providing an input transcripts fasta file,
otherwise flair may fail to match the transcript IDs.
Alternatively you can create a correctly formatted transcript
fasta file using gtf_to_psl #至少覆蓋剪切位點6個中的4個,插入序列不能大約3bp邓嘹。
--trust_ends Specify if reads are generated from a long read method with
minimal fragmentation. #如果序列來自長序列建庫方法(最小程度的打斷)
--quality Minimum MAPQ of read assignment to an isoform (default: 1). #序列歸為isoform最低的MAPQ值酣栈。
- 變異選項
--longshot_bam BAM file from Longshot containing haplotype information for each read. #包含單倍型信息的BAM文件。
--longshot_vcf VCF file from Longshot. #包含變異信息的VCF文件汹押。
關(guān)于Longshot variant caller矿筝,請參考github page。
- 轉(zhuǎn)錄本起始和終止
--end_window Window size for comparing transcripts starts (TSS) and ends
(TES) (default: 100). #比較轉(zhuǎn)錄本起始和終止的窗口大小棚贾,默認為100窖维。
--promoters Promoter regions bed file to identify full-length reads. #啟動子區(qū)域的bed文件以鑒定全長序列。
--3prime_regions TES regions bed file to identify full-length reads. #轉(zhuǎn)錄本終止區(qū)域的bed文件以鑒定全長序列妙痹。
--no_redundant <none,longest,best_only> (default: none). For each unique
splice junction chain, report options include:
- none best TSSs/TESs chosen for each unique
set of splice junctions #對每一個剪切位點選擇最好的起始和終止铸史。
- longest single TSS/TES chosen to maximize length #選擇最長的。
- best_only single most supported TSS/TES #單個支持最多的怯伊。
--isoformtss When specified, TSS/TES for each isoform will be determined
from supporting reads for individual isoforms (default: not
specified, determined at the gene level). #每一個isoform的轉(zhuǎn)錄起始和終止由支持它的序列所決定琳轿。
--no_gtf_end_adjustment Do not use TSS/TES from the input gtf to adjust
isoform TSSs/TESs. Instead, each isoform will be determined
from supporting reads. #不使用注釋文件去校正isoform的起始和終止。
--max_ends Maximum number of TSS/TES picked per isoform (default: 2). #每一個isoform選中的TSS/TES的最大數(shù)值,默認為2崭篡。
--filter Report options include:
- nosubset any isoforms that are a proper set of
another isoform are removed #同時歸為其它類的isoform被去除挪哄。
- default subset isoforms are removed based on support #基于支持數(shù)值去除isoforms子集。
- comprehensive default set + all subset isoforms
- ginormous comprehensive set + single exon subset
isoforms
- 其它選項
--temp_dir Directory for temporary files. use "./" to indicate current
directory (default: python tempfile directory). #指定臨時文件夾媚送。
--keep_intermediate Specify if intermediate and temporary files are to
be kept for debugging. Intermediate files include:
promoter-supported reads file, read assignments to
firstpass isoforms. #保留中間文件中燥。
--fusion_dist Minimium distance between separate read alignments on the
same chromosome to be considered a fusion, otherwise no reads
will be assumed to be fusions. #融合基因在同一個染色體上的分開距離。
--mm2_args Additional minimap2 arguments when aligning reads first-pass
transcripts; separate args by commas, e.g. --mm2_args=-I8g,--MD.
--quiet Suppress progress statements from being printed. #過程不輸出塘偎。
--annotated_bed BED file of annotated isoforms, required by --annotation_reliant.
If this file is not provided, flair collapse will generate the
bedfile from the gtf. Eventually this argument will be removed. #提供isoforms注釋的BED文件疗涉。
--range Interval for which to collapse isoforms, formatted
chromosome:coord1-coord2 or tab-delimited; if a range is specified,
then the --reads argument must be a BAM file and --query must be
a sorted, bgzip-ed bed file. #isoforms合并間隔。
建議使用命令:
人
$ flair collapse -g genome.fa --gtf gene_annotations.gtf -q reads.flair_all_corrected.bed -r reads.fastq
--stringent --check_splice --generate_map --annotation_reliant generate
酵母
$ flair collapse -g genome.fa --gtf gene_annotations.gtf -q reads.flair_all_corrected.bed -r reads.fastq
--stringent --no_gtf_end_adjustment --check_splice --generate_map --trust_ends
4. flair quantify
輸入文件:
- 樣本吟秩,分組和數(shù)據(jù)路徑:
reads_manifest.tsv
咱扣。 - 來自上一步的isoform序列文件:
isoforms.fa
。
usage: flair quantify -r reads_manifest.tsv -i isoforms.fa [options]
輸出文件:
樣本isoform表達矩陣涵防,可以用于后續(xù)flair_diffExp
和 flair_diffSplice
闹伪。
選項:
- 必要選項
--isoforms Fasta of Flair collapsed isoforms #最終合并的isoform序列文件,來自flair collapse壮池。
--reads_manifest Tab delimited file containing sample id, condition, batch,
reads.fq, where reads.fq is the path to the sample fastq file. #制表符分隔的樣本id偏瓤,實驗條件分組,實驗批次椰憋,測序數(shù)據(jù)(reads.fq)的路徑厅克。
reads_manifest.tsv
格式示例:
sample1 condition1 batch1 mydata/sample1.fq
sample2 condition1 batch1 mydata/sample2.fq
sample3 condition1 batch1 mydata/sample3.fq
sample4 condition2 batch1 mydata/sample4.fq
sample5 condition2 batch1 mydata/sample5.fq
sample6 condition2 batch1 mydata/sample6.fq
注意:前三列命名的時候不要出現(xiàn)下劃線。
- 可選選項
-help Show all options #幫助命令
--output Name base for output files (default: flair.quantify). You
can supply an output directory (e.g. output/flair_quantify). #指定輸出文件前綴和路徑橙依。
--threads Number of processors to use (default 4). #線程证舟,默認為4。
--temp_dir Directory to put temporary files. use ./ to indicate current
directory (default: python tempfile directory). #臨時文件存放路徑窗骑。
--sample_id_only Only use sample id in output header instead of a concatenation
of id, condition, and batch. #在表達矩陣表頭只顯示樣本名稱女责,而不是id,分組创译,批次都顯示抵知。
--quality Minimum MAPQ of read assignment to an isoform (default 1). #測序序列指定(歸類)到isoform時的最小MAPQ,默認值為1软族。
--trust_ends Specify if reads are generated from a long read method with
minimal fragmentation. #如果序列來自長序列建庫方法(最小程度的打斷)辛藻。
--generate_map Create read-to-isoform assignment files for each sample. #生成序列對應isoform的文本文件,默認不指定互订。
--isoform_bed isoform .bed file, must be specified if --stringent or
--check-splice is specified. #isoform的bed文件。如果指定--stringent和--check-splice痘拆,這必須提供仰禽。
--stringent Supporting reads must cover 80% of their isoform and extend
at least 25 nt into the first and last exons. If those exons
are themselves shorter than 25 nt, the requirement becomes
'must start within 4 nt from the start' or 'end within 4 nt
from the end'. #支持序列必須都是全長(80%的覆蓋率,第一個和最后一個外顯子至少有25個堿基)。
--check_splice Enforces coverage of 4 out of 6 bp around each splice site
and no insertions greater than 3 bp at the splice site. #至少覆蓋剪切位點6個中的4個吐葵,插入序列不能大約3bp规揪。
- 其它信息
后續(xù)flair_diffExp
和 flair_diffSplice
需要表達矩陣樣本表頭信息包含id,分組和批次信息温峭。所以建議一般不使用--sample_id
猛铅。
5. flair diffExp
輸入文件:
- 轉(zhuǎn)錄本定量表達矩陣:
counts_matrix.tsv
。
usage: flair_diffExp -q counts_matrix.tsv --out_dir out_dir [options]
這個模塊對兩個分組凤藏,每個分組可以有3個或者3個以上的重復實驗數(shù)據(jù)進行差異'isoform表達'和'isoform使用'的分析奸忽。
- FLAIR使用 DESeq2 同時進行基因(gene)和轉(zhuǎn)錄本異構(gòu)體(isoform)水平上的表達差異分析。
- FLAIR使用 DRIMSeq 只對轉(zhuǎn)錄本異構(gòu)體(isoform)的差異使用(usage)進行分析揖庄。通過檢測兩個分組條件之間異構(gòu)體(isoform) 的比例栗菜。
如果沒有實驗重復,可以使用diff_iso_usage進行分析蹄梢。
如果實驗分組大于兩組疙筹,你可以將表達矩陣自行拆分,或者自己運行 DESeq2 和DRIMSeq禁炒。
輸出文件:
運行完成以后輸出文件夾(--out_dir)路徑下會有以下文件而咆,MCF7
和A549
是實驗分組條件:
genes_deseq2_MCF7_v_A549.tsv
基因差異表達矩陣。genes_deseq2_QCplots_MCF7_v_A549.pdf
QC 質(zhì)控圖幕袱,更多細節(jié)參考 DESeq2 manual暴备。isoforms_deseq2_MCF7_v_A549.tsv
轉(zhuǎn)錄本異構(gòu)體(isoform)差異表達矩陣。isoforms_deseq2_QCplots_MCF7_v_A549.pdf
QC 質(zhì)控圖凹蜂。isoforms_drimseq_MCF7_v_A549.tsv
轉(zhuǎn)錄本異構(gòu)體(isoform)的差異使用矩陣馍驯。workdir
臨時文件,包括過濾掉的輸出文件玛痊。
選項:
- 必要選項
--counts_matrix Tab-delimited isoform count matrix from flair quantify #flair定量表達矩陣汰瘫。
--out_dir Output directory for tables and plots. #輸出文件夾路徑。
- 可選選項
--help Show this help message and exit #幫助擂煞。
--threads Number of threads for parallel DRIMSeq. #運行DRIMseq的線程數(shù)混弥。
--exp_thresh Read count expression threshold. Isoforms in which both
conditions contain fewer than E reads are filtered out (Default E=10) #isoform表達count數(shù)閾值,低于此值則舍去对省。默認值為10蝗拿。
--out_dir_force Specify this argument to force overwriting of files in
an existing output directory #輸出路徑。
6. flair diffSplice
輸入文件:
- 轉(zhuǎn)錄本定量表達矩陣:
counts_matrix.tsv
蒿涎。 - isoforms的bed文件:
isoforms.bed
usage: flair_diffSplice -i isoforms.bed -q counts_matrix.tsv [options]
這個模塊從轉(zhuǎn)錄本異構(gòu)體(isoform)中界定以下四類可變剪切事件(Alternative Splicing哀托,AS):
- intron retention (ir)
- alternative 3’ splicing (alt3)
- alternative 5’ splicing (alt5)
- cassette exons (es)
在可變剪接的所有模式中,外顯子跳躍(圖4a)是高等真核生物中最常見的可變剪接類型劳秋,被跳過的外顯子稱為盒式外顯子(cassette exons)仓手。例如胖齐,一個含有A、B嗽冒、C三個外顯子的基因呀伙,其最后的mRNA產(chǎn)物有ABC和AC兩種,可以被跳過的B外顯子就是盒式外顯子添坊。
如果每個分組中的樣本數(shù)等于或者大于3個剿另,則可以通過--test
選項,DRIMSeq將計算兩組間的差異可變剪切事件贬蛙。如果每組沒有樣本重復雨女,則可以用diffsplice_fishers_exact來進行差異統(tǒng)計學分析。
輸出文件:
diffsplice.alt3.events.quant.tsv
diffsplice.alt5.events.quant.tsv
diffsplice.es.events.quant.tsv
diffsplice.ir.events.quant.tsv
如果運行DRIMSeq速客,這會獲得以下結(jié)果(A和B為兩個分組):
drimseq_alt3_A_v_B.tsv
drimseq_alt5_A_v_B.tsv
drimseq_es_A_v_B.tsv
drimseq_ir_A_v_B.tsv
workdir
臨時文件戚篙,包括過濾掉的輸出文件。必要選項
--isoforms Isoforms in bed format from Flair collapse. #isoform的bed文件溺职。
--counts_matrix Tab-delimited isoform count matrix from Flair quantify. #isoform表達矩陣
--out_dir Output directory for tables and plots. #輸出文件夾路徑岔擂。
- 可選選項
--help Show all options. #幫助選項
--threads Number of processors to use (default 4). #使用線程,默認為4》
--test Run DRIMSeq statistical testing. #使用DRIMSeq進行統(tǒng)計學分析浪耘。
--drim1 The minimum number of samples that have coverage over an
AS event inclusion/exclusion for DRIMSeq testing; events
with too few samples are filtered out and not tested (6). #對可變剪切事件(保留和排除)有覆蓋度的最小樣本數(shù)乱灵。
--drim2 The minimum number of samples expressing the inclusion of
an AS event; events with too few samples are filtered out
and not tested (3). #包含保留可變剪切事件的最小樣本數(shù)。
--drim3 The minimum number of reads covering an AS event
inclusion/exclusion for DRIMSeq testing, events with too
few samples are filtered out and not tested (15). #對可變剪切事件(保留和排除)有覆蓋度的最小read數(shù)七冲。
--drim4 The minimum number of reads covering an AS event inclusion
for DRIMSeq testing, events with too few samples are
filtered out and not tested (5).#包含保留可變剪切事件的最小read數(shù)痛倚。
--batch If specified with --test, DRIMSeq will perform batch correction. #DRIMSeq可以進行批次校正。
--conditionA Specify one condition corresponding to samples in the
counts_matrix to be compared against condition2; by default,
the first two unique conditions are used. This implies --test. #指定差異分析比對組澜躺。
--conditionB Specify another condition corresponding to samples in the
counts_matrix to be compared against conditionA. #指定差異分析比對組蝉稳。
--out_dir_force Specify this argument to force overwriting of files in an
existing output directory #輸出路徑。
注釋:
基因和轉(zhuǎn)錄本異構(gòu)體(isoform)的差異結(jié)果根據(jù)p值進行篩選和排序掘鄙,p小于0.05的保留大于0.05的舍去耘戚。舍去的結(jié)果在workdir
文件夾里可以查看。
對于復雜的剪切結(jié)果操漠,例如下面所示flair diffSplice
結(jié)果里2個3'可變剪切收津,3個內(nèi)含子保留,和4個外顯子跳躍事件浊伙,對于每個事件的所有結(jié)果撞秋,包括保留和去除的轉(zhuǎn)錄本異構(gòu)體:
a3ss_feature_id coordinate sample1 sample2 ... isoform_ids
inclusion_chr1:80 chr1:80-400_chr1:80-450 75.0 35.0 ... a,e
exclusion_chr1:80 chr1:80-400_chr1:80-450 3.0 13.0 ... c
inclusion_chr1:500 chr1:500-650_chr1:500-700 4.0 18.0 ... d
exclusion_chr1:500 chr1:500-650_chr1:500-700 70.0 17.0 ... e
a3ss_feature_id coordinate sample1 sample2 ... isoform_ids
inclusion_chr1:80 chr1:80-400_chr1:80-450 75.0 35.0 ... a,e
exclusion_chr1:80 chr1:80-400_chr1:80-450 3.0 13.0 ... c
inclusion_chr1:500 chr1:500-650_chr1:500-700 4.0 18.0 ... d
exclusion_chr1:500 chr1:500-650_chr1:500-700 70.0 17.0 ... e
a3ss_feature_id coordinate sample1 sample2 ... isoform_ids
inclusion_chr1:80 chr1:80-400_chr1:80-450 75.0 35.0 ... a,e
exclusion_chr1:80 chr1:80-400_chr1:80-450 3.0 13.0 ... c
inclusion_chr1:500 chr1:500-650_chr1:500-700 4.0 18.0 ... d
exclusion_chr1:500 chr1:500-650_chr1:500-700 70.0 17.0 ... e
參考文獻:
1.Tang, A. D., Soulette, C. M., van Baren, M. J., Hart, K., Hrabeta-Robinson, E., Wu, C. J., & Brooks, A. N. (2020). Full-length transcript characterization of SF3B1 mutation in chronic lymphocytic leukemia reveals downregulation of retained introns. Nature Communications.