可變剪切介紹:
什么是基因的可變剪切?
有些基因的前體mRNA(pre-mRNA)通過(guò)不同的剪接方式(選擇不同的剪接位點(diǎn))產(chǎn)生不同的mRNA剪接異構(gòu)體消痛,這一過(guò)程稱為可變剪接(或者選擇性剪切)(Alternative Splicing)且叁。
轉(zhuǎn)錄組一般是指從細(xì)胞或組織的基因組所轉(zhuǎn)錄出來(lái)的RNA的總和,包括編碼蛋白質(zhì)的mRNA和各種非編碼RNA(rRNA,tRNA,snRNA,snoRNA,lncRNA,microRNA等)秩伞。真核生物的基因結(jié)構(gòu)是不連續(xù)的逞带,如下圖:
其基因組最初的轉(zhuǎn)錄產(chǎn)物其實(shí)并不是成熟的mRNA分子,而是它的前體pre-mRNA纱新,那么怎么變成成熟的mRNA呢展氓,就需要從pre-mRNA中將非編碼蛋白質(zhì)的內(nèi)含子(intron)切除,然后拼接剩下的編碼蛋白質(zhì)的外顯子(exon)脸爱。但實(shí)際上遇汞,在這個(gè)過(guò)程中,有多種多樣的前切和拼接方式阅羹,從而產(chǎn)生不同的剪切異構(gòu)體勺疼,也就咱們要說(shuō)的可變剪切。
常見的可變剪切可以分成6類:
1捏鱼、外顯子跳躍(Exon Skipping)
2执庐、內(nèi)含子保留(Intron Retention)
3、5'端可變剪接(Alternative 5' splice Site)
4导梆、3'端可變剪接(Alternative 3' splice Site)
5轨淌、最后一個(gè)外顯子可變剪接(Alternative Last Exon)
6、第一個(gè)外顯子可變剪接(Alternative First Exon)
有的會(huì)把5'端可變剪接(Alternative 5' splice Site)和3'端可變剪接(Alternative 3' splice Site)當(dāng)成一類看尼,因此只有五種可變剪切方式递鹉。
可變剪切的意義
可變剪切是調(diào)節(jié)基因表達(dá)和產(chǎn)生蛋白組多樣性的重要原因,是導(dǎo)致真核生物基因與蛋白質(zhì)數(shù)量差異效果的主要原因藏斩。
可變剪切預(yù)測(cè)軟件
比較舊的分析可變剪切的軟件主要有SpliceR躏结、SpliceGrapher、ASprofile以及Splicing Express等狰域,它們是基于cufflinks軟件的結(jié)果媳拴,將reads回帖到基因組序列后黄橘,根據(jù)位置和長(zhǎng)度及結(jié)構(gòu)信息,來(lái)確定或預(yù)測(cè)可能的剪切體的類型屈溉。目前主流已經(jīng)不再使用tophat+cufflinks流程了塞关。
CASH軟件將可變剪切分為以下幾類:
Cassette: cassetteexon, i.e. SE, Skipped exon
Cassette_multi: mutiple adjacent Cassette exons
A5SS: Alternative 5' splice site
A3SS: Alternative 3' splice site
AltStart: Alternative start exon
AltEnd: Alternative end exon
MXE: Mutually exclusive exons
IR: intron retention
關(guān)于Cassette說(shuō)明,參考作者文獻(xiàn)說(shuō)明子巾,之前的研究表明帆赢,SRSF10擁有一個(gè)保守的RNA識(shí)別基序,能夠結(jié)合AGAGAV或者AAAGACAAA线梗。我們對(duì)cassette類型可變剪接中的序列信息進(jìn)行了分析椰于,發(fā)現(xiàn)在三個(gè)物種中有一個(gè)共同的調(diào)控模式。通過(guò)更深入的分析后缠导,我們提出了一種SRSF10介導(dǎo)的剪接模型廉羔,當(dāng)外顯子具有GA富集的特征時(shí),通常能夠與SRSF10具有更高的親和力僻造,因此當(dāng)GA富集出現(xiàn)在下游外顯子時(shí)憋他,會(huì)導(dǎo)致cassette外顯子的跳躍,而GA富集發(fā)生在cassette外顯子上時(shí)髓削,則會(huì)發(fā)生該外顯子納入的情況竹挡。并且這種調(diào)控模式在雞、小鼠和人類中都高度保守立膛。
目前使用的可變剪切方法簡(jiǎn)介
比較舊的分析可變剪切的軟件主要有SpliceR揪罕、SpliceGrapher、ASprofile以及Splicing Express等宝泵,它們是基于cufflinks軟件的結(jié)果好啰,將reads回帖到基因組序列后,根據(jù)位置和長(zhǎng)度及結(jié)構(gòu)信息儿奶,來(lái)確定或預(yù)測(cè)可能的剪切體的類型框往。目前主流已經(jīng)不再使用tophat+cufflinks流程了。
目前公司用的主要用的是ASprofile和rmates闯捎。ASprofile是一款比較老的分析可變剪切的軟件椰弊,2013年發(fā)布,后期就沒有進(jìn)行維護(hù)瓤鼻,而且只能對(duì)每個(gè)樣品進(jìn)行可變剪切分析秉版,沒有差異分析,使用方法可參考博文http://blog.sina.com.cn/s/blog_d67ee9990102xjle.html茬祷,官網(wǎng)說(shuō)明:http://ccb.jhu.edu/software/ASprofile/
rMATS是一款利用RNA-Seq數(shù)據(jù)分析差異可變剪接的工具清焕,它在MATS(multivariate analysis of transcript
splicing)的基礎(chǔ)上針對(duì)有生物學(xué)重復(fù)的情況提出了新的統(tǒng)計(jì)模型。模型根據(jù)reads比對(duì)到不同轉(zhuǎn)錄本(是否包含選擇性剪接的外顯子)的比例來(lái)定義剪接位點(diǎn)的inclusion level,并用likelihood-ratio test檢驗(yàn)不同組中生物學(xué)重復(fù)的平均inclusion level的差異顯著性來(lái)判定差異可變剪接秸妥。但是目前在我們集群上運(yùn)行總是有些項(xiàng)目報(bào)錯(cuò)借卧、流程中斷,新版本的rMATS對(duì)沒有生物學(xué)重復(fù)的不支持筛峭,老版的支持沒有生物學(xué)重復(fù)的樣品,但是速度較慢陪每。官網(wǎng):http://rnaseq-mats.sourceforge.net/影晓,使用可參考博文:http://wap.sciencenet.cn/blog-3204459-1120611.html。
CASH軟件介紹
CASH(Comprehensive alternative splicing hunting)是可視化和用戶友好的軟件檩禾,旨在自我構(gòu)建AS(可變剪接)位點(diǎn)并檢測(cè)RNA-Seq數(shù)據(jù)樣本之間的差異AS事件挂签。 CASH包括兩個(gè)主要階段:SpliceCons(Splice site Construction)和SpliceDiff(差異AS檢測(cè))。通過(guò)從RNA-seq數(shù)據(jù)全面重建AS位點(diǎn)盼产,SpliceCons大大增加了對(duì)AS事件的識(shí)別饵婆,隨后,SpliceDiff使用兩種組合統(tǒng)計(jì)方法來(lái)改進(jìn)差異AS事件的檢測(cè)戏售。
與之前的ASD程序不同侨核,作者開發(fā)了一個(gè)名為SpliceCons的新模塊,該模塊在CASH中實(shí)現(xiàn)灌灾,并且還對(duì)腳本進(jìn)行了細(xì)化以檢測(cè)差異AS事件搓译。作者建議使用CASH,它現(xiàn)在取代了原始的ASD版本锋喜。
通過(guò)與Cuffdiff些己,MISO,DEXSeq和rMATS等已有算法進(jìn)行比較后發(fā)現(xiàn)嘿般,無(wú)論在有生物學(xué)重復(fù)還是無(wú)生物學(xué)重復(fù)樣本中段标,CASH都顯著提升了樣本之間差異可變剪接事件的檢測(cè)能力,尤其是新的可變剪接事件炉奴,驗(yàn)證準(zhǔn)確率高達(dá)70%逼庞!在針對(duì)不同測(cè)序深度數(shù)據(jù)的測(cè)試中,CASH始終表現(xiàn)出優(yōu)于其他算法的檢測(cè)率盆佣。即使是在低數(shù)據(jù)量下往堡,CASH依舊力壓其他算法,始終維持著極高的敏感性及特異性共耍。
CASH軟件下載
下載鏈接:https://sourceforge.net/projects/cash-program/
CASH軟件安裝
CASH軟件是免安裝的虑灰,下載后直接解壓使用,版本為cash version 2.2.1
unzipcash_v2.2.1.zip
cdcash_v2.2.1
java –jar cash.jar --help??
注意:cash軟件是java軟件痹兜,依賴java穆咐,由于集群的java對(duì)其不支持,因此下載了java:jre1.8.0_191進(jìn)行分析。Java version ≥ 1.8
CASH軟件參數(shù)說(shuō)明
cash軟件主要參數(shù)如下:
Version:
--version 輸出版本信息并退出对湃。print version information andquit
GUI:
--GUI?打開GUI交互界面崖叫。open the GUI interface
Input: (輸入?yún)?shù))
--Case:prefix1
files 處理組前綴處理組文件,多個(gè)樣品用逗號(hào)分隔拍柒。
Filesshould be sorted and indexed case bam files, using comma to seperate files.Index file(bai file) can be absent if parameter "--runSepChr" set toFalse.
bam文件需要經(jīng)過(guò)sorted和建過(guò)index心傀,如果參數(shù)—runSepChr設(shè)為False的話,可以沒有bai file文件拆讯,可以沒有index文件脂男。
justlike --Case:KO /home/user/ko1.bam,/home/user/ko2.sorted.bam
命令示范:--Case:KO /home/user/ko1.bam,/home/user/ko2.sorted.bam
--Control:prefix2
files對(duì)照組前綴對(duì)照組文件,多個(gè)樣品用逗號(hào)分隔种呐。
??? Sameas Case:prefix1其他要求與Case的一樣宰翅。
justlike --Control:WT /home/user/wt1.bam,/home/user/wt2.sorted.bam
命令示范:--Control:WT /home/user/wt1.bam,/home/user/wt2.sorted.bam
--GTF file.gtf
CASH needs reference gene annotations (eg. gtf/gff?file) and RNA-seq data to construct alternative splicing (AS) modelwithin genes
CASH軟件需要參考基因組的注釋文件,比如gtf或者gff來(lái)構(gòu)建基因的AS模型爽室。
Output:
--OutputoutFilePrefix
outputdirectory and prefix, example: --Output /home/user/myresult
輸出文件夾前綴汁讼,比如:--Output /home/user/myresult
Options:
--MergePvalA/G, default is G
It is recommend to use the default value(G), while the results showed a poor number is more sensitive. Users can switch G to A and get more specific results。
建議使用默認(rèn)參數(shù)G阔墩,如果結(jié)果顯示的數(shù)目較多嘿架、敏感性較好,使用者可以將G轉(zhuǎn)換為A以獲得更多的特異性結(jié)果戈擒。
A:arithmetic? weighted? mean?of? event-centric? strategy?and? exon-centric? strategy Pvalues(more specific)
A:以剪切事件中心策略和外顯子中心策略的P值的算術(shù)平均值眶明,這個(gè)結(jié)果會(huì)使得結(jié)果更具有特異性。
G:geometric weighted mean of event-centric strategy and exon-centric strategyPvalues(more sensitive)
G:以剪切事件中心策略和外顯子中心策略的P值的幾何平均值筐高,這個(gè)結(jié)果會(huì)使得結(jié)果更具有靈敏性搜囱。
--CombineTrue/False, default is False
False:if here are several replications, CASH treats them as biological replicates asusual
False:如果這里有多個(gè)生物學(xué)重復(fù),CASH軟件將視為生物學(xué)重復(fù)柑土。
True:? if?here? are? several?replications,? CASH? combines?case(control)? bam? files?to? be? one case(control) big bam file
True:如果這里有多個(gè)生物學(xué)重復(fù)蜀肘,CASH軟件將這幾個(gè)bam文件合并為一個(gè)更大的bam文件進(jìn)行分析。
--DisplayAllEventTrue/False, default is True
Agene may have several AS events on different exons, CASH can display allevents, or just show only one most significantly event
一個(gè)基因可能在不同的外顯子上有幾個(gè)AS事件稽屏,CASH可以顯示所有事件扮宠,或者只顯示一個(gè)最重要的事件
True:show all splicing event 顯示所有的剪切事件
False:show only one most significantly splicing event 顯示最顯著的幾個(gè)剪切事件
--StrandSpecificF/R/NONE, default is NONE
whenthe sequence library is strand specific, the parameter is used
當(dāng)建庫(kù)方式為特異性建庫(kù)方式的時(shí)候,使用此參數(shù)
F:first read of the pair-end reads represent the strand of the fragment, justlike ion proton
F:雙鏈的第一條鏈代表鏈的方向狐榔,就像Ion Proton測(cè)序儀坛增。
R:second read of the pair-end reads represent the strand of the fragment
R:雙鏈的第二條鏈代表鏈的方向,就像Ion Proton測(cè)序儀薄腻。
--SpliceConsTrue/False, default is True
SpliceCons? is?used? to?construct?AS? model? based?on? RNA-seq? data?and? reference? gene annotations, leading to detection ofnovel AS events in the samples
SpliceCons用于構(gòu)建基于RNA-seq數(shù)據(jù)和參考基因注釋的AS模型收捣,從而檢測(cè)樣品中的新AS事件。
True:construct AS model based on RNA-seq data and gtf/gff files. The process needsmore time
True:基于RNA-seq數(shù)據(jù)和gtf / gff文件構(gòu)建AS模型庵楷。這個(gè)過(guò)程需要更多時(shí)間罢艾。
False:employ AS model inferred from gtf/gff file
False:從gtf / gff文件中推斷AS模型楣颠。
--JuncAllSampleint, default is 25
Doesn'tcalculate AS event with the sum of all sample junction reads less thanJuncAllSample
所有樣本junction reads數(shù)的總和小于JuncAllSample時(shí)不算AS事件。
--JuncOneGroupint, default is 10
Doesn'tcalculate AS event with one group of junction reads less than JuncOneGroup
如果某個(gè)組的junction reads數(shù)少于JuncOneGroup將不算剪切事件咐蚯。
--minAnchorLen/-Aint, default is 5
Whencounting junction reads, exon-exon junctions spanned by reads with at leastthis many bases on each side
當(dāng)計(jì)算junction reads數(shù)和外顯子-外顯子junctions數(shù)是童漩,兩端至少有多少個(gè)堿基overlab才算。
--minIntronLen/-Iint, default is 25
The gaps between RNA-Seq reads with length > 25bp is considered to be intron
gap和RNA-Seq
reads overlap的長(zhǎng)度> 25bp被認(rèn)為是內(nèi)含子
--minJuncReadsForNewIso/-Jint, default is 10
Minjunction reads for reconstructing AS site
最少多少junction reads重構(gòu)剪切位點(diǎn)
--runSepChrTrue/False, default is True
Dueto some species (e.g. Hordeum vulgare) chromosomes with a huge length of basepairs, the java module 'htsjdk(v2.9.0)' can hardly support the index of thechromosomes and to fix the issue, we added this parameter and users can setthis parameter to False, which means CASH run without index files, but it willtake more memory and more computing time.
由于一些物種(例如Hordeum vulgare)染色體具有很長(zhǎng)的堿基對(duì)春锋,java模塊'htsjdk(v2.9.0)'很難支持染色體的索引矫膨,為了解決問(wèn)題,我們添加了這個(gè)參數(shù)期奔,用戶可以將此參數(shù)設(shè)置為False豆拨,這意味著CASH在沒有索引文件的情況下運(yùn)行,但它將占用更多內(nèi)存和更多計(jì)算時(shí)間能庆。
--ChrRegionchrId/chrId:startPos-endPos
WhilerunSepChr is True(default), one can set this parameter and CASH will onlycalculate this region.You can set value as chromosome Id like "--ChrRegionchr1" or set a specific region like "--ChrRegion chr1:1-9527"
當(dāng)runSepChr為True(默認(rèn)值)時(shí),可以設(shè)置此參數(shù)脚线,CASH將僅計(jì)算此區(qū)域搁胆。您可以將值設(shè)置為染色體ID,如“--ChrRegion chr1”或設(shè)置特定區(qū)域邮绿,如“--ChrRegion chr1:1-9527”渠旁。
CASH軟件測(cè)試
測(cè)試命令:
沒有生物學(xué)重復(fù):cash_v2.2.1/jre1.8.0_191/bin/java-jar -Xmx10g? cash.jar --Case:prefix1../C1/C1.bam --Control:prefix2 ../C2/C2.bam --GTF Gallus_gallus.Gallus_gallus-5.0.90.gtf--Output single_sample
有生物學(xué)重復(fù):cash_v2.2.1/jre1.8.0_191/bin/java-jar -Xmx10g? cash.jar --Case:Control../C1/C1.bam,../C2/C2.bam --Control:Treat ../T1/T1.bam,../T2/T2.bam --GTF Gallus_gallus.Gallus_gallus-5.0.90.gtf--Output multiple_samples
注:輸入文件為bam文件,這里的bam文件是經(jīng)過(guò)sort過(guò)后的bam文件船逮,并建index顾腊。
結(jié)果說(shuō)明:
得到兩個(gè)文件:multiple_samples.ControlvsTreat.alldiff.statistics.txt和multiple_samples.ControlvsTreat.alldiff.txt
multiple_samples.ControlvsTreat.alldiff.statistics.txt文件:
文件主要展示的可變剪切的統(tǒng)計(jì)信息、統(tǒng)計(jì)信息中簡(jiǎn)寫的含義和統(tǒng)計(jì)顯著性意義的閾值挖胃,這里為FDR小于0.05杂靶。結(jié)果顯示檢測(cè)的一共檢測(cè)到六種可變剪切結(jié)果,分別為A5SS酱鸭、A3SS吗垮、AltStart、AltEnd凹髓、MXE烁登、IR。
第二個(gè)文件是具體的可變剪切信息蔚舀。文件名為:multiple_samples.ControlvsTreat.alldiff.txt
CASH軟件資源消耗
CASH軟件引用文獻(xiàn)
[1]? ? Wu W, Zong J, Wei N, et al. CASH: a constructing comprehensive splice site method for detecting alternative splicing events[J]. Briefings in Bioinformatics, 2018, 19(5): 905-917.(CASH軟件文獻(xiàn))
[2]? ?Zhan X, Qian B, Cao F, et al. An ArabidopsisPWI and RRM motif-containing protein is critical for pre-mRNA splicing and ABAresponses[J]. Nature Communications, 2015, 6(1): 8139-8139.
[3]? ? Shakhmantsir I,Nayak S,Grant GR,Sehgal A.Spliceosomefactors target timeless (tim) mRNA to control clock protein accumulation andcircadian behavior in Drosophila[J].Elife.2018Dec 5;7. pii: e39821. doi: 10.7554/eLife.39821.
[4]? ? Lu X , Zhao Z A, Wang X , et al. Whole-transcriptome splicing profiling of E7.5 mouse primarygerm layers reveals frequent alternative promoter usage during mouse earlyembryogenesis[J]. Biology Open, 2018, 7(3):bio032508.
[5]? ? ?Dong A , Hieu C, Changsheng L , et al. Isoform Sequencing and State-of-Art Applications forUnravelling Complexity of Plant Transcriptomes[J]. Genes, 2018, 9(1):43-.
[6]? ? ?Zhang Y, Gao X,Sun M, et al. The FgSRP1 SR-protein gene is important for plant infection andpre-mRNA processing in Fusarium graminearum[J]. Environmental Microbiology,2017, 19(10): 4065-4079.
[7]? ? ?Carazo F, RomeroJ P, Rubio A, et al. Upstream analysis of alternative splicing: a review ofcomputational approaches to predict context-dependent splicing factors[J].Briefings in Bioinformatics, 2018.