STAR-Fusion
地址:Home · STAR-Fusion/STAR-Fusion Wiki · GitHub
輸出文件示例:
#FusionName JunctionReadCount SpanningFragCount SpliceType LeftGene LeftBreakpoint RightGene RightBreakpoint LargeAnchorSupport FFPM LeftBreakDinuc LeftBreakEntropy RightBreakDinuc RightBreakEntropy annots
THRA--AC090627.1? ? ? 27? ? ? ? ? ? ? ? 93? ? ? ? ? ? ? ? ONLY_REF_SPLICE? ? ? THRA^ENSG00000126351.8? ? ? ? ? chr17:38243106:+? AC090627.1^ENSG00000235300.3? ? chr17:46371709:+? YES_LDAS? ? ? ? ? ? 23875.8456? GT? ? ? ? ? ? ? 1.8892? ? ? ? ? ? AG? ? ? ? ? ? ? 1.9656? ? ? ? ? ? ["CCLE","FA_CancerSupp","INTRACHROMOSOMAL[chr17:8.12Mb]"]
輸出文件說(shuō)明(難懂列說(shuō)明):
JunctionReadCount:支持?jǐn)帱c(diǎn)的split-reads數(shù)目
SpanningFragCount:包含斷點(diǎn)的RNA片段數(shù)目(一個(gè)RNA片段的兩條reads分別比對(duì)到不同的基因上)
SpliceType:斷點(diǎn)是否發(fā)生在參考轉(zhuǎn)錄本上
LargeAnchorSupport:斷點(diǎn)是否有左右兩端長(zhǎng)度比較長(zhǎng)的split-reads支持(即:斷點(diǎn)是否傾向于發(fā)生在split-reads中間)捣域;缺乏spanning片段和LargeAnchorSupport支持的斷點(diǎn)傾向于是假陽(yáng)性跺讯;LDAS = long double anchor support
FFPM:fusion fragments per million total reads(每M reads中支持融合的片段數(shù))
LeftBreakEntropy|RightBreakEntropy:斷點(diǎn)左右15bp(外顯子上)序列的Shannon Entropy潮太,代表序列復(fù)雜度(0-2之間,越高越復(fù)雜)
annots:對(duì)融合基因的簡(jiǎn)要注釋
Arriba
輸出文件示例:
#gene1 gene2 strand1(gene/fusion) strand2(gene/fusion) breakpoint1 breakpoint2 site1 site2 type split_reads1 split_reads2 discordant_mates coverage1 coverage2 confidence reading_frame tags retained_protein_domains closest_genomic_breakpoint1 closest_genomic_breakpoint2 gene_id1 gene_id2 transcript_id1 transcript_id2 direction1 direction2 filters fusion_transcript peptide_sequence read_identifiers
DDIT3 FUS -/- +/+ chr12:57914200 chr16:31196261 intron CDS/splice-site translocation 1 9 0 37 1082 high . . |RNA_recognition_motif._(a.k.a._RRM__RBD__or_RNP_domain)(100%),Zn-finger_in_Ran_binding_protein_and_others(100%) . . ENSG00000175197.6 ENSG00000089280.14 ENST00000551116.1 ENST00000254108.7 upstream upstream duplicates(7),mismatches(1) CTGAGCGTATCATGTTA?AGATGAGCGGGTGGCAGCGACAGAGCCAAAATCAGAGCTGGAACCTGAGGAGAGAGG|TAACTATGGCCAAGATCAATCCTCCATGAGTAGTGGTGGTGGCAGTGGTGGCGGTTATGGCAATCAAGACCAGAGTGGTGGAGGTGGCAGCGGTGGCTATGGACAGCAG . trn_433874,trn_135477,trn_142589,trn_1739741,trn_1779998,trn_2308393,trn_2332626,trn_242633,trn_2787100,trn_2946895,trn_297708,trn_3040178,trn_32450,trn_426992,trn_62570,trn_723483,trn_855077,trn_990866
輸出文件說(shuō)明(難懂列說(shuō)明):
strand:斜杠前后分別是基因strand和融合轉(zhuǎn)錄本strand;發(fā)生在基因間區(qū)的斷點(diǎn),基因?qū)?yīng)strand用‘.’表示,無(wú)法預(yù)測(cè)轉(zhuǎn)錄本方向的庵佣,也用‘.’表示
site:斷點(diǎn)位置類(lèi)型
filters:被篩選掉的支持?jǐn)帱c(diǎn)的reads數(shù)目及其原因
原理:
Arriba總的來(lái)說(shuō)是一個(gè)過(guò)濾器的集成軟工具,其主要有兩種水平的過(guò)濾:read-level和event-level汛兜。
先說(shuō)read-level:
(1)duplicates(重復(fù)):對(duì)于重復(fù)reads的過(guò)濾主要通過(guò)兩種方法(內(nèi)部和外部)巴粪,一種是根據(jù)片段比對(duì)位置(內(nèi)部),一種是根據(jù)文庫(kù)屬性(外部粥谬;比較適用于需要考慮文庫(kù)屬性肛根、加UMI標(biāo)簽的或無(wú)法利用比對(duì)位置去重的情況);內(nèi)部方法默認(rèn)不可改漏策,外部方法可用“-u”關(guān)掉派哲。
(2)uninteresting_contigs:去除涉及非感興趣染色體上(例如:人的24條染色體)的嵌合類(lèi)型;“-i”參數(shù)掺喻。
(3)viral_contigs:去除不涉及主染色體的嵌合類(lèi)型芭届,“-u”參數(shù)。
(4)top_expressed_viral_contigs:用于保留top N表達(dá)的病毒嵌合感耙,“-t”參數(shù)褂乍。參數(shù)思想是如果腫瘤真的源于病毒感染,那么會(huì)有大量的reads能夠比對(duì)到病毒序列上即硼;而且逃片,由于基因相關(guān)區(qū)域的缺乏,病毒嵌合很大程度上是一個(gè)隨機(jī)過(guò)程只酥,很多嵌合位點(diǎn)都是位于基因間區(qū)褥实;因此,大比例的intergenic-to-genic integration sites也是真正的病毒滲透的暗示裂允。
(5)low_coverage_viral_contigs:去除高覆蓋及低覆蓋的病毒contigs损离,參數(shù)“-C”。參數(shù)思想是一些病毒contigs會(huì)吸引一些比對(duì)錯(cuò)誤绝编,通常草冈,這些比對(duì)錯(cuò)誤會(huì)有聚集的焦點(diǎn)區(qū)域;而真正的病毒滲透會(huì)相對(duì)均勻瓮增。覆蓋度小于所有病毒contig平均覆蓋度的5%被認(rèn)為是不充分的怎棱,如果充分覆蓋占比小于15%,所有與病毒contig有關(guān)的融合候選都會(huì)被去除绷跑。
(6)read_through:去除測(cè)序一端比對(duì)到基因上拳恋,另一端比對(duì)到基因外且距離小于一定值(參數(shù)“-R”設(shè)置)的片段,以及配對(duì)reads的方向來(lái)自于經(jīng)典剪接的片段砸捏∶耍可以排除接近基因末端的短片段缺失。
(7)inconsistently_clipped:去除由于插入片段長(zhǎng)度過(guò)小垦藏,兩端有重合梆暖,但一端表現(xiàn)為split-reads,另一端不是的片段掂骏。
(8)homopolymer:去除斷點(diǎn)鄰近同聚體的候選融合轰驳。
(9)small_insert_size:去除起始終止位置相差小于5bp及方向是由于重復(fù)產(chǎn)生的reads對(duì)。
(10)long_gap:去除有長(zhǎng)gaps(>700kb)和短比對(duì)片段(<15nt)的reads弟灼。由于某些基因有超過(guò)1M的內(nèi)含子级解,有人在用STAR比對(duì)時(shí),為了容納這些內(nèi)含子會(huì)選擇把比對(duì)內(nèi)含子最大長(zhǎng)度(--alignIntronMax)設(shè)置超過(guò)該內(nèi)含子長(zhǎng)度田绑,這種可能會(huì)導(dǎo)致比對(duì)artifact勤哗。
(10)same_gene:去除比對(duì)到一個(gè)基因上的reads對(duì)。
---------------------待更新------------------------