本文用作個(gè)人學(xué)習(xí)锹安,全部摘抄于Stringtie說明書中文翻譯版
參考鏈接:Stringtie說明書
參考鏈接:Stringtie說明書中文翻譯版
StringTie的基本用法: stringtie <aligned_reads.bam> [options]*
其中逛薇,aligned_reads.bam
是輸入文件患整,該輸入文件要求必須按其基因組位置排序曹锨, HISAT2的輸出文件則需經(jīng)過samtools sort生成的bam文件才可當(dāng)做輸入文件谬莹。
常用的參數(shù)及描述
-o [<path/>]<out.gtf>
設(shè)置StringTie組裝轉(zhuǎn)錄本的輸出GTF文件的路徑和文件名诅迷。此處可指定完整路徑窃祝,在這種情況下掐松,將根據(jù)需要?jiǎng)?chuàng)建目錄。默認(rèn)情況下粪小,StringTie將GTF寫入標(biāo)準(zhǔn)輸出大磺。
-p <int>
指定組裝轉(zhuǎn)錄本的線程數(shù)(CPU)。默認(rèn)值是1
-G <ref_ann.gff>
使用參考注釋基因文件指導(dǎo)組裝過程探膊,格式GTF/GFF3杠愧。輸出文件中既包含已知表達(dá)的轉(zhuǎn)錄本,也包含新的轉(zhuǎn)錄本逞壁。選項(xiàng)-B流济,-b,-e腌闯,-C需要此選項(xiàng)(詳情如下)
-l <label>
將<label>設(shè)置為輸出轉(zhuǎn)錄本名稱的前綴绳瘟。默認(rèn):STRG
-A <gene_abund.tab>
輸出基因豐度的文件(制表符分隔格式)
-C <cov_refs.gtf>
輸出所有轉(zhuǎn)錄本對(duì)應(yīng)的reads覆蓋度的文件,此處的轉(zhuǎn)錄本是指參考注釋基因文件中提供的轉(zhuǎn)錄本姿骏。(需要參數(shù) -G).
-B
應(yīng)用該選項(xiàng)糖声,則會(huì)輸出Ballgown輸入表文件(* .ctab),其中包含用-G選項(xiàng)給出的參考轉(zhuǎn)錄本的覆蓋率數(shù)據(jù)。(有關(guān)這些文件的說明蘸泻,請(qǐng)參閱Ballgown文檔琉苇。)如果選項(xiàng)-o 給出輸出轉(zhuǎn)錄文件的完整路徑,則* .ctab文件與輸出GTF文件在相同的目錄下蟋恬。
-b <path>
指定 *.ctab 文件的輸出路徑, 而非由-o選項(xiàng)指定的目錄翁潘。
注意: 建議在使用-B/-b選項(xiàng)中同時(shí)使用-e選項(xiàng),除非StringTie GTF輸出文件中仍需要新的轉(zhuǎn)錄本,-B和-b選一個(gè)使用就行歼争。
-e
限制reads比對(duì)的處理,僅估計(jì)和輸出與用-G選項(xiàng)給出的參考轉(zhuǎn)錄本匹配的組裝轉(zhuǎn)錄本渗勘。使用該選項(xiàng)沐绒,則會(huì)跳過處理與參考轉(zhuǎn)錄本不匹配的組裝轉(zhuǎn)錄本,這將大大的提升了處理速度旺坠。
--merge
轉(zhuǎn)錄本合并模式乔遮。 在合并模式下,StringTie將所有樣品的GTF/GFF文件列表作為輸入取刃,并將這些轉(zhuǎn)錄本合并/組裝成非冗余的轉(zhuǎn)錄本集合蹋肮。這種模式被用于新的差異分析流程中,用以生成一個(gè)跨多個(gè)RNA-Seq樣品的全局的璧疗、統(tǒng)一的轉(zhuǎn)錄本坯辩。
如果提供了-G選項(xiàng)(參考注釋基因組文件),則StringTie將從輸入的GTF文件中將參考轉(zhuǎn)錄本組裝到transfrags中崩侠。(個(gè)人理解:transfrags可能指的是拼接成更大的轉(zhuǎn)錄本片段漆魔,tanscript fragments)
在此模式下可以使用以下附加選項(xiàng):
-G <guide_gff> 參考注釋基因組文件(GTF/GFF3)
-o <out_gtf> 指定輸出合并的GTF文件的路徑和名稱 (默認(rèn)值:標(biāo)準(zhǔn)輸出)
-m <min_len> 合并文件中,指定允許最小輸入轉(zhuǎn)錄本的長(zhǎng)度 (默認(rèn)值: 50)
-c <min_cov> 合并文件中却音,指定允許最低輸入轉(zhuǎn)錄本的覆蓋度(默認(rèn)值: 0)
-F <min_fpkm> 合并文件中改抡,指定允許最低輸入轉(zhuǎn)錄本的FPKM值 (默認(rèn)值: 0)
-T <min_tpm> 合并文件中,指定允許最低輸入轉(zhuǎn)錄本的TPM值 (默認(rèn)值: 0)
-f <min_iso> minimum isoform fraction (默認(rèn)值: 0.01)
-i 合并后系瓢,保留含retained introns的轉(zhuǎn)錄本 (默認(rèn)值: 除非有強(qiáng)有力的證據(jù)阿纤,否則不予保留)
-l <label> 輸出轉(zhuǎn)錄本的名稱前綴 (默認(rèn)值: MSTRG)
其他可選參數(shù):
-h/--help 幫助信息
-v 打開詳細(xì)模式,打印程序處理的詳細(xì)信息夷陋。
-o [<path/>]<out.gtf> 設(shè)置StringTie組裝轉(zhuǎn)錄本的輸出GTF文件的路徑和文件名欠拾。此處可指定完整路徑,在這種情況下,將根據(jù)需要?jiǎng)?chuàng)建目錄绍坝。默認(rèn)情況下赚瘦,StringTie將GTF寫入標(biāo)準(zhǔn)輸出。
-p <int> 指定組裝轉(zhuǎn)錄本的線程數(shù)(CPU)枷邪。默認(rèn)值是1
-G <ref_ann.gff> 使用參考注釋基因文件指導(dǎo)組裝過程,格式GTF/GFF3。輸出文件中既包含已知表達(dá)的轉(zhuǎn)錄本东揣,也包含新的轉(zhuǎn)錄本践惑。選項(xiàng)-B,-b嘶卧,-e尔觉,-C需要此選項(xiàng)(詳情如下)
--rf 鏈特異性建庫方式:fr-firststrand(最常用的是dUTP測(cè)序方式,其他有NSR芥吟,NNSR).
--fr 鏈特異性建庫方式:fr-secondstrand(如 Ligation,Standard SOLiD).
-l <label> 將<label>設(shè)置為輸出轉(zhuǎn)錄本名稱的前綴侦铜。默認(rèn):STRG
-f <0.0-1.0> 將預(yù)測(cè)轉(zhuǎn)錄本的最低isoform的豐度設(shè)定為在給定基因座處組裝的豐度最高的轉(zhuǎn)錄本的一部分。較低豐度的轉(zhuǎn)錄物通常是經(jīng)加工的轉(zhuǎn)錄本的不完全剪接前體的artifacts钟鸵。默認(rèn)值為0.1钉稍。
-m <int> 設(shè)置預(yù)測(cè)的轉(zhuǎn)錄本所允許的最小長(zhǎng)度.默認(rèn)值為200
-A <gene_abund.tab> 輸出基因豐度的文件(制表符分隔格式)
-C <cov_refs.gtf> 輸出所有轉(zhuǎn)錄本對(duì)應(yīng)的reads覆蓋度的文件,此處的轉(zhuǎn)錄本是指參考注釋基因文件中提供的轉(zhuǎn)錄本棺耍。(需要參數(shù) -G).
-a <int> Junctions that don't have spliced reads that align across them with at least this amount of bases on both sides are filtered out. Default: 10
-j <float> 連接點(diǎn)的覆蓋度贡未,即設(shè)置至少有這么多的spliced reads 比對(duì)到連接點(diǎn)(align across a junction)。 這個(gè)數(shù)字可以是分?jǐn)?shù), 因?yàn)橛行﹔eads可以比對(duì)到多個(gè)地方蒙袍。 當(dāng)一個(gè)read 比對(duì)到 n 個(gè)地方是俊卤,則此處連接點(diǎn)的覆蓋度為1/n 。默認(rèn)值為1害幅。
-t 該參數(shù)禁止修剪組裝的轉(zhuǎn)錄本的末端消恍。默認(rèn)情況下,StringTie會(huì)根據(jù)組裝的轉(zhuǎn)錄本的覆蓋率的突然下降來調(diào)整預(yù)測(cè)的轉(zhuǎn)錄本的開始和/或停止坐標(biāo)矫限。
-c <float> 設(shè)置預(yù)測(cè)轉(zhuǎn)錄本所允許的最小read 覆蓋度哺哼。 當(dāng)一個(gè)轉(zhuǎn)錄本的覆蓋度低于閾值,則輸出文件中不含該轉(zhuǎn)錄本叼风。默認(rèn)值為 2.5
-g <int> 設(shè)置ga最小值取董。 Reads that are mapped closer than this distance are merged together in the same processing bundle. Default: 50 (bp)
-B 應(yīng)用該選項(xiàng),則會(huì)輸出Ballgown輸入表文件(* .ctab)无宿,其中包含用-G選項(xiàng)給出的參考轉(zhuǎn)錄本的覆蓋率數(shù)據(jù)茵汰。(有關(guān)這些文件的說明,請(qǐng)參閱Ballgown文檔孽鸡。)
如果選項(xiàng)-o 給出輸出轉(zhuǎn)錄文件的完整路徑蹂午,則* .ctab文件與輸出GTF文件在相同的目錄下。
-b <path> 指定 *.ctab 文件的輸出路徑, 而非由-o選項(xiàng)指定的目錄彬碱。
注意: 建議在使用-B/-b選項(xiàng)中同時(shí)使用-e選項(xiàng)豆胸,除非StringTie GTF輸出文件中仍需要新的轉(zhuǎn)錄本。
-e 限制reads比對(duì)的處理巷疼,僅估計(jì)和輸出與用-G選項(xiàng)給出的參考轉(zhuǎn)錄本匹配的組裝轉(zhuǎn)錄本晚胡。使用該選項(xiàng),則會(huì)跳過處理與參考轉(zhuǎn)錄本不匹配的組裝轉(zhuǎn)錄本,這將大大的提升了處理速度估盘。
-M <0.0-1.0> 設(shè)定瓷患。默認(rèn)值為0.95.
-x <seqid_list> 忽略所有比對(duì)到指定的參考序列上的reads,因此這部分的reads不需要組裝轉(zhuǎn)錄本遣妥。 參數(shù) <seqid_list>可以是單個(gè)參考序列名稱 (如: -x chrM)擅编,也可以是逗號(hào)分隔的序列名稱列表 (如: -x 'chrM,chrX,chrY')。這可以加快StringTie的組裝分析的速度箫踩,特別是在排除線粒體基因組的情況下爱态,在某些情況下,線粒體的基因可能具有非常高的覆蓋率班套,但是它們對(duì)于特定的RNA-Seq分析可能不感興趣的肢藐。
--merge 轉(zhuǎn)錄本合并模式。 在合并模式下吱韭,StringTie將所有樣品的GTF/GFF文件列表作為輸入,并將這些轉(zhuǎn)錄本合并/組裝成非冗余的轉(zhuǎn)錄本集合鱼的。這種模式被用于新的差異分析流程中理盆,用以生成一個(gè)跨多個(gè)RNA-Seq樣品的全局的、統(tǒng)一的轉(zhuǎn)錄本凑阶。
如果提供了-G選項(xiàng)(參考注釋基因組文件)猿规,則StringTie將從輸入的GTF文件中將參考轉(zhuǎn)錄本組裝到transfrags中。(個(gè)人理解:transfrags可能指的是拼接成更大的轉(zhuǎn)錄本片段宙橱,tanscript fragments)
在此模式下可以使用以下附加選項(xiàng):
-G <guide_gff> 參考注釋基因組文件(GTF/GFF3)
-o <out_gtf> 指定輸出合并的GTF文件的路徑和名稱 (默認(rèn)值:標(biāo)準(zhǔn)輸出)
-m <min_len> 合并文件中姨俩,指定允許最小輸入轉(zhuǎn)錄本的長(zhǎng)度 (默認(rèn)值: 50)
-c <min_cov> 合并文件中,指定允許最低輸入轉(zhuǎn)錄本的覆蓋度(默認(rèn)值: 0)
-F <min_fpkm> 合并文件中师郑,指定允許最低輸入轉(zhuǎn)錄本的FPKM值 (默認(rèn)值: 0)
-T <min_tpm> 合并文件中环葵,指定允許最低輸入轉(zhuǎn)錄本的TPM值 (默認(rèn)值: 0)
-f <min_iso> minimum isoform fraction (默認(rèn)值: 0.01)
-i 合并后,保留含retained introns的轉(zhuǎn)錄本 (默認(rèn)值: 除非有強(qiáng)有力的證據(jù)宝冕,否則不予保留)
-l <label> 輸出轉(zhuǎn)錄本的名稱前綴 (默認(rèn)值: MSTRG)
輸入文件
其中张遭,aligned_reads.bam
是輸入文件,該輸入文件要求必須按其基因組位置排序地梨,如TopHat的輸出文件accepted_hits.bam
可直接當(dāng)做輸入文件菊卷,而 HISAT2的輸出文件則需經(jīng)過samtools sort生成的bam文件才可當(dāng)做輸入文件。
輸入BAM文件中的每個(gè) spliced read 比對(duì)(即跨越至少一個(gè)連接點(diǎn)的比對(duì))必須包含標(biāo)簽XS宝剖,用以指示測(cè)序產(chǎn)生的read是來源于基因組序列上的哪條鏈產(chǎn)生的RNA洁闰。由TopHat和 HISAT2 (需參數(shù) --dta,該參數(shù)用于發(fā)現(xiàn)剪接位點(diǎn)) 產(chǎn)生的比對(duì)結(jié)果中已經(jīng)包含標(biāo)簽XS万细。但是扑眉,有的mapping程序(read mapper)未必含有標(biāo)簽XS,所以,用戶在進(jìn)行下一步分析時(shí)需要進(jìn)行檢查襟雷。
注意:一定要使用-dta選項(xiàng)來運(yùn)行HISAT2刃滓,否則結(jié)果將會(huì)受到影響。
作為選項(xiàng)耸弄,可以向StringTie提供GTF / GFF3格式的參考注釋基因組文件咧虎。在這種情況下,StringTie更喜歡使用注釋文件中的這些“已知”基因计呈,對(duì)于那些被表達(dá)的基因砰诵,它將計(jì)算coverage,TPM和FPKM值捌显。它還會(huì)產(chǎn)生額外的轉(zhuǎn)錄本茁彭,而注釋文件中并沒有這些轉(zhuǎn)錄本。請(qǐng)注意扶歪,如果不使用選項(xiàng)-e理肺,那么參考轉(zhuǎn)錄本就需要被reads 完全覆蓋,以便包含在StringTie的輸出中善镰。在這種情況下妹萨,其他通過StringTie從數(shù)據(jù)中組裝的轉(zhuǎn)錄本,且不在注釋文件中的轉(zhuǎn)錄本也會(huì)輸出炫欺。
注意:如果用戶正在分析注釋較好的基因組乎完,例如人類,小鼠或其他模型生物品洛,則強(qiáng)烈建議您提供注釋文件树姨。
輸出文件
主要輸出文件有:
1、 GTF文件: 記錄組裝的轉(zhuǎn)錄本信息
2桥状、 Tab文件: 記錄基因豐度信息
3帽揪、 GTF文件:完全覆蓋與參考注釋基因組文件所匹配的轉(zhuǎn)錄本信息
4、 *.ctab文件:用于下游Ballgown軟件做差異表達(dá)分析的輸入文件
5岛宦、 GTF文件:在合并模式下台丛,生成一個(gè)合并的GTF文件
GTF文件:記錄組裝的轉(zhuǎn)錄本信息
seqname: 染色體,contig, 或 scaffold
source: GTF文件的源文件砾肺。
feature: 特征類型挽霉;如:exon, transcript, mRNA, 5'UTR。
start: 開始位置变汪,使用基于1的索引
end: 結(jié)束位置侠坎,使用基于1的索引
-
score: 組裝的轉(zhuǎn)錄本的可信度分?jǐn)?shù)。目前這個(gè)字段沒有被使用裙盾,并且如果轉(zhuǎn)錄本 與a read alignment bundle
有連接实胸,則StringTie輸出常數(shù)值1000他嫡。
strand: 正向鏈: '+'; 反向鏈: '-'.
frame: CDS特征的 Frame or phase 庐完。 StringTie不使用該字段钢属,只記錄一個(gè)“.”。
-
attributes:
- gene_id: A unique identifier for a single gene and its child transcript and exons based on the alignments' file name.
- transcript_id: A unique identifier for a single transcript and its child exons based on the alignments' file name.
- exon_number: A unique identifier for a single exon, starting from 1, within a given transcript.
- reference_id: The transcript_id in the reference annotation (optional) that the instance matched.
- ref_gene_id: The gene_id in the reference annotation (optional) that the instance matched.
- ref_gene_name: The gene_name in the reference annotation (optional) that the instance matched.
- cov: The average per-base coverage for the transcript or exon.
- FPKM: Fragments per kilobase of transcript per million read pairs. This is the number of pairs of reads aligning to this feature, normalized by the total number of fragments sequenced (in millions) and the length of the transcript (in kilobases).
- TPM: Transcripts per million. This is the number of transcripts from this particular gene normalized first by gene length, and then by sequencing depth (in millions) in the sample. A detailed explanation and a comparison of TPM and FPKM can be found here, and TPM was defined by B. Li and C. Dewey here.
Tab文件: 記錄基因豐度信息
如果StringTie使用-A <gene_abund.tab>選項(xiàng)運(yùn)行门躯,則返回包含基因豐度的文件淆党。
- Column 1 / Gene ID: The gene identifier comes from the reference annotation provided with the
-G
option. If no reference is provided this field is replaced with the name prefix for output transcripts (-l). - Column 2 / Gene Name: This field contains the gene name in the reference annotation provided with the
-G
option. If no reference is provided this field is populated with '-'. - Column 3 / Reference: Name of the reference sequence that was used in the alignment of the reads. Equivalent to the 3rd column in the .SAM alignment.
- Column 4 / Strand: '+' denotes that the gene is on the forward strand, '-' for the reverse strand.
- Column 5 / Start: Start position of the gene (1-based index).
- Column 6 / End: End position of the gene (1-based index).
- Column 7 / Coverage: Per-base coverage of the gene.
- Column 8 / FPKM: normalized expression level in FPKM units (see previous section).
- Column 9 / TPM: normalized expression level in RPM units (see previous section).
GTF文件:完全覆蓋與參考注釋基因組文件所匹配的轉(zhuǎn)錄本信息
如果StringTie與 -C <cov_refs.gtf> 選項(xiàng)一起運(yùn)行(需要選項(xiàng)-G
*.ctab文件:用于下游Ballgown軟件做差異表達(dá)分析的輸入文件
如果StringTie與-B選項(xiàng)一起運(yùn)行,它將返回Ballgown輸入文件讶凉,包含以下文件:(1) e2t.ctab, (2) e_data.ctab, (3) i2t.ctab, (4) i_data.ctab, and (5) t_data.ctab染乌。
GTF文件:在合并模式下,生成一個(gè)合并的GTF文件
如果StringTie使用--merge選項(xiàng)運(yùn)行懂讯,它將多個(gè)GTF / GFF文件作為輸入荷憋,并將這些轉(zhuǎn)錄本合并和組裝成非冗余轉(zhuǎn)錄本集合。