這個時候已經(jīng)不是表達矩陣的事情了辨泳,要從新從fastq測序數(shù)據(jù)開始虱岂。
對測序后的fastq數(shù)據(jù)進行轉(zhuǎn)錄本的組裝〔ず欤基于組裝后的轉(zhuǎn)錄本第岖,通過數(shù)據(jù)庫注釋去掉編碼蛋白質(zhì)的mRNA以及數(shù)據(jù)庫中收集的已知的lncRNA,對剩余的轉(zhuǎn)錄本進行生物信息學分析试溯,最終鑒定出全新的lncRNA蔑滓,作為后續(xù)研究的起點。
第一步 :重構(gòu)轉(zhuǎn)錄本 --stringtie
STEP4: 得到表達矩陣的流程用比對軟件hisat2將reads比對到參考基因組得到bam文件遇绞,如果要鑒定新的轉(zhuǎn)錄本键袱,需要重新組裝轉(zhuǎn)錄本,可以用的軟件有cufflinks摹闽,stringtie蹄咖,這里用stringtie。
REF=/pnas/fangxd_group/renyx/macaque/00ref
assemble_out=/pnas/fangxd_group/renyx/macaque/07assemble_out
align_out=/pnas/fangxd_group/renyx/macaque/03align_out/hisat2_mapping
stringtie -p 4 -G $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/OC_1yrF.stringtie.gtf -l $align_out/OC_1yrF SRR4042230_sorted.bam
stringtie -p 4 -G $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/OC_1yrM.stringtie.gtf -l $align_out/OC_1yrM SRR4042231_sorted.bam
第二步:預測新的轉(zhuǎn)錄本 --Cuffcompare
cuffcompare是cufflinks其中的一個軟件付鹿,Cuffcompare提供了一種有效的分類和注釋方法澜汤,即將重建轉(zhuǎn)錄組與現(xiàn)有基因注釋進行比較蚜迅,以獲取重建轉(zhuǎn)錄組的分類,并用類別代碼(class code)加以標示俊抵。
cuffcompare 用法及參數(shù)說明:
cuffcompare [-r <reference_mrna.gtf>] [-R] [-T] [-V] [-s <seq_path>] [-o <outprefix>] [-p <cprefix>] {-i <input_gtf_list> | <input1.gtf> [<input2.gtf> .. <inputN.gtf>]}
-r 參考基因組的注釋文件
-o 輸出文件的前綴
-i 輸入文件
cuffcompare -r $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/cufcompF $assemble_out/OC_1yrF.stringtie.gtf
cuffcompare -r $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/cufcompM $assemble_out/OC_1yrM.stringtie.gtf
輸出文件包括6個:
-
cufcompF.combined.gtf
*.combind.gtf結(jié)果包含很多信息谁不,如exon的位置信息,gene_id和transcript_id(stringtie內(nèi)部給的ID), gene_name(ensemble_ID), class_code等徽诲。
-
cufcompF.loci
此文件中包含了stringtie給的gene_ID (XLOC_000001)與ensemble gene_id 和transcript_id刹帕,及exon序列位置的信息等。
-
cufcompF.OC_1yrF.stringtie.gtf.refmap
這個文件包含四列信息谎替,第一列ref_gene_id是gene symbol 偷溺,無symbol的給出的是ensemble的gene id; 第二列ref_id是指ensemble的transcript id; 第三列class_code 是“=”和“c”;第四列是cuff_id_list。這個文件指組裝后與參考基因組幾乎完全匹配的轉(zhuǎn)錄本院喜。
-
cufcompF.OC_1yrF.stringtie.gtf.tmap
這個文件很重要亡蓉,包括很多有用的信息晕翠,如FPKM,coverage,length,gene id ,class code等喷舀,可用于lncRNA初步篩選。
-
cufcompF.stats
一些基本的統(tǒng)計信息淋肾,可以看到novel exons和novel introns 的比例硫麻。
-
cufcompF.tracking
這個文件的信息都包含在*gtf.tmap.
第三步:篩選coverage,length,FPKM
對于單個轉(zhuǎn)錄本的組裝結(jié)果,按一下要求篩選轉(zhuǎn)錄本:
1)FPKM>=0.5
2)coverage >1
3)Length > 200
awk '{if($7>=0.5 && $10 > 1 && $11 >200) print $0}' cufcomp.OC_1yrF.stringtie.gtf.tmap > filter.OC_1yrF
awk '{if($7>=0.5 && $10 > 1 && $11 >200) print $0}' cufcomp.OC_1yrM.stringtie.gtf.tmap > filter.OC_1yrM
第四步 :class code分類
class_code分類的具體含義: “=”代碼表示此預測轉(zhuǎn)錄本與注釋基因的所有內(nèi)含子完全吻合樊卓,但它們在第一外顯子(first exon)的起始端或最后外顯子(last exon)的末端可能有差別拿愧。然而,這并不影響將“=”類重建轉(zhuǎn)錄本判定為已注釋轉(zhuǎn)錄本碌尔。又如浇辜,轉(zhuǎn)錄本標有“j”類別代碼,表明此轉(zhuǎn)錄本至少有一個內(nèi)含子與已注釋基因的內(nèi)含子相同唾戚,而其他位置可能不同柳洋,據(jù)此可推斷此類轉(zhuǎn)錄本可能是注釋基因的一個新異構(gòu)體(novel isoform)。另外“i,o,u,x”的分類符合lncRNA的特征叹坦,可用于lncRNA的識別過程熊镣。因此,“i,j,o,u,x”這5類轉(zhuǎn)錄本表示可能是新的轉(zhuǎn)錄本募书,符合lncRNA的要求绪囱,保留作為后續(xù)分析。
1 = Complete match of intron chain
2 c Contained
3 j Potentially novel isoform (fragment): at least one splice junction is shared with a reference transcript
4 e Single exon transfrag overlapping a reference exon and at least 10 bp of a reference intron, indicating a possible pre-mRNA fragment.
5 i A transfrag falling entirely within a reference intron
6 o Generic exonic overlap with a reference transcript
7 p Possible polymerase run-on fragment (within 2Kbases of a reference transcript)
8 r Repeat. Currently determined by looking at the soft-masked reference sequence and applied to transcripts where at least 50% of the bases are lower case
9 u Unknown, intergenic transcript
10 x Exonic overlap with reference on the opposite strand
11 s An intron of the transfrag overlaps a reference intron on the opposite strand (likely due to read mapping errors)
12 . (.tracking file only, indicates multiple classifications)
awk '{if ($3=="u" || $3=="x" || $3=="i" || $3=="j" || $3=="o"){print $0}}' filter.OC_1yrF > class.OC_1yrF
awk '{if ($3=="u" || $3=="x" || $3=="i" || $3=="j" || $3=="o"){print $0}}' filter.OC_1yrM > class.OC_1yrM
參考資料:
基于RNA-Seq的lncRNA預測流程介紹
cuffcompare介紹
轉(zhuǎn)錄組的組裝STINGTIE和CUFFLINKS