STEP8:鑒定全新的lncRNA

這個時候已經(jīng)不是表達矩陣的事情了辨泳,要從新從fastq測序數(shù)據(jù)開始虱岂。
對測序后的fastq數(shù)據(jù)進行轉(zhuǎn)錄本的組裝〔ず欤基于組裝后的轉(zhuǎn)錄本第岖,通過數(shù)據(jù)庫注釋去掉編碼蛋白質(zhì)的mRNA以及數(shù)據(jù)庫中收集的已知的lncRNA,對剩余的轉(zhuǎn)錄本進行生物信息學分析试溯,最終鑒定出全新的lncRNA蔑滓,作為后續(xù)研究的起點。

第一步 :重構(gòu)轉(zhuǎn)錄本 --stringtie

STEP4: 得到表達矩陣的流程用比對軟件hisat2將reads比對到參考基因組得到bam文件遇绞,如果要鑒定新的轉(zhuǎn)錄本键袱,需要重新組裝轉(zhuǎn)錄本,可以用的軟件有cufflinks摹闽,stringtie蹄咖,這里用stringtie。

REF=/pnas/fangxd_group/renyx/macaque/00ref
assemble_out=/pnas/fangxd_group/renyx/macaque/07assemble_out
align_out=/pnas/fangxd_group/renyx/macaque/03align_out/hisat2_mapping

stringtie -p 4 -G $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/OC_1yrF.stringtie.gtf -l $align_out/OC_1yrF SRR4042230_sorted.bam
stringtie -p 4 -G $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/OC_1yrM.stringtie.gtf -l $align_out/OC_1yrM SRR4042231_sorted.bam

第二步:預測新的轉(zhuǎn)錄本 --Cuffcompare

cuffcompare是cufflinks其中的一個軟件付鹿,Cuffcompare提供了一種有效的分類和注釋方法澜汤,即將重建轉(zhuǎn)錄組與現(xiàn)有基因注釋進行比較蚜迅,以獲取重建轉(zhuǎn)錄組的分類,并用類別代碼(class code)加以標示俊抵。

cuffcompare 用法及參數(shù)說明
cuffcompare [-r <reference_mrna.gtf>] [-R] [-T] [-V] [-s <seq_path>] [-o <outprefix>] [-p <cprefix>] {-i <input_gtf_list> | <input1.gtf> [<input2.gtf> .. <inputN.gtf>]}
-r 參考基因組的注釋文件
-o 輸出文件的前綴
-i 輸入文件

cuffcompare -r $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/cufcompF $assemble_out/OC_1yrF.stringtie.gtf
cuffcompare -r $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/cufcompM $assemble_out/OC_1yrM.stringtie.gtf

輸出文件包括6個:

  • cufcompF.combined.gtf
    *.combind.gtf結(jié)果包含很多信息谁不,如exon的位置信息,gene_id和transcript_id(stringtie內(nèi)部給的ID), gene_name(ensemble_ID), class_code等徽诲。
  • cufcompF.loci
    此文件中包含了stringtie給的gene_ID (XLOC_000001)與ensemble gene_id 和transcript_id刹帕,及exon序列位置的信息等。
  • cufcompF.OC_1yrF.stringtie.gtf.refmap
    這個文件包含四列信息谎替,第一列ref_gene_id是gene symbol 偷溺,無symbol的給出的是ensemble的gene id; 第二列ref_id是指ensemble的transcript id; 第三列class_code 是“=”和“c”;第四列是cuff_id_list。這個文件指組裝后與參考基因組幾乎完全匹配的轉(zhuǎn)錄本院喜。
  • cufcompF.OC_1yrF.stringtie.gtf.tmap
    這個文件很重要亡蓉,包括很多有用的信息晕翠,如FPKM,coverage,length,gene id ,class code等喷舀,可用于lncRNA初步篩選。
  • cufcompF.stats
    一些基本的統(tǒng)計信息淋肾,可以看到novel exons和novel introns 的比例硫麻。
  • cufcompF.tracking
    這個文件的信息都包含在*gtf.tmap.

第三步:篩選coverage,length,FPKM

對于單個轉(zhuǎn)錄本的組裝結(jié)果,按一下要求篩選轉(zhuǎn)錄本:
1)FPKM>=0.5
2)coverage >1
3)Length > 200

awk '{if($7>=0.5 && $10 > 1 && $11 >200) print $0}' cufcomp.OC_1yrF.stringtie.gtf.tmap > filter.OC_1yrF
awk '{if($7>=0.5 && $10 > 1 && $11 >200) print $0}' cufcomp.OC_1yrM.stringtie.gtf.tmap > filter.OC_1yrM

第四步 :class code分類

class_code分類的具體含義: “=”代碼表示此預測轉(zhuǎn)錄本與注釋基因的所有內(nèi)含子完全吻合樊卓,但它們在第一外顯子(first exon)的起始端或最后外顯子(last exon)的末端可能有差別拿愧。然而,這并不影響將“=”類重建轉(zhuǎn)錄本判定為已注釋轉(zhuǎn)錄本碌尔。又如浇辜,轉(zhuǎn)錄本標有“j”類別代碼,表明此轉(zhuǎn)錄本至少有一個內(nèi)含子與已注釋基因的內(nèi)含子相同唾戚,而其他位置可能不同柳洋,據(jù)此可推斷此類轉(zhuǎn)錄本可能是注釋基因的一個新異構(gòu)體(novel isoform)。另外“i,o,u,x”的分類符合lncRNA的特征叹坦,可用于lncRNA的識別過程熊镣。因此,“i,j,o,u,x”這5類轉(zhuǎn)錄本表示可能是新的轉(zhuǎn)錄本募书,符合lncRNA的要求绪囱,保留作為后續(xù)分析。

1   =   Complete match of intron chain
2   c   Contained
3   j   Potentially novel isoform (fragment): at least one splice junction is shared with a reference transcript
4   e   Single exon transfrag overlapping a reference exon and at least 10 bp of a reference intron, indicating a possible pre-mRNA fragment.
5   i   A transfrag falling entirely within a reference intron
6   o   Generic exonic overlap with a reference transcript
7   p   Possible polymerase run-on fragment (within 2Kbases of a reference transcript)
8   r   Repeat. Currently determined by looking at the soft-masked reference sequence and applied to transcripts where at least 50% of the bases are lower case
9   u   Unknown, intergenic transcript
10  x   Exonic overlap with reference on the opposite strand
11  s   An intron of the transfrag overlaps a reference intron on the opposite strand (likely due to read mapping errors)
12  .   (.tracking file only, indicates multiple classifications)
awk '{if ($3=="u" || $3=="x" || $3=="i" || $3=="j" || $3=="o"){print $0}}' filter.OC_1yrF > class.OC_1yrF 
awk '{if ($3=="u" || $3=="x" || $3=="i" || $3=="j" || $3=="o"){print $0}}' filter.OC_1yrM > class.OC_1yrM

參考資料:

基于RNA-Seq的lncRNA預測流程介紹
cuffcompare介紹
轉(zhuǎn)錄組的組裝STINGTIE和CUFFLINKS

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末莹捡,一起剝皮案震驚了整個濱河市鬼吵,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌篮赢,老刑警劉巖而柑,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件文捶,死亡現(xiàn)場離奇詭異,居然都是意外死亡媒咳,警方通過查閱死者的電腦和手機粹排,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來涩澡,“玉大人顽耳,你說我怎么就攤上這事∶钔” “怎么了射富?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長粥帚。 經(jīng)常有香客問我胰耗,道長,這世上最難降的妖魔是什么芒涡? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任柴灯,我火速辦了婚禮,結(jié)果婚禮上费尽,老公的妹妹穿的比我還像新娘赠群。我一直安慰自己,他們只是感情好旱幼,可當我...
    茶點故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布查描。 她就那樣靜靜地躺著,像睡著了一般柏卤。 火紅的嫁衣襯著肌膚如雪冬三。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天缘缚,我揣著相機與錄音勾笆,去河邊找鬼。 笑死忙灼,一個胖子當著我的面吹牛匠襟,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播该园,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼酸舍,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了里初?” 一聲冷哼從身側(cè)響起啃勉,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎双妨,沒想到半個月后淮阐,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體叮阅,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年泣特,在試婚紗的時候發(fā)現(xiàn)自己被綠了浩姥。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡状您,死狀恐怖勒叠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情膏孟,我是刑警寧澤眯分,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站柒桑,受9級特大地震影響弊决,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜魁淳,卻給世界環(huán)境...
    茶點故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一飘诗、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧先改,春花似錦疚察、人聲如沸蒸走。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽比驻。三九已至该溯,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間别惦,已是汗流浹背狈茉。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留掸掸,地道東北人氯庆。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像扰付,于是被迫代替她去往敵國和親堤撵。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 前言 這次給大家?guī)淼氖?6年發(fā)表在NATURE PROTOCOLS上面的一篇處理RNA-seq數(shù)據(jù)的文章:Tra...
    面面的徐爺閱讀 63,934評論 52 195
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理羽莺,服務發(fā)現(xiàn)实昨,斷路器,智...
    卡卡羅2017閱讀 134,651評論 18 139
  • 自從我看過皮克斯的預告與短片后我就迷上了玩具總動員. 我覺得這個片子很有趣. 當我看到玩具兵隊長和士兵們偶然發(fā)現(xiàn)腳...
    單單單某閱讀 378評論 0 2
  • 《美國丈挟,真的和你想的不一樣》by王逅逅 “WorkHard,PartyHard”是美國人最愛說的一句話,翻譯成“努...
    Sakura閱讀 478評論 1 2
  • 木蘭草原游記玩記 金色秋日里志电,陽光明媚中曙咽,天空一碧如洗,沒有一片云彩挑辆。在這樣的秋高氣爽的季節(jié)桐绒,在這樣晴空萬里的日子...
    長江秋水閱讀 1,054評論 0 2