今天有一個(gè)需求火邓,就是要將gtf中的轉(zhuǎn)錄本轉(zhuǎn)成fasta序列袖订,一開始是想著用bedtools getfasta實(shí)現(xiàn)慰毅,awk取出來坐標(biāo)做成bed文件輸入bedtools屎即,但是結(jié)果發(fā)現(xiàn)bedtools是單純按照坐標(biāo)取出來的,也懶得自己寫腳本取了事富,搜一下發(fā)現(xiàn)cufflinks中有個(gè)程序可以實(shí)現(xiàn)技俐。
如上圖所示,“ENSMUST00000082908.1”轉(zhuǎn)錄本是這兩個(gè)exons统台,取出這個(gè)轉(zhuǎn)錄本的fasta序列其實(shí)就是這兩個(gè)exons對應(yīng)的序列位置雕擂,需要把兩個(gè)序列連起來。比如說贱勃,exon1是 chr 1 10-50 : AAAAAAAAAA井赌; exon2是chr 1 70-80: TTTTTTTTT(僅做例子)。那么取出來的序列為:AAAAAAAAAATTTTTTTTT贵扰。(exons中間空出的部分并沒有真的轉(zhuǎn)錄出來)仇穗。
gffread可以直接實(shí)現(xiàn)這個(gè)功能,這來自于cufflinks(一直不知道這個(gè)老軟件竟然還有這個(gè)功能)戚绕,直接conda install cufflinks之后即可使用gffread纹坐。使用如下代碼即可轉(zhuǎn)換:
gffread transcripts.gtf -g reference.fasta -w transcripts.fasta?
轉(zhuǎn)出來效果:
使用:
gffread -h
即可查看所有參數(shù)。
歡迎關(guān)注舞丛!