Biopython之gbff轉(zhuǎn)gff格式 2020-04-27

  • gbff是NCBI基因組數(shù)據(jù)庫常見的基因組genebank格式文件寞焙,在實際分析中教沾,常常需要gff格式或者gtf格式焕檬,所以就存在gbff轉(zhuǎn)換gff格式的需求


    image.png

先安裝Biopython,見前篇隨筆
再安裝 bcbio-gff
pip install bcbio-gff

$ pip install bcbio-gff
Collecting bcbio-gff
  Downloading bcbio-gff-0.6.6.tar.gz (19 kB)
Requirement already satisfied: six in /ldfssz1/MS_OP/USER/lifan/software/bin/miniconda3/lib/python3.7/site-packages (from bcbio-gff) (1.12.0)
Installing collected packages: bcbio-gff
    Running setup.py install for bcbio-gff ... done
Successfully installed bcbio-gff-0.6.6
  • 轉(zhuǎn)換代碼 Converting other formats to GFF3
from BCBio import GFF
from Bio import SeqIO

in_file = "your_file.gb"
out_file = "your_file.gff"
in_handle = open(in_file)
out_handle = open(out_file, "w")

GFF.write(SeqIO.parse(in_handle, "genbank"), out_handle)

in_handle.close()
out_handle.close()

實踐案例一

  1. 將代碼中your_file.gb 改成自己需要轉(zhuǎn)換的文件 GCA_010614865.1_ASM1061486v1_genomic.gbff.gz
  2. 將代碼中your_file.gff改成自己想要生成的gff文件名箱季,如GCA_010614865.1_ASM1061486v1_genomic.gbff.gff
  3. 保存改好的代碼并命名為python gbff2gff3.py
  4. 運行這個腳本python gbff2gff3.py

報錯情況1

$ python gbff2gff3.py
  File "gbff2gff3.py", line 28
    out_handle.close()from BCBio import GFF
                         ^
SyntaxError: invalid syntax

該報錯中提示無效語法out_handle.close()from BCBio import GFF赂鲤,重新審視發(fā)現(xiàn)多粘貼了開頭代碼段from BCBio import GFF到結(jié)尾噪径,刪除該結(jié)尾處的from BCBio import GFF可解決

報錯情況2

$ python gbff2gff3.py
File "*/miniconda3/lib/python3.7/codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

該報錯中提示UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

Google是法寶柱恤,直接搜索UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte,得到如下解找爱,見 stackoverflow

image.png

表示文件是壓縮文件梗顺,需要先解壓再作為輸入文件才可

于是開始解壓文件 gunzip -c GCA_010614865.1_ASM1061486v1_genomic.gbff.gz > Sd_genomic.gbff

image.png

修改新的對應(yīng)文件名后再運行腳本

##Converting other formats to GFF3

from BCBio import GFF
from Bio import SeqIO

in_file = "*/GCA_010614865.1_ASM1061486v1/Sd_genomic.gbff"
out_file = "*/GCA_010614865.1_ASM1061486v1/Sd_genomic.gbff.gff"
in_handle = open(in_file)
out_handle = open(out_file, "w")

GFF.write(SeqIO.parse(in_handle, "genbank"), out_handle)

in_handle.close()
out_handle.close()

python gbff2gff3.py
于是得到以下

image.png

替換方法:https://github.com/jorvis/biocode/blob/master/gff/convert_genbank_to_gff3.py
總結(jié):轉(zhuǎn)換后并不能得到直接可用的完整注釋文件,建議直接搜索已有的注釋文件

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末车摄,一起剝皮案震驚了整個濱河市寺谤,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌吮播,老刑警劉巖变屁,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異意狠,居然都是意外死亡粟关,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進店門环戈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來闷板,“玉大人,你說我怎么就攤上這事谷市』坠福” “怎么了?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵迫悠,是天一觀的道長鹏漆。 經(jīng)常有香客問我,道長创泄,這世上最難降的妖魔是什么艺玲? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮鞠抑,結(jié)果婚禮上饭聚,老公的妹妹穿的比我還像新娘。我一直安慰自己搁拙,他們只是感情好秒梳,可當我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著箕速,像睡著了一般酪碘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上盐茎,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天兴垦,我揣著相機與錄音,去河邊找鬼。 笑死探越,一個胖子當著我的面吹牛狡赐,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播钦幔,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼枕屉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了鲤氢?” 一聲冷哼從身側(cè)響起搀庶,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎铜异,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體秸架,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡揍庄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了东抹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蚂子。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖缭黔,靈堂內(nèi)的尸體忽然破棺而出食茎,到底是詐尸還是另有隱情,我是刑警寧澤馏谨,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布别渔,位于F島的核電站,受9級特大地震影響惧互,放射性物質(zhì)發(fā)生泄漏哎媚。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一喊儡、第九天 我趴在偏房一處隱蔽的房頂上張望拨与。 院中可真熱鬧,春花似錦艾猜、人聲如沸买喧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽淤毛。三九已至,卻和暖如春炸庞,著一層夾襖步出監(jiān)牢的瞬間钱床,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工埠居, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留查牌,地道東北人事期。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像纸颜,于是被迫代替她去往敵國和親兽泣。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,828評論 2 345