用python從gbff文件中直接提取cds序列

首先,我們要了解一下什么是GBFF文件

  • GenBank純文本文件格式(GenBank flatfile到旦, 簡稱GBFF)

  • GBFF是GenBank數(shù)據庫的基本信息單位

  • GBFF序列文件由單個的序列條目組成棍弄。

  • 序列條目由字段組成宵距,每個字段由關鍵字起始然低,后面為該 字段的具體說明英遭。

  • 字段分若干次子字段胁赢,以次關鍵字或特性表說明符開始企蹭。

  • 每個序列條目以雙斜杠“//*作結束標記

然后看一下每個序列條目所代表的意義

1、 LOCUS(代碼)序列的功能智末、序列長度谅摄、類型、種屬來源系馆、錄入日期

2送漠、 DEFINITION(說明)所含的生物學意義的總結性描述

3、 ACCESSION(編號)具有唯一性和永久性

4由蘑、 VERSION(版本號)檢索號闽寡、版本號

5、 KEYWORDS(關鍵詞)描述序列尼酿,“ . ”表示沒有任何描述內容

6下隧、 SOURCE(數(shù)據來源)序列來源生物的簡稱,或分子類型
7谓媒、 REFERENCE (文獻)與該數(shù)據有關的參考文獻淆院,按發(fā)表時間排名

8、 FEATURES(特性表)描述基因和基因的產物句惯,以及與序列相關的生物學特性土辩,其中包括
a. 特性關鍵詞(Feature key) 簡要說明功能組的關鍵詞
b. 特性位置(Location) 指明在特性表中的什么地方找到相關特性
c. 限定詞(Qualifiers) 相關特性的輔助信息

9、 ORIGIN(堿基排列順序)類似于FASTA格式給出了所記錄的序列

最后直接上代??抢野,更改輸入和輸出文件即可使用


import re

FILE_PATH = './input.gb'
OUT_FILE_PATH = './output.fasta'

d = {}
g = {}
tem = []

def con_spl(list_,n = 2):
    return [list_[i:i + n] for i in range(0, len(list_), n)]

with open (FILE_PATH,'r')as f:
    
    while True:

        text_line = f.readline().strip('\t').split()

        if text_line:

            if text_line[0] == 'DEFINITION':

                c = ' '.join(i for i in text_line[2:])
                d[c] = []
                g[c] = []

                print (text_line)

            elif text_line[0] == 'CDS':

                cds = re.findall(r"\d+\d*?",text_line[1])
                if len(cds) == 2:
                    d[c].append(cds)

                else:
                    for i in con_spl(cds):
                        d[c].append(i)

            elif text_line[0] == 'ORIGIN':

                while text_line[0] != '//':

                    for i in text_line[1:]:
                        tem.append(i)

                    text_line = f.readline().strip('\t').split()
                
                e = ''.join(i for i in tem)
                g[c].append(e)

            else:
                pass

        elif f.readline().strip('\t').split():

            continue

        else:
            break

with open (OUT_FILE_PATH,'w')as f:
    for i,o in d.items():
        G = ''.join(g[I])
        p = ''
        for u in o:
            u1 = int(u[0])
            u2 = int(u[1])+1
            p += G[u1:u2]
        print ('>',i,sep='',file=f)
        print (p,file=f)

如果有用請不要忘記點贊加關注拷淘,期待你的留言

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市指孤,隨后出現(xiàn)的幾起案子启涯,更是在濱河造成了極大的恐慌贬堵,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件结洼,死亡現(xiàn)場離奇詭異黎做,居然都是意外死亡,警方通過查閱死者的電腦和手機松忍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進店門蒸殿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人鸣峭,你說我怎么就攤上這事宏所。” “怎么了摊溶?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵爬骤,是天一觀的道長。 經常有香客問我莫换,道長霞玄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任浓镜,我火速辦了婚禮溃列,結果婚禮上,老公的妹妹穿的比我還像新娘膛薛。我一直安慰自己听隐,他們只是感情好,可當我...
    茶點故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布哄啄。 她就那樣靜靜地躺著雅任,像睡著了一般。 火紅的嫁衣襯著肌膚如雪咨跌。 梳的紋絲不亂的頭發(fā)上沪么,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天,我揣著相機與錄音锌半,去河邊找鬼禽车。 笑死,一個胖子當著我的面吹牛刊殉,可吹牛的內容都是我干的殉摔。 我是一名探鬼主播,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼记焊,長吁一口氣:“原來是場噩夢啊……” “哼逸月!你這毒婦竟也來了?” 一聲冷哼從身側響起遍膜,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤碗硬,失蹤者是張志新(化名)和其女友劉穎瓤湘,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體恩尾,經...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡弛说,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了特笋。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片剃浇。...
    茶點故事閱讀 38,039評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡巾兆,死狀恐怖猎物,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情角塑,我是刑警寧澤蔫磨,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站圃伶,受9級特大地震影響堤如,放射性物質發(fā)生泄漏。R本人自食惡果不足惜窒朋,卻給世界環(huán)境...
    茶點故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一搀罢、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧侥猩,春花似錦榔至、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至划提,卻和暖如春枫弟,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鹏往。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工淡诗, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人伊履。 一個月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓韩容,卻偏偏與公主長得像,于是被迫代替她去往敵國和親湾碎。 傳聞我的和親對象是個殘疾皇子宙攻,可洞房花燭夜當晚...
    茶點故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內容