#GTF/GFF格式# gffread入門(mén)使用

首先了解一下GTF/GFF的格式
https://asia.ensembl.org/info/website/upload/gff.html
兩者的關(guān)系如下

GTF (gene transfer format) is identical to GFF (general feature format) version 2

  • GFF格式主要是用來(lái)注釋基因組
  • GTF主要是用來(lái)對(duì)基因進(jìn)行注釋?zhuān)热缁蛟谌旧w上的位置(coordinate)及這段區(qū)間的其他信息。
    兩者在內(nèi)容上前八列相同,最后一列信息顯示不一致炬转,gff文件格式如下:
  1. seqid - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix. Important note: the seq ID must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below. (id印荔,一般為chr或者scanfold編號(hào))
  2. source - name of the program that generated this feature, or the data source (database or project name) (注釋的來(lái)源抑诸,如果未知用.代替)
  3. type - type of feature. Must be a term or accession from the SOFA sequence ontology (注釋信息的類(lèi)型彼妻,比如Gene、cDNA冒冬、mRNA伴逸、CDS等)
  4. start - Start position of the feature, with sequence numbering starting at 1.
  5. end - End position of the feature, with sequence numbering starting at 1.
  6. score - A floating point value. (序列相似性比對(duì)時(shí)的E-values值或者基因預(yù)測(cè)是的P-values值缠沈,“.”表示為空)
  7. strand - defined as + (forward) or - (reverse).(正反義鏈)
  8. phase - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on. (CDS類(lèi)型中指出該值,值為CDS的起始位置错蝴,除以3得到的余數(shù))
  9. attributes - A semicolon-separated list of tag-value pairs, providing additional information about each feature. Some of these tags are predefined, e.g. ID, Name, Alias, Parent - see the GFF documentation for more details. (以多個(gè)鍵值對(duì)組成的注釋信息描述洲愤,鍵與值之間用“=”,不同的鍵值用“顷锰;)

安裝如下:

  cd /some/build/dir
  git clone https://github.com/gpertea/gclib
  git clone https://github.com/gpertea/gffread
  cd gffread
  make

程序是c++編寫(xiě)的因此并不需要預(yù)裝一些包柬赐,當(dāng)然也可以使用conda安裝。

conda install gffread -y

使用的例子如下:

#下載gtf/gff文檔及hg19文件
wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_19/gencode.v19.annotation.gtf.gz
wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_19/gencode.v19.annotation.gff3.gz
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
#使用gunzip及tar分別解壓官紫,并合并下載內(nèi)容獲得hg19.fa
cat *.fa >hg19.fa
#根據(jù)hg19.fa提取CDS序列
gffread gencode.v19.annotation.gff3 -g hg19.fa -y tr_cds.fa
#翻譯后蛋白序列
gffread gencode.v19.annotation.gff3 -g hg19.fa -x cds.fa
#獲得外顯子序列
gffread gencode.v19.annotation.gff3 -g hg19.fa -w exons.fa
#格式轉(zhuǎn)換
gffread gencode.v19.annotation.gff3 -T -o gencode.v19.gtf
gffread merged.gtf -o- > merged.gff3

程序非常簡(jiǎn)約肛宋,通過(guò)man gffread查看使用說(shuō)明
github地址 https://github.com/gpertea/gffread

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末州藕,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子酝陈,更是在濱河造成了極大的恐慌慎框,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,695評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件后添,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡薪丁,警方通過(guò)查閱死者的電腦和手機(jī)遇西,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)严嗜,“玉大人粱檀,你說(shuō)我怎么就攤上這事÷” “怎么了茄蚯?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,130評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)睦优。 經(jīng)常有香客問(wèn)我渗常,道長(zhǎng),這世上最難降的妖魔是什么汗盘? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,648評(píng)論 1 297
  • 正文 為了忘掉前任皱碘,我火速辦了婚禮,結(jié)果婚禮上隐孽,老公的妹妹穿的比我還像新娘癌椿。我一直安慰自己,他們只是感情好菱阵,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,655評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布踢俄。 她就那樣靜靜地躺著,像睡著了一般晴及。 火紅的嫁衣襯著肌膚如雪都办。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,268評(píng)論 1 309
  • 那天虑稼,我揣著相機(jī)與錄音脆丁,去河邊找鬼。 笑死动雹,一個(gè)胖子當(dāng)著我的面吹牛槽卫,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播胰蝠,決...
    沈念sama閱讀 40,835評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼歼培,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼震蒋!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起躲庄,我...
    開(kāi)封第一講書(shū)人閱讀 39,740評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤查剖,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后噪窘,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體笋庄,經(jīng)...
    沈念sama閱讀 46,286評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,375評(píng)論 3 340
  • 正文 我和宋清朗相戀三年倔监,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了直砂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,505評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡浩习,死狀恐怖静暂,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情谱秽,我是刑警寧澤洽蛀,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站疟赊,受9級(jí)特大地震影響郊供,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜近哟,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,873評(píng)論 3 333
  • 文/蒙蒙 一颂碘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧椅挣,春花似錦头岔、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,357評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至量九,卻和暖如春适掰,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背荠列。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,466評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工类浪, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人肌似。 一個(gè)月前我還...
    沈念sama閱讀 48,921評(píng)論 3 376
  • 正文 我出身青樓费就,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親川队。 傳聞我的和親對(duì)象是個(gè)殘疾皇子力细,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,515評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi閱讀 7,345評(píng)論 0 10
  • **2014真題Directions:Read the following text. Choose the be...
    又是夜半驚坐起閱讀 9,572評(píng)論 0 23
  • 這兩天都在玩分答眠蚂,我也向我的生涯咨詢導(dǎo)師昂sir問(wèn)了一個(gè)問(wèn)題:“對(duì)斜杠青年怎么看煞聪?需要什么能力?” 其中提到一個(gè)觀...
    陳sir閱讀 1,325評(píng)論 0 7
  • 這情況是找不到對(duì)應(yīng)的文件逝慧,就比如我的項(xiàng)目簽名是放在桌面的昔脯,但是更新svn之后路徑不是我簽名的路徑了,這時(shí)候Sync...
    用心感受世界閱讀 910評(píng)論 0 0
  • 我小心翼翼地開(kāi)墾著 一片荒蕪的土地 我不敢跟任何人提起 我的艱辛 只是不辭勞苦地耕耘 我希望有一天 我辛苦播種的每...
    小風(fēng)徐徐閱讀 196評(píng)論 0 3