生信流程搭建(13)擬南芥參考基因下載與注釋文件配置

在Ensembl數(shù)據(jù)庫中下載擬南芥參考基因

TAIR是研究擬南芥的首選數(shù)據(jù)庫,其他數(shù)據(jù)庫中擬南芥的基因組數(shù)據(jù)都是直接來自TAIR

這里選擇Ensembl的原因是仆抵,感覺更加方便
植物參考基因組:http://plants.ensembl.org/index.html

  • 一些常用的物種列在首頁 擬南芥,水稻种冬,玉米等
  • 如果想要得物種不在首頁可以點擊:View full list of all Ensembl Plants species 镣丑,可以得到所有物種的列表;

動物參考基因組:http://asia.ensembl.org/index.html
植物參考基因組:http://plants.ensembl.org/index.html
其他真菌細菌等參考基因組:http://ensemblgenomes.org/

點擊進入擬南芥參考基因組介紹頁面

點擊Download DNA sequence (FASTA)

  • 一般下載*toplevel.fa.gz文件娱两,為參考基因組完整文件


  • 其他sm和rm的意義可看README文件莺匠,介紹如下,為repeat區(qū)不同mask方法:

'dna_rm'- masked genomic DNA. Interspersed repeatsandlow complexity regions are detectedwiththe RepeatMasker toolandmasked by replacing repeatswith'N's.

'dna_sm'- soft-masked genomic DNA. All repeatsandlow complexity regions have been replaced with lowercased versionsoftheir nucleic base

基因組不大十兢,下載比較快

基因注釋gtf文件的下載

在上一步的基礎上繼續(xù)點擊三次轉(zhuǎn)到高層目錄:可以看到gff和gtf目錄趣竣,點擊進入到自己想要的物種下載對應的文件即可:



其實會玩一點的摇庙,就直接在原本下載fasta鏈接的基礎上把fasta改為gtf

注意:fasta格式文件版本與gtf格式文件的版本必須一致。

用Xftp將文件上傳到服務器

查看gtf注釋文件

GTF文件如下所示:

$less -S Arabidopsis_thaliana.TAIR10.45.gtf.gz

當前所廣泛使用的GTF格式為第二版(GTF2)遥缕,它主要是用來描述基因的注釋卫袒。GTF格式有兩個硬性標準:

  • 根據(jù)所使用的軟件的不同,feature types是必須注明的单匣。
  • 第9列必須以gene_id以及transcript_id開頭
    GTF文件的第9列同GFF文件不同夕凝,雖然同樣是標簽與值配對的情況,但標簽與值之間以空格分開户秤,且每個特征之后都要有分號;(包括最后一個特征):
gene_id "geneA";transcript_id "geneA.1";database_id "0012";modified_by "Damian";duplicates 0;

解壓文件

gzip -d Arabidopsis_thaliana.TAIR10.45.gtf.gz
gzip -d Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz

========================================================================

以下內(nèi)容是為了構(gòu)建10X單細胞轉(zhuǎn)錄組參考文件码秉,普通bulk測序可以不用管下面內(nèi)容

cellranger 檢查并生成指定用于10X pipiline的gtf文件

$cellranger mkgtf Arabidopsis_thaliana.TAIR10.45.gtf Arabidopsis_thaliana.TAIR10.45_new.gtf
/opt/biosoft/cellranger-expression/cellranger-cs/3.1.0/bin
cellranger mkgtf (3.1.0)
Copyright (c) 2019 10x Genomics, Inc.  All rights reserved.
-------------------------------------------------------------------------------

Writing new genes GTF file (may take 10 minutes for a 1GB input GTF file)...
...done

為了后面分析流程的需要,在線粒體基因上加上"Mt"標記

可以自己寫一個Perl或者Python的小腳本

python add_mt_marker.py Arabidopsis_thaliana.TAIR10.45_new.gtf  Arabidopsis_thaliana.TAIR10.45_new2.gtf 
mv Arabidopsis_thaliana.TAIR10.45_new2.gtf Arabidopsis_thaliana.TAIR10.45.gtf
less -S Arabidopsis_thaliana.TAIR10.45.gtf

cellranger 檢查并生成指定用于10X pipiline的reference

$cellranger mkref --genome TAIR10 --fasta Arabidopsis_thaliana.TAIR10.dna.toplevel.fa --genes Arabidopsis_thaliana.TAIR10.45.gtf
/opt/biosoft/cellranger-expression/cellranger-cs/3.1.0/bin
cellranger mkref (3.1.0)
Copyright (c) 2019 10x Genomics, Inc.  All rights reserved.
-------------------------------------------------------------------------------

Creating new reference folder at /share/nas1/Data/Users/luohb/Data/Reference/TAIR/TAIR10
...done

Writing genome FASTA file into reference folder...
...done

Computing hash of genome FASTA file...
...done

Indexing genome FASTA file...
...done

Writing genes GTF file into reference folder...
...done

Computing hash of genes GTF file...
...done

Writing genes index file into reference folder (may take over 10 minutes for a 3Gb genome)...
...done

Writing genome metadata JSON file into reference folder...
...done

Generating STAR genome index (may take over 8 core hours for a 3Gb genome)...
Jan 15 17:59:49 ..... Started STAR run
Jan 15 17:59:49 ... Starting to generate Genome files
Jan 15 17:59:55 ... starting to sort  Suffix Array. This may take a long time...
Jan 15 17:59:55 ... sorting Suffix Array chunks and saving them to disk...
Jan 15 18:04:32 ... loading chunks from disk, packing SA...
Jan 15 18:04:50 ... Finished generating suffix array
Jan 15 18:04:50 ... Generating Suffix Array index
Jan 15 18:05:08 ... Completed Suffix Array index
Jan 15 18:05:08 ..... Processing annotations GTF
Jan 15 18:05:16 ..... Inserting junctions into the genome indices
Jan 15 18:09:14 ... writing Genome to disk ...
Jan 15 18:09:15 ... writing Suffix Array to disk ...
Jan 15 18:09:16 ... writing SAindex to disk
Jan 15 18:09:16 ..... Finished successfully
...done.

>>> Reference successfully created! <<<

You can now specify this reference on the command line:
cellranger --transcriptome=/share/nas1/Data/Users/luohb/Data/Reference/TAIR/TAIR10 ...

查看一下新生成的文件夾的內(nèi)容:

$cd TAIR10/
$ls
fasta  genes  pickle  reference.json  star

保存原始的壓縮文件鸡号,和說明文檔转砖。說明文件來源

$cd ..
$cd source/
$vi README.txt
$ls
Arabidopsis_thaliana.TAIR10.45.gtf.gz  Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz  README.txt

搞掂收工~

參考文章

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鲸伴,一起剝皮案震驚了整個濱河市府蔗,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌挑围,老刑警劉巖礁竞,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件糖荒,死亡現(xiàn)場離奇詭異杉辙,居然都是意外死亡,警方通過查閱死者的電腦和手機捶朵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門蜘矢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人综看,你說我怎么就攤上這事品腹。” “怎么了红碑?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵舞吭,是天一觀的道長。 經(jīng)常有香客問我析珊,道長羡鸥,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任忠寻,我火速辦了婚禮惧浴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘奕剃。我一直安慰自己衷旅,他們只是感情好捐腿,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著柿顶,像睡著了一般茄袖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上嘁锯,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天绞佩,我揣著相機與錄音,去河邊找鬼猪钮。 笑死品山,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的烤低。 我是一名探鬼主播肘交,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼扑馁!你這毒婦竟也來了涯呻?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤腻要,失蹤者是張志新(化名)和其女友劉穎复罐,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體雄家,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡效诅,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了趟济。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乱投。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖顷编,靈堂內(nèi)的尸體忽然破棺而出戚炫,到底是詐尸還是另有隱情,我是刑警寧澤媳纬,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布双肤,位于F島的核電站,受9級特大地震影響钮惠,放射性物質(zhì)發(fā)生泄漏茅糜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一萌腿、第九天 我趴在偏房一處隱蔽的房頂上張望限匣。 院中可真熱鬧,春花似錦、人聲如沸米死。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽峦筒。三九已至究西,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間物喷,已是汗流浹背卤材。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留峦失,地道東北人扇丛。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像尉辑,于是被迫代替她去往敵國和親帆精。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345