比較基因組分析-數(shù)據(jù)準備

比較基因組分析粘昨，首先需要選定要比較的物種码耐，然后下載這些物種的基因組數(shù)據(jù)。

基因組數(shù)據(jù)準備

數(shù)據(jù)準備
1.基因結(jié)構(gòu)注釋文件脆荷， gff/gtf格式
2.蛋白序列文件，fasta格式
3.cds序列文件懊悯，fasta格式
數(shù)據(jù)來源
1.自己組裝的基因組
2.數(shù)據(jù)庫下載
處理原則
1.一個基因保留一個轉(zhuǎn)錄本
2.ID要一致

數(shù)據(jù)庫

GI-Phytozome下載植物基因組
https://phytozome-next.jgi.doe.gov/

提供去除可變剪切的cds和pep
Gff/gtf文件需要過濾

Ensembl 基因組數(shù)據(jù)庫
植物： http://plants.ensembl.org/index.html蜓谋， 79 個記錄
后生動物：http://metazoa.ensembl.org/index.htm ，112個記錄
原生生物：http://protists.ensembl.org/index.html 炭分，237個記錄
真菌：http://fungi.ensembl.org/index.html 桃焕， 1,014 個記錄
細菌： http://bacteria.ensembl.org/index.html, 44,048 個記錄

蛋白序列和cds序列均包含所有轉(zhuǎn)錄本，需要過濾
gff文件包含所有轉(zhuǎn)錄本捧毛，需要過濾

NCBI下載基因組
https://www.ncbi.nlm.nih.gov/genome/
有些物種只有基因組序列观堂，沒有上傳基因注釋結(jié)果
基因組的染色體名稱為NCBI的accession編號
蛋白序列和cds序列均包含所有轉(zhuǎn)錄本，需要過濾
蛋白序列ID和基因ID無法直接對應呀忧，需要借助gff文件
物種特異數(shù)據(jù)庫
擬南芥： https://www.arabidopsis.org/
苦蕎： http://www.mbkbase.org/Pinku1/
水稻： http://rice.plantbiology.msu.edu/
...

由于可變剪切的存在师痕，一條基因僅保留一條最長的轉(zhuǎn)錄本。蛋白而账、CDS序列ID需要和注釋文件一致胰坟。

提取最長轉(zhuǎn)錄本

Phytozome 提供最長轉(zhuǎn)錄本數(shù)據(jù)，可以直接下載福扬。當使用Ensembl 下載的數(shù)據(jù)時腕铸，可以參考以下腳本提取最長cds惜犀。

# 基因注釋文件 Arabidopsis_thaliana.TAIR10.47.gff3
# cds序列文件 Arabidopsis_thaliana.TAIR10.cds.all.fa
# 蛋白序列文件 Arabidopsis_thaliana.TAIR10.pep.all.fa
# 基因組序列文件 Arabidopsis_thaliana.TAIR10.dna.toplevel.fa

## 去除gff3文件中ID部分多余字符
cp Arabidopsis_thaliana.TAIR10.47.gff3 Ath.gff3
sed -i 's/=gene:/=/g' Ath.gff3
sed -i 's/=transcript:/=/g' Ath.gff3
sed -i 's/=CDS:/=/g' Ath.gff3

## 基于gff3提取最長cds序列ID，并過濾gff3文件
perl ./gff_longest.pl Ath.gff3 Ath_id Ath_longest.gff3

## 提取最長的cds ID
awk '{print $2}' Ath_id > Ath_longest_id

## 基于最長的cds提取cds和蛋白質(zhì)序列文件
seqtk subseq Arabidopsis_thaliana.TAIR10.cds.all.fa  Ath_longest_id > Ath_longest.cds.fasta

seqtk subseq   Arabidopsis_thaliana.TAIR10.pep.all.fa Ath_longest_id > Ath_longest.pep.fasta

## 如果沒有cds和蛋白文件狠裹，也可以基于過濾后gff3文件從genome里提取cds并翻譯成蛋白
gffread Ath_longest.gff3 \
-g Arabidopsis_thaliana.TAIR10.dna.toplevel.fa \ #基因組序列
-x Ath_longest.cds.fasta \ #輸出cds序列
-y Ath_longest.pep.fasta #輸出蛋白序列

歡迎關(guān)注Bioinfor生信云虽界！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市涛菠，隨后出現(xiàn)的幾起案子莉御，更是在濱河造成了極大的恐慌，老刑警劉巖俗冻，帶你破解...
沈念sama閱讀 206,968評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件礁叔，死亡現(xiàn)場離奇詭異，居然都是意外死亡迄薄，警方通過查閱死者的電腦和手機琅关，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來讥蔽，“玉大人涣易，你說我怎么就攤上這事∫鄙。” “怎么了新症？”我有些...
開封第一講書人閱讀 153,220評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長响禽。經(jīng)常有香客問我徒爹，道長，這世上最難降的妖魔是什么芋类？我笑而不...
開封第一講書人閱讀 55,416評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任隆嗅，我火速辦了婚禮，結(jié)果婚禮上侯繁，老公的妹妹穿的比我還像新娘榛瓮。我一直安慰自己，他們只是感情好巫击，可當我...
茶點故事閱讀 64,425評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著精续，像睡著了一般坝锰。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上重付，一...
開封第一講書人閱讀 49,144評論 1贊 285
城市分裂傳說
那天顷级，我揣著相機與錄音，去河邊找鬼确垫。笑死弓颈，一個胖子當著我的面吹牛帽芽，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播翔冀，決...
沈念sama閱讀 38,432評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼导街，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了纤子？” 一聲冷哼從身側(cè)響起搬瑰，我...
開封第一講書人閱讀 37,088評論 0贊 261
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎控硼，沒想到半個月后泽论，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,586評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡卡乾，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,028評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年翼悴，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片幔妨。...
茶點故事閱讀 38,137評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡鹦赎，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出陶冷，到底是詐尸還是另有隱情钙姊，我是刑警寧澤，帶...
沈念sama閱讀 33,783評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布埂伦，位于F島的核電站煞额，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏沾谜。R本人自食惡果不足惜膊毁，卻給世界環(huán)境...
茶點故事閱讀 39,343評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望基跑。院中可真熱鬧婚温，春花似錦、人聲如沸媳否。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,333評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽篱竭。三九已至力图，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間掺逼，已是汗流浹背妒峦。一陣腳步聲響...
開封第一講書人閱讀 31,559評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工浴讯，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留疆栏，地道東北人快耿。一個月前我還...
沈念sama閱讀 45,595評論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 42,901評論 2贊 345

比較基因組分析-數(shù)據(jù)準備

基因組數(shù)據(jù)準備

數(shù)據(jù)庫

提取最長轉(zhuǎn)錄本

歡迎關(guān)注Bioinfor生信云虽界！

推薦閱讀更多精彩內(nèi)容