方法一、 少數基因可以利用網站直接進行替換
主要用的網站
ensemble plant Hordeum_vulgare - Ensembl Genomes 53
BARLE Gene View (ipk-gatersleben.de)這個網站主要是下載基因序列
可以選擇V1版本-V3版本惨险。
大麥的數據有兩年沒搞了,一轉頭參考基因組都發(fā)到了V3版本钙皮,這個麥類研究也是激烈簡直摻不忍睹!M缇觥6烫酢!
GalaxyGalaxy (ipk-gatersleben.de)
這個網站主要的作用是對一段基因序列能夠進行多個版本基因的blast擎值,這個功能要比ensemble plant上要好用慌烧,但是比起兩年前的網站,這個網站的可操作沒有那么流暢鸠儿,這個網站的使用鼓搗了好久屹蚊。交互性太差。但好在學習后就能使用进每,就不吐槽了汹粤。下邊是兩年前的使用方法。
現(xiàn)在這個網站的使用方法
第一步 序列獲取
1.這個網站需要上傳自己需要blast的序列田晚,這個序列要在上邊的BARLE上去尋找嘱兼,數據的格式可以選擇文件,也可以使用直接粘貼的方式贤徒;
2.這個序列將需要找的基因的序列在linux系統(tǒng)中對fasta序列按照基因名字進行批量提取芹壕,這個方法明天試試再把代碼貼上。
第二步 序列上傳
點擊粘貼數據或鏈接接奈,然后修改2地方的名字踢涌;也可以點擊本地上傳;
第三步 進行blast
最后結果會在右邊展示
方法二序宦、 對不同版本的CDS序列進行批量blast
第一步 下載不同大麥版本的CDS序列
V3版本的是從ensemble plant 下載的
##下載CDS序列
wget http://ftp.ensemblgenomes.org/pub/plants/release-53/fasta/hordeum_vulgare/cds/Hordeum_vulgare.MorexV3_pseudomolecules_assembly.cds.all.fa.gz
##解壓
gunzip http://ftp.ensemblgenomes.org/pub/plants/release-53/fasta/hordeum_vulgare/cds/Hordeum_vulgare.MorexV3_pseudomolecules_assembly.cds.all.fa.gz
##建庫
##軟件的位置在/u2/software/NCBI_blast/ncbi-blast/bin/
makeblastdb -in Hordeum_vulgare.MorexV3_pseudomolecules_assembly.cds.all.fa -dbtype nucl -out morex_v3 -parse_seqids
建庫結束后會出來
依據自己的基因對應的版本睁壁,對不同版本的CDS提取
參考(21條消息) 根據序列ID提取fasta序列周欣5518的博客-CSDN博客根據序列名提取序列,一下代碼全部是這個大佬的博文中的
# 用grep命令匹配所有有>號的行,即所有序列名字的行潘明,然后另存為文件 ITS_all.name
grep ">" Hordeum_vulgare.MorexV3_pseudomoleculesassembly.cds.all.fa >morex_v3_all.name
## 用sed查找>行剂,并把所有>號刪除
sed 's/>//g' morex_v3_all.name >morex_v3.name.txt
將這個文件下載到window電腦上
用excel打開后只有標1的那一列,添加左邊的一列(查看基因有幾個字節(jié)钳降,用left提群裨住),第三列是自己的目標基因牲阁,第四列用vlookup查找第一列的內容固阁,然后將第四列內容粘貼到linux新建的get_CDS.name文件里面去
# 在windows下的格式在Linux環(huán)境下可能不識別需要轉換格式
dos2unix get_CDS.name
## 用perl小程序進行提取
perl ./extract.pl get_CDS.name Hordeum_vulgare.MorexV3_pseudomoleculesassembly.cds.all.fa > select.gen.CDS.fa