寫在前面:
最近要將參考基因組(4.1G,粗山羊草)的每一條染色體單獨(dú)提取出來(lái)撕彤,之前我寫過(guò)一個(gè)使用faSomeRecords的帖子基因組學(xué)5-利用faSomeRecords根據(jù)基因ID提取基因序列 - 簡(jiǎn)書,本想使用那種方法進(jìn)行染色體的提取节仿,然而發(fā)現(xiàn)了一些問(wèn)題巢块,推測(cè)可能是參考基因組太大,超過(guò)了該軟件的限制护桦。報(bào)錯(cuò)如下:
$:faSomeRecords ae.tauschii.genome.fa ae.tauschii.chr1.txt test
Line too long (more than 536870912 chars) line 4 of ae.tauschii.genome.fa
正文:
為了解決這個(gè)問(wèn)題含衔,想到了使用fastacmd,關(guān)于該軟件的詳細(xì)用法二庵,官網(wǎng)如下http://nebc.nox.ac.uk/bioinformatics/docs/fastacmd.html贪染,有興趣的可以仔細(xì)看看!
安裝步驟在此不再敘述催享,可以使用自己編譯杭隙,也可以從conda下載。
然而該軟件的使用首先需要對(duì)參考基因組進(jìn)行blast建庫(kù)因妙。
makeblastdb -in ref.fasta -dbtype nucl -out ref.database -parse_seqids
建庫(kù)成功后痰憎,將會(huì)得到如下幾個(gè)文件。
然后可以調(diào)用該軟件攀涵,使用以下命令
fastacmd??-d? ae.tauschii.genome -i chr1d.txt -o chr1d.genome.fa
chr1d.txt文件內(nèi)容只有一行铣耘,就是chr1D,記住不要加>號(hào)以故!
周后就可以得到chr1D的基因組序列了蜗细!
后記:
最近好幾個(gè)朋友問(wèn)我還在更新帖子不,其實(shí)中間因?yàn)檎n題比較忙据德,斷更了快2個(gè)月鳄乏。后來(lái)想了想,時(shí)間緊的話棘利,就在帖子里少敘述一些橱野,時(shí)間充足就多寫一些,寫得詳細(xì)一些善玫。但一定要保持下去水援。
也很感謝每一位讀者對(duì)我的鼓勵(lì)和支持,這也是我不斷寫下去的動(dòng)力茅郎!