因為小編之前做過一段時間的SV分析荷腊,所以想在此分享一下做SV分析的過程孕豹。
今天先介紹如何下載物種的contig數(shù)據(jù)捧挺?這是SV分析的第一步倚搬。
這里我用Chimpanzee作為例子進行介紹,嘻嘻脱盲!
首先我們需要從NCBI的AssemblyDatabase搜索物種信息邑滨,chimp的網(wǎng)址是:
https://www.ncbi.nlm.nih.gov/assembly/GCF_002880755.1
如下圖所示,我們再此可以知道物種的WGS project ID是 NBAG03钱反,點擊進入掖看。
進入到新頁面以后,你會看見網(wǎng)頁底部有WGS ***面哥,如下圖所示哎壳,點擊WGS。
點擊之后尚卫,你會進到數(shù)據(jù)庫Sequence Set Browser Database归榕,如下圖所示。該界面會介紹該版本基因組的相關(guān)信息吱涉,比如ID刹泄,物種名等外里。
https://www.ncbi.nlm.nih.gov/Traces/wgs/NBAG03?display=contigs
點進去以后,你會看到download標志特石,如下圖所示级乐,至此,可下載所有的contig fasta文件县匠。如果在服務(wù)器上,可使用wget+website進行下載撒轮,如果在本地電腦乞旦,可以直接點擊鏈接下載。
下載完畢后题山,你需要合并所有的contig數(shù)據(jù)到一個contig文件中兰粉,用于后續(xù)分析。記得要給fasta文件建立索引哦顶瞳,可以使用samtools faidx – indexes or queries regions from a fasta file建立索引玖姑,完整的介紹見網(wǎng)址:http://www.htslib.org/
綜上,介紹了做SV分析的第一步慨菱,如何下載contig數(shù)據(jù)焰络。