有很多伙伴,都在進(jìn)行基因組的組裝站欺,但是具體需要干什么,從什么地方開始纤垂,下一步又應(yīng)該做什么?并不是很了解矾策。
我用下面一份流程圖來(lái)簡(jiǎn)單的說(shuō)一下,整個(gè)基因組組裝應(yīng)該做些什么峭沦。也是我組裝多個(gè)基因組之后贾虽,梳理的流程,或許也有一些欠缺吼鱼,歡迎大家指出蓬豁!
最基本的流程就是:
1.明確自己的物種信息,包括物種倍性菇肃、染色體條數(shù)地粪、大概的基因組大小琐谤;
2.得到自己的測(cè)序數(shù)據(jù)蟆技,明確自己的數(shù)據(jù)是PacBio HiFi還是Nanopore數(shù)據(jù);
3.選擇對(duì)應(yīng)的軟件開始進(jìn)行組裝斗忌,不過(guò)現(xiàn)在的組裝軟件基本上都支持多種數(shù)據(jù)類型质礼,只是使用過(guò)程中的一些參數(shù)不同而已;
4.如果你得到的是最原始的測(cè)序下機(jī)數(shù)據(jù)飞蹂,也就是我們得到的是bam文件的數(shù)據(jù)類型几苍,那么做的第一步就是將bam文件轉(zhuǎn)為fastq/fasta文件;因?yàn)檐浖恢С州斎胛募閎am文件陈哑;
5.通過(guò)各種軟件進(jìn)行組裝妻坝,最終得到contig文件,進(jìn)行各項(xiàng)評(píng)估惊窖,查看各項(xiàng)指標(biāo)是否滿足需求或者說(shuō)質(zhì)量是否高刽宪。例如contigN50的統(tǒng)計(jì)、BUSCO完整性的評(píng)估界酒、GC含量的統(tǒng)計(jì)等等圣拄。(如果你的contig冗余太高,還要進(jìn)行去冗余處理)
6.在通過(guò)軟件毁欣,例如AllHiC庇谆、RagTag等岳掐;加上輔助數(shù)據(jù),例如Hic數(shù)據(jù)饭耳,參考基因組等串述,對(duì)你的contig序列進(jìn)行整合,到達(dá)scaffold水平寞肖,也就是我們說(shuō)的染色體水平纲酗;并繪制一個(gè)染色體的共線熱圖
7.得到scaffold水平的基因組之后就可以開始進(jìn)行,基因的結(jié)構(gòu)注釋新蟆,得到一個(gè)完整的一套基因組文件(genome/gtf/gff3/cds/pep)文件觅赊;
8.進(jìn)行基因組的TE注釋,用EDTA軟件進(jìn)行琼稻,得到基因組的LTR信息吮螺;
9.對(duì)組裝出來(lái)的基因組,進(jìn)行評(píng)估帕翻,大抵上和評(píng)估contig的時(shí)候差不多规脸;但是BUSCO這時(shí)候評(píng)估的就是蛋白序列(pep);
10.統(tǒng)計(jì)各項(xiàng)指標(biāo):基因數(shù)目熊咽、外顯子數(shù)目、內(nèi)含子數(shù)目闹丐、miRNA數(shù)目横殴、tRNA數(shù)目等。
若有遺漏卿拴,歡迎大家指出和糾正衫仑!