隨著全基因組測序成本的不斷下降潦闲,細(xì)菌分類相關(guān)方法也從DNA-DNA hybridization(DDH)這類實(shí)驗(yàn)性方法轉(zhuǎn)移到基于基因組序列的相似性值(overall genome relatedness indices, ORGI)計(jì)算上梢夯。
平均核苷酸一致性(average nucleotide identity, ANI)是一種與DDH相似的ORGI球化。
1. ANI(Goris et al., 2007)
如何通過ANI衡量兩個菌株的相關(guān)性呢曙咽?
假設(shè)現(xiàn)在有兩個菌株A和B孕蝉,對應(yīng)基因組為genome A和genome B县匠。
A->B的ANI和B->A的ANI不一定是一致的,一般取兩者的平均值作為A-B的最終ANI丛版。
2.OrthoANI(Lee et al., 2016)
A->B的ANI和B->A的ANI不一定是一致的偏序,之間的差異甚至顯著高于1%页畦。為了解決這一問題,學(xué)者提出了OrthoANI研儒。其中豫缨,考慮了orthology。
具體流程分為三步:
1??將兩個基因組序列都切成長1020bp的連續(xù)性片段端朵。短于1020bp的片段會被舍棄好芭。
2??用BLASTn程序搜索這些片段的相似性片段。
3??只有互為最佳best hit的片段才能成為orthologous fragments冲呢。
a. 從中選擇長度長于35%(1020bp*35%)的比對舍败。
該比對中兩片段(A'和B')的平均核苷酸一致性:
b. 基因組范圍的核苷酸一致性 = 所有orthologous片段一致性的平均值。
相關(guān)軟件:OrthoANIu tool
3. ANI和OrthoANI的比較
- 兩者的相關(guān)性非常高敬拓,R^2=0.9998
- OrthoANI略高于ANI(大約0.1%)
- species相關(guān)閾值均為:95%~96%
- OrthoANI運(yùn)行速度要高于ANI邻薯,可能更適合大規(guī)模比較分析
- 兩者均不太適用遠(yuǎn)緣物種
4. 相關(guān)信息
- 1020bp的來源:DDH實(shí)驗(yàn)中,DNA片段約長1000bp乘凸,為了取一個近似厕诡,選擇1020bp。那為什么不選1000bp呢营勤????♀?
- BLASTn和MUMMER都可以計(jì)算ANI灵嫌。當(dāng)物種親緣關(guān)系比較近時,ANIb和ANIm有很好的相關(guān)性冀偶,ANIm會更快醒第。但當(dāng)親緣關(guān)系比較遠(yuǎn)時,ANIb具有更好的效果(Li et al., 2015)进鸠。
參考文獻(xiàn):
- Goris, J., Konstantinidis, K.T., Klappenbach, J.A., Coenye, T., Vandamme, P., and Tiedje, J.M. (2007). DNA-DNA hybridization values and their relationship to whole-genome sequence similarities. Int J Syst Evol Micr 57, 81-91.
- Lee, I., Kim, Y.O., Park, S.C., and Chun, J. (2016). OrthoANI: An improved algorithm and software for calculating average nucleotide identity. Int J Syst Evol Micr 66, 1100-1103.
- Li, X., Huang, Y.J., and Whitman, W.B. (2015). The relationship of the whole genome sequence identity to DNA hybridization varies between genera of prokaryotes. Anton Leeuw Int J G 107, 241-249.
5. pyani使用
我下載的是0.2版本的稠曼,所以參看0.2版本教程
# 1. 創(chuàng)建并進(jìn)入一個新的conda環(huán)境
conda create -n pyani python=3.8
source activate pyani
# 2. 安裝pyani
pip3 install pyani
# 3. 使用
average_nucleotide_identity.py -i test/ -o testout/ -m ANIm -g # mummer,僅使用近緣物種
average_nucleotide_identity.py -i test/ -o testout/ -m ANIb -g # blast
ANIm有時候會報(bào)錯客年,還沒找到原因霞幅。個人比較偏向使用ANIb。