前一篇文章為大家介紹了在進行菌群多樣性研究中的時候需要進行OTU的聚類惋增,在聚類后選擇OTU集中的OTU代表序列比對數(shù)據(jù)后就可以得到物種信息了杉女。
但是,比對哪個數(shù)據(jù)庫才能得到比較好的注釋結(jié)果呢檀夹?今天我們就為大家介紹下在菌群多樣性研究中常見的數(shù)據(jù)庫溶其,本篇介紹的僅為原核生物注釋數(shù)據(jù)庫骚腥,真核數(shù)據(jù)庫后續(xù)會為的大家講解。
Silva數(shù)據(jù)庫
首先第一個瓶逃,也是大家最常用的一個--Silva數(shù)據(jù)庫(https://www.arb-silva.de/)束铭。
Sliva數(shù)據(jù)庫全稱(SILVA ribosomal RNA database),是一個核糖體的RNA數(shù)據(jù)庫厢绝,其提供全面的三個生命域(細菌契沫、古細菌和真核生物)中的小亞基(簡稱SSU,包括16S/18S昔汉,SSU)和大亞基(簡稱LSU懈万,包括23S/28S,LSU)核糖體RNA(rRNA)序列數(shù)據(jù)集靶病。
其收錄全面会通、更新比較及時,是目前高通量測序常用的SSU和LSU參考數(shù)據(jù)庫之一娄周。最近的一次更新時間在2020年9月2日涕侈,版本為Silva 138.1。138.1版本的數(shù)據(jù)庫包含198萬條細菌16S序列信息煤辨,近7萬條古菌核糖體序列裳涛。
Silva數(shù)據(jù)庫可以用于菌種鑒定和物種的分類鑒定木张,可以通過上傳rRNA序列來確定序列的分類學(xué)信息。
(數(shù)據(jù)來源:Silva 數(shù)據(jù)庫官網(wǎng))
RDP數(shù)據(jù)庫
RDP數(shù)據(jù)庫全稱“RibosomalDatabase Project”(http://rdp.cme.msu.edu/)调违,其包括細菌、古菌16S rRNA基因和真菌28S rRNA基因序列泻轰,有質(zhì)控技肩、比對、注釋等功能浮声。這個數(shù)據(jù)的更新非承樾觯“遲緩”,最新一版為2016年9月30日更新的RDP Release 11.5泳挥,數(shù)據(jù)庫中包含3356809 條16S rRNAs然痊,125525條真菌 28S rRNA序列。
驚喜的是在2020年8月14日屉符,該數(shù)據(jù)庫使用細菌和古細菌分類模型訓(xùn)練集更新了第18版的物種分類學(xué)方法剧浸,新版本新增了800多個新屬和4000個新種,并且根據(jù)最新的基因組分析對多個門和屬進行了重大重排矗钟。(更新詳情:https://sourceforge.net/projects/rdp-classifier/)
和Silva數(shù)據(jù)庫一樣唆香,RDP數(shù)據(jù)庫也可用于菌種鑒定和物種的分類鑒定,通過上傳rRNA序列來確定該序列的分類學(xué)信息吨艇。
Greengenes數(shù)據(jù)庫
Greengenes數(shù)據(jù)庫(https://greengenes.secondgenome.com/)是針對細菌躬它、古菌16S rRNA基因的數(shù)據(jù)庫,相較于前面的RDP數(shù)據(jù)庫來說东涡,更新的更慢冯吓,現(xiàn)在的版本仍舊停留在2013年5月更新的gg_13_5版本上。
多樣性測序數(shù)據(jù)下機后都是基于RDP數(shù)據(jù)庫比對去除已知序列的嵌合體的疮跑,還有值得一提的是组贺,細菌功能預(yù)測分析PICRUSTt是基于Greengenes進行的,如果有功能預(yù)測分析需求的同學(xué)們可以留意看下祖娘。
EzBioCloud數(shù)據(jù)庫
EzBioCloud是一個由ChunLab維護的專門針對細菌锣披、古菌16S rRNA基因的數(shù)據(jù)庫。該數(shù)據(jù)庫更新也很遲緩贿条,但是值得開心的是雹仿,在2021年4月13日它進行了最新的一次更新,更新后的數(shù)據(jù)庫包括84727個物種整以,65986條16SrRNA序列胧辽,201867條基因組信息。
EzBioCloud數(shù)據(jù)庫可以進行16SrRNA鑒定(每次只能上傳一條序列公黑,并且使用功能前需登錄)并繪制系統(tǒng)發(fā)育樹邑商,還可以確定某一微生物的近緣可培養(yǎng)/模式種摄咆。
上述4個數(shù)據(jù)庫呢,常用于細菌人断、古菌群落微生態(tài)的物種注釋吭从,鑒于這些數(shù)據(jù)庫的更新頻次差距太大,所以在實際中常用的還是Silva數(shù)據(jù)庫恶迈。
數(shù)據(jù)庫的版本選擇上呢涩金,一般會使用當(dāng)前研究階段最新版的數(shù)據(jù)庫(畢竟內(nèi)容全面嘛),但是對于做樣本間有時間跨度的研究的時候暇仲,比如說是做時間跨度上的土壤樣本測序步做,第一年的樣本進行物種注釋的時候用的是Silva1.2.8版本的數(shù)據(jù)庫,兩年之后奈附,再次在同地點取樣進行多樣性分析全度,此時最新版的Silva數(shù)據(jù)庫已經(jīng)更新到了1.3.2版本,那么此時建議選擇和前一個樣本相同版本的數(shù)據(jù)庫進行注釋斥滤,避免數(shù)據(jù)庫注釋信息之間的差異影響實驗最終結(jié)果将鸵。
本文知識對4個數(shù)據(jù)庫進行了簡單的介紹,上文中的Silva數(shù)據(jù)庫佑颇、RDP數(shù)據(jù)庫的下載及其他功能實現(xiàn)(如:序列查找咨堤、序列比對等)我會在后續(xù)文章中為大家介紹詳細的操作流程,其他真菌marker基因數(shù)據(jù)庫也會后續(xù)為大家分享漩符,請持續(xù)關(guān)注一喘。
更多微生態(tài)相關(guān)文章: