一勉抓、OTU聚類
1.1? 為何要進(jìn)行OTU聚類
a) 測序完成后,每例樣品的測序序列達(dá)到幾萬條岖常,對每一條序列當(dāng)然都可以進(jìn)行物種注釋侍筛,但這種方式工作量大萤皂,畢竟每一條序列均需要與數(shù)據(jù)庫進(jìn)行比對、比對過程又比較耗時匣椰,而且擴(kuò)增裆熙、測序等過程中出現(xiàn)的錯誤會降低比對結(jié)果的準(zhǔn)確性。
b) 因此禽笑,在微生物多樣性研究中入录,引入了OTU的概念,首先對序列按照一定的相似程度進(jìn)行聚類佳镜,每形成的一類稱為一個OTU僚稿,一個OTU中序列的差異程度不能大于規(guī)定的相似程度,基于分類單元(OTU)進(jìn)行物種注釋(即從OTU中選擇一條代表序列與數(shù)據(jù)庫進(jìn)行比對獲得分類地位信息蟀伸,便是該OTU的分類地位信息)蚀同。?
c) 如此操作缅刽,不僅簡化工作量,提高分析效率唤崭,而且OTU在聚類過程中還可以去除一些錯誤的序列拷恨,如嵌合體序列,提高分析的準(zhǔn)確性谢肾。
1.2? OTU的概念
OTU(Operational Taxonomic Units)是在系統(tǒng)發(fā)生學(xué)研究或群體遺傳學(xué)研究中,為了便于進(jìn)行分析小泉,人為給某一個分類單元(品系芦疏,種,屬微姊,分組等)設(shè)置的同一標(biāo)志酸茴。??
在生物信息分析中,一般來說兢交,測序得到的每一條序列來自一個菌株薪捍。要了解一個樣品測序結(jié)果中的菌種、菌屬等數(shù)目信息配喳,就需要對序列進(jìn)行歸類操作(cluster)酪穿。通過歸類操作,將序列按照彼此的相似性分歸為許多小組晴裹,一個小組就是一個OTU被济。
1.3微生物多樣性研究中OTU聚類相似度的選擇
1)細(xì)菌16S多樣性研究中,目前主要按照序列97%的相似性進(jìn)行OTU聚類
主要原因:在16S全長比對中涧团,97%相似性可以認(rèn)定為同一個種只磷,所以可以初步認(rèn)為一個OTU都是屬于一個種的微生物,而細(xì)菌16S研究中泌绣,解釋度最可靠的分類學(xué)地位是“屬”钮追,所以97%相似度劃分OTU可以被接受。
2)OTU相似度的選擇可以通過如下方式進(jìn)行選擇
將序列按照梯度相似度(如:70~99%之間)分別進(jìn)行OTU聚類阿迈,將不同相似度的OTU數(shù)量進(jìn)行統(tǒng)計元媚,當(dāng)在某一相似度時,OTU數(shù)量出現(xiàn)拐點(diǎn)時仿滔,即為最合適的聚類相似度惠毁。
因此,在早期16S多樣性研究中崎页,也有使用96%和98%相似度進(jìn)行OTU聚類的鞠绰。
在功能基因多樣性研究中,聚類相似度浮動會比較大飒焦,不同的功能基因蜈膨,聚類相似度在80%左右屿笼,甚至30%左右。
1.4? OTU聚類方法
①de novo?
②closed-reference?
③open-reference??
這三種常見方法均有文獻(xiàn)發(fā)表翁巍,文獻(xiàn)中也介紹了其原理驴一,這里不再過多介紹。??
以上三種方法具有各自的優(yōu)勢和劣勢灶壶,但主要集中在是否有比對數(shù)據(jù)庫肝断;是否丟棄未比對上的序列;是否所有序列進(jìn)行比對驰凛,進(jìn)而導(dǎo)致的分析時長及準(zhǔn)確可靠性胸懈。?
④OTUX:19年發(fā)表的一種方法
文獻(xiàn):OTUX:V-region specific OTU database for improved 16S rRNA OTU picking and efficientcross-study taxonomic comparison of microbiomes(2019DNA Res)
1.5? OTU聚類時錯誤序列的去除
?OTU聚類時使用的“原料” :去除掉重復(fù)序列的“Cleandata”(去除掉Cleandata中重復(fù)[即一模一樣的]序列)。?
?OTU聚類時需要去除哪些錯誤序列:?
a)嵌合體序列恰响;?
b)測序錯誤序列:OTU聚類時趣钱,將OTU中僅有一條序列的OTU去除。
原始數(shù)據(jù)處理時遺留問題解答:
Cleandata通過嵌合體等去除后才可正式進(jìn)入分析環(huán)節(jié)胚宦,因此首有,Cleandata的序列數(shù)量應(yīng)比正式進(jìn)入分析的序列要多。
1.6? 嵌合體序列產(chǎn)生的原因及種類
嵌合體產(chǎn)生的原因:細(xì)菌多樣性研究中枢劝,產(chǎn)生嵌合體的主要原因是在16S擴(kuò)增過程中不完全的模板延伸造成的井联。在一個循環(huán)中由一個序列連接到另一條序列的部分區(qū)域上。?
嵌合體的種類:ü兩個不同序列區(qū)域產(chǎn)生的嵌合體(bimeras);??
多個不同序列區(qū)域產(chǎn)生的嵌合體(multimeras)呈野。?
嵌合體的占比約為10%左右(個人經(jīng)驗)
1.7? 如何減少嵌合體產(chǎn)生
a.Tuchdown方法:以緩慢的速度升降PCR反應(yīng)溫度低矮;
b.修整PCR方法:在新的PCR體重中稀釋PCR產(chǎn)物10倍,進(jìn)行三次循環(huán)被冒,可減少嵌合體军掂;
c.PCR體系調(diào)整:適當(dāng)降低Mg離子濃度,dNTPs濃度昨悼,DNA聚合酶濃度蝗锥;適當(dāng)增加反應(yīng)溫度;減少蛋白污染?
d.調(diào)整PCR程序:減少循環(huán)數(shù)率触。?
e.借鑒qPCR實驗手段:選擇或者更換合適的酶终议;適當(dāng)提高引物濃度(1μM),但不宜過高葱蝗,會增加二聚體產(chǎn)生的幾率穴张;采用兩步法PCR,即退火和延伸溫度在同一溫度完成两曼。
二皂甘、OTU物種注釋
為了得到每個OTU對應(yīng)的物種分類信息,采用RDPclassifier貝葉斯算法對一定相似度水平的OTU代表序列進(jìn)行分類學(xué)比對分析悼凑,并分別在各個分類水平:domain(域)偿枕,kingdom(界)璧瞬,phylum(門),class(綱)渐夸,order(目)嗤锉,family(科),genus(屬)墓塌,species(種)統(tǒng)計各樣品的群落組成瘟忱。
三、物種注釋數(shù)據(jù)庫