今天我們繼續(xù)更新在微生物多樣性研究過(guò)程中涉及到的知識(shí)點(diǎn)和常見(jiàn)的分析方法辨析吩翻。希望能給初入研究的小白在連載中濾清思路令哟、獲得啟發(fā)讥此。
菌群多樣性分析是通過(guò)測(cè)序技術(shù)對(duì)微生物基因組中的marker基因(細(xì)菌為16S序列论寨,真菌為18S或ITS序列)全長(zhǎng)區(qū)段或部分區(qū)段進(jìn)行測(cè)序從而得到環(huán)境樣本中微生物種類(lèi)和豐度信息的花吟,基于現(xiàn)在的基因測(cè)序技術(shù)和菌群多樣性的研究目的,對(duì)于marker基因的擴(kuò)增们颜、測(cè)序絕大多是通過(guò)二代測(cè)序技術(shù)來(lái)實(shí)現(xiàn)的吕朵。
圖:細(xì)菌16S rDNA 結(jié)構(gòu) 來(lái)源:Lc Sciences
二代測(cè)序技術(shù)猎醇,也稱(chēng)高通量測(cè)序技術(shù),其便宜边锁、通量大姑食、準(zhǔn)確性高波岛,是基因測(cè)序技術(shù)中的“半壁江山”茅坛,其下機(jī)數(shù)據(jù)也很有特點(diǎn):
1、采用雙端測(cè)序方法则拷,一個(gè)樣本對(duì)應(yīng)兩條序列數(shù)據(jù)贡蓖;
2、下機(jī)數(shù)據(jù)都為短序列(150-250bp)(與二代測(cè)序測(cè)序原理有關(guān))
3煌茬、序列末端堿基質(zhì)量較低
圖:現(xiàn)今主流二代測(cè)序平臺(tái) 來(lái)源:Illunina官網(wǎng)
圖:現(xiàn)今主流二代測(cè)序平臺(tái) 來(lái)源:Illunina官網(wǎng)
在微生態(tài)的研究中斥铺,分析過(guò)程中的物種、豐度的信息全部是基于原始數(shù)據(jù)獲得的坛善,如果使用含有低質(zhì)量堿基的序列進(jìn)行后續(xù)分析的話晾蜘,一定會(huì)造成最終分析結(jié)果的失真。
所以我們?cè)谀玫较聶C(jī)數(shù)據(jù)的第一步眠屎,必須進(jìn)行序列的質(zhì)量控制剔交,去除低質(zhì)量序列。
一般的質(zhì)控流程為:
1改衩、切除序列尾端堿基質(zhì)量小于指定值(一般為20)的堿基岖常。
去除方法一般分為兩種,一種是簡(jiǎn)單的單堿基修剪葫督,從末端開(kāi)始依次讀取堿基的質(zhì)量值竭鞍,若質(zhì)量值小于指定值則進(jìn)行刪除,直到讀取堿基質(zhì)量高于指定值為止橄镜;
第二種方法是進(jìn)行滑窗修剪偎快,設(shè)定堿基數(shù)量滑窗,從末端開(kāi)始以滑窗為單位進(jìn)行修剪洽胶,直到滑窗內(nèi)堿基平均質(zhì)量均高于指定值滨砍。
2、過(guò)濾修剪后長(zhǎng)度小于指定值的序列(通常為50bp)妖异。
3惋戏、去除含N堿基的序列。
上述流程為通用流程他膳,具體的過(guò)濾參數(shù)和步驟也會(huì)因測(cè)序公司的不同/實(shí)驗(yàn)室的不同有所差異响逢。
通常我們稱(chēng)下機(jī)后的原始數(shù)據(jù)為 raw data ,質(zhì)控后的數(shù)據(jù)為clean data棕孙。
搞定好數(shù)據(jù)質(zhì)量問(wèn)題下一步就可以通過(guò)序列的聚類(lèi)與注釋了解物種和豐度信息了舔亭。
如何進(jìn)行物種注釋?zhuān)s快去看之前的文章吧~菌群多樣性分析-OTU聚類(lèi)與注釋
更多微生態(tài)相關(guān)文章: