前言
之前一直使用qiime1+usearch或者qiime1+vsearch垢村,因?yàn)橐恢焙茉嵅iime2里封閉的系統(tǒng)拓诸。但最近還是因?yàn)槟承┬枨笮枰锢锿馔獾目匆欢裶iime2的文檔胚宦,所以這里記錄一下一些我highlight的地方您旁。不能作為學(xué)習(xí)筆記但是可以作為一下踩雷的紀(jì)要吧
踩雷正文
-
q2-dada2
會(huì)自動(dòng)對(duì)pairend的序列進(jìn)行joind - dual-indexed 和mix-orientation reads暫時(shí)無官方解決方案
- deblur需要基于質(zhì)量分?jǐn)?shù)的篩選驼鞭,而dada2不需要固耘。
- deblur和dada2都有內(nèi)在的chimera檢查和基于豐度的篩選,所以不需要額外的filtering
- classifier作為assign taxonomy的分類器,
vsearch和blast
都基于consensus的比對(duì)和排名,剩下一個(gè)基于sklearn
的機(jī)器學(xué)習(xí)的方法. - q2-classifier并不好多少...甚至比用0.7置信區(qū)間的rdp的還差一點(diǎn).灌水文.Optimizing taxonomic classification of marker-gene amplicon sequences with QIIME 2’s q2-feature-classifier plugin
- Mockrobiota測(cè)試集
- 如果沒有EMP或者Casava格式的fastq的話,需要自己寫一個(gè)manifest格式的文件才能導(dǎo)入數(shù)據(jù).Fastq manifest PS: Casava格式就是形如
@HWI-ST279:211:C0BFTACXX:3:1101:3469:2181 1:N:0:ACTTGA
格式的fastq.@<instrument>:<run number>:<flowcell ID>:<lane>:<tile>:<x- pos>:<y-pos> <read>:<isfiltered>:<control number>:<index sequence>
文件名形如L2S357_15_L001_R1_001.fastq.gz
- the sample identifier,
- the barcode sequence or a barcode identifier,
- the lane number,
- the direction of the read (i.e. only R1, because these are single-end reads), and
- the set number.
- qiime2中篩選(filtering)提供的模式十分的多. filtering
- 篩選feature tables
- 完全基于頻率的篩選
- 基于conntigency的篩選(篩選只在少數(shù)樣本中出現(xiàn)的feature)
- 基于id的篩選
- 基于metadata的篩選(可以基于metadata寫sql語句https://en.wikipedia.org/wiki/Where_(SQL).......
高級(jí))- 基于taxonomy的篩選(可以只保留/去除某些genus/phylum的樣本)
- 篩選序列
- 篩選距離矩陣
- qiime2提供的Artifact API十分的粗糙垫挨,而且由于qiime2希望建立成一個(gè)方便擴(kuò)展的工具平臺(tái),所以它以一種十分奇怪的方式對(duì)plugin進(jìn)行
import
切威,所以也導(dǎo)致在python的IDE中去索引相關(guān)的模塊變得十分的艱難棉浸。 - qiime2中部分的數(shù)據(jù)鼓择,其實(shí)是臨時(shí)地儲(chǔ)存在臨時(shí)文件中的,例如序列文件(這里用rep有缆,代表序列為例)史隆。如果在python的環(huán)境中的話熔酷,可以通過
rep._archiver.data_dir
找到其臨時(shí)儲(chǔ)存的地方。 - qiime2-2019.1中看起來已經(jīng)完全拋棄了原來的OTU的流程了,因?yàn)樵谖臋n和源代碼中都很難找到相應(yīng)的部分煞烫,即使其中含有vsearch的
denovo clustering
的函數(shù),但是其實(shí)也只是為了sOTU服務(wù)朱监。
踩雷總結(jié)
為了更好和更靈活的使用qiime2,我寫了一個(gè)整合性的python流程腳本躺苦,儲(chǔ)存在我的github倉庫中,之后隨著qiime2的使用,以及更多的與原來OTU的比較欢嘿,應(yīng)該也會(huì)進(jìn)行不定時(shí)的更新,使用文檔暫時(shí)沒有炼蹦。。虑啤。但主入口就是main.py