宏基因組分析教程
microPITA | 宏基因組測序前凿试,你可以這樣篩選樣本
microPITA
加拿大安大略研究所建立的生物信息網(wǎng)
1. 什么是 組裝?
基因組測序時將測得的各短序列拼接成連續(xù)完整的序列
簡單地說就是從reads 到 Scaftig的過程平夜。
2. 為什么要組裝?
因?yàn)槟壳岸鷾y序的序列讀長比較短最長只有300bp
- Assembly improves annotation accuracy
3. 怎樣組裝卸亮?
經(jīng)過預(yù)處理后得到 Clean Data忽妒,使用 SOAP denovo(腸道樣品用soapdenovo || soil,water用MEGAHIT)組裝軟件進(jìn)行組裝分析( Assembly Analysis )
如何選擇組裝軟件:↓↓↓
if (micro diversity is not a major issue&& the primary research goal is to bin && reconstruct representative bacterial genomes from a given environment){
metaSPAdes should clearly be the assembler of choice. # This assembler yields the best contig size statistics while capturing a high degree of community diversity, even at high complexity and low read coverage;
}elsif(mico diversity is however an issue || the degree of
captured diversity is far more important than contig
lengths){
then IDBA-UD or Megahit should be preferred. # The sensitivity of these assemblers, both for diversity as well as micro diversity, makes them optimal choices when trying to discover novel species in complex habitats. Whenever computational resources become limiting,
Megahit becomes the most attractive option, due to its good compromise between contig size statistics, captured diversity and required memory.
}
However, the bias of Megahit towards relatively low coverage genomes may provide a disadvantage for very large datasets, leading to a suboptimal assembly of high abundant community member genomes.
In such cases, Megahit may provide better results when assembling subsets of the sequencing data in a “divide and conquer” approach.
- Published: January 18, 2017 · plosone
宏基因組組裝有兩種常見策略:
- 1基于序列overlap關(guān)系進(jìn)行拼接,代表軟件有Omega兼贸;
- 2 基于de Bruijn圖進(jìn)行組裝
由于現(xiàn)階段的主流測序方法是二代短片段測序段直,序列短而且數(shù)目龐大,如果利用overlap關(guān)系直接進(jìn)行組裝溶诞,這要求每對reads之間都進(jìn)行一次序列比較鸯檬,這會很耗費(fèi)時間,而且結(jié)果并不可靠很澄。為迎合二代測序的特點(diǎn)京闰,一種基于k-mer的de Bruijn組裝策略則成為更有效的解決方法。
SOAPdenovo-63mer all -d 1 -M 3 -R -u -F -s KB1.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err
-d <int> 去除kmers頻數(shù)不大于該值(kmerFreqCutoff)的k-mer甩苛,默認(rèn)值[0] ##最小化錯誤測序帶來的影響
-M <int> 在contiging操作時蹂楣,合并相似序列的強(qiáng)度,默認(rèn)值為[1]讯蒲,最小值0痊土,最大值3。#deal with heterozygosis
-R (optional) 移除repeats墨林,使用pregraph步驟中產(chǎn)生的結(jié)果赁酝,如果參數(shù)-R在pregraph步驟中被設(shè)置的話,默認(rèn)[NO]
-u (optional) 構(gòu)建scaffolding前不屏蔽高/低覆蓋度的contigs旭等,這里高頻率覆蓋度指平均contig覆蓋深度的2倍酌呆。默認(rèn)[mask]屏蔽
-F (optional) 對scaffold內(nèi)部的gap進(jìn)行填充,這個參數(shù)現(xiàn)在似乎沒什么用搔耕,因?yàn)镾OAPdenovo附帶了一個Gapcloser工具隙袁,就是用于scaffold內(nèi)部填充的。
-s <string> solexa reads 的配置文件
-K <int> 輸入的K-mer值大小,默認(rèn)值[23]菩收,取值范圍 13-127 #K-mer值必須是奇數(shù)梨睁;組裝雜合子基因組的K-mer值應(yīng)該小一點(diǎn);組裝含有高repeats基因組且要求其有高的測序深度和長的reads,的K-mer應(yīng)該大一點(diǎn)娜饵。
-o <string> 圖形輸出的文件名前綴
k-mer 如何影響宏基因組組裝 坡贺?
使用de Bruijn graph組裝基因組的時候,Kmer數(shù)為何必須是奇數(shù)呢
算法:SOAPdenovo的一個組裝過程
SOAPdenovo組裝軟件使用記錄
組裝結(jié)果評價
-
N50(N90)的定義
指基因組組裝結(jié)果中箱舞,一半的scaffolds/ contigs長度都大于這個值遍坟。
N50
1、 序列一致性評估:
2晴股、 序列完整性評估:
3政鼠、 準(zhǔn)確性評估:
4、 保守性基因評估:
基因組組裝效果評估
輕松get干貨—《基因組注釋與基因注釋原理及常用軟件使用方法》
混合組裝
什么是混合組裝
將各樣品未被利用上的 reads 放在一起進(jìn)行組裝
為什么要混合組裝
以期發(fā)現(xiàn)樣品中的低豐度物種信息
考慮到在宏基因組組裝中reads利用率很低队魏,單樣品5Gb測序量情況下公般,環(huán)境樣品組裝reads利用率一般只有10%左右,腸道樣品或極端環(huán)境樣品組裝reads利用率一般能達(dá)到30%
怎樣進(jìn)行混合組裝
- Reads mapping
Reads_mapping 來找出上一步單樣本未被利用的reads
bowtie2-build --large-index B11.2.scaftigs.fa B11.2.scaftigs.fa 2> bwt.log
bowtie2 --end-to-end --sensitive -I 200 -X 400 --threads 8 -x KB2.scaftigs.fa -1 KB2_350.nohost.fq1.gz -2 KB2_350.nohost.fq2.gz -S KB2_350.bowtie.sam 2> bowtie.log
-x <bt2-idx> 由bowtie2-build所生成的索引文件的前綴胡桨。首先 在當(dāng)前目錄搜尋官帘,然后在環(huán)境變量 BOWTIE2_INDEXES 中制定的文件夾中搜尋。
-1 <m1> 雙末端測尋對應(yīng)的文件1昧谊」艉纾可以為多個文件,并用逗號分開呢诬;多個文件必須和 -2 <m2> 中制定的文件一一對應(yīng)涌哲。比如:"-1 flyA_1.fq,flyB_1.fq -2 flyA_2.fq,flyB_2.fq". 測序文件中的reads的長度可以不一樣。
-2 <m2> 雙末端測尋對應(yīng)的文件2.
-U <r> 非雙末端測尋對應(yīng)的文件尚镰》Щ可以為多個文件,并用逗號分開狗唉。測序文件中的reads的長度可以不一樣初烘。
-S <hit> 所生成的SAM格式的文件前綴。默認(rèn)是輸入到標(biāo)準(zhǔn)輸出分俯。
↑↑↑↑↑↑↑必須參數(shù)↑↑↑↑↑↑↑↑↓↓↓↓↓↓↓↓↓↓↓↓可選參數(shù):↓↓↓↓↓↓↓↓↓↓↓↓↓↓
--end-to-end 比對是將整個read和參考序列進(jìn)行比對. 該模式--ma的值為0. 該模式為默認(rèn)模式
--sensitive Same as: -D 15 -R 2 -N 0 -L 22 -i S,1,1.15 (default in --end-to-end mode)
-I/--minins <int> 設(shè)定最小的插入片段長度. Default: 0.
-X/--maxins <int> 設(shè)定最長的插入片段長度. Default: 500.
-p/--threads NTHREADS 設(shè)置線程數(shù). Default: 1
-
unmmaped.assembly
SOAPdenovo-63mer all -d 1 -M 3 -R -u -F -s NOVO_MIX.soapdenovo.cfg -K 55 -o 55 1>ass.55.log 2>ass.55.err
Microbiome Helper: a Custom and Streamlined Workflow for Microbiome Research
rrnDB: Stoddard et al