一淹办、短序列比對(duì)、雙序列比對(duì)和多序列比對(duì)的區(qū)別
二仍律、短序列比對(duì)主要是將測(cè)序的reads重新定位到基因組上嘿悬,這個(gè)過程也叫回帖,mapping水泉。
(1)基本概念
a. 覆蓋深度與覆蓋比率(一個(gè)好的測(cè)序善涨,需要具備較高的覆蓋比率與覆蓋深度)
- 覆蓋深度(coverage depth,覆蓋度草则,乘數(shù))钢拧,是指每個(gè)堿基被測(cè)序的平均次數(shù),是用來衡量測(cè)序量的首要參數(shù)炕横。
- 覆蓋比率(coverage ratio源内,覆蓋率),指被測(cè)序到的堿基占全基因組的大小份殿。
b. 一般測(cè)序會(huì)存在高膜钓、低覆蓋區(qū),這些區(qū)域產(chǎn)生的原因可能是由于 GC 偏向造成的卿嘲。(之前的文章中有介紹颂斜,全基因組測(cè)序(WGS)數(shù)據(jù)分析:第4節(jié)構(gòu)建WGS主流程),高覆蓋深度區(qū)域相對(duì)來說準(zhǔn)確性也更高拾枣。而覆蓋比率也可以近似的反映測(cè)序序列與參考序列的相似程度沃疮,若覆蓋比率較高,也就具有較高的同源性放前。
c. 注意
- 當(dāng)測(cè)序樣品與參考序列為遠(yuǎn)緣關(guān)系時(shí)忿磅,短序列比對(duì)就很難比對(duì)到參考序列上。
d. 物理覆蓋度包含測(cè)序覆蓋度
- 在PE測(cè)序中凭语,測(cè)序深度指該位點(diǎn)實(shí)際被測(cè)序序列覆蓋的情況葱她;而物理覆蓋度則指位點(diǎn)被多少對(duì)reads 跨越的數(shù)目。
- 物理覆蓋度一般用于變異檢測(cè)似扔。
(2)準(zhǔn)備材料:
① 基因組/基因集(fasta格式)吨些;
? ? 核酸(可以為全基因組搓谆,基因集,rRNA等)豪墅。
② 測(cè)序短reads(PE/SE)
(3)算法
空位種子片段索引法
Burrows Wheeler 轉(zhuǎn)換法(最常用)
Smith-Waterman 動(dòng)態(tài)規(guī)劃算法
(4)工具:
工具一:BWA
?簡(jiǎn)單介紹一下使用步驟
1)對(duì)參考序列構(gòu)建索引
通用語法:bwa index [-a bwtsw|is] [-c] <in.fasta>
注釋:選項(xiàng)bwtsw?適用于大基因組偶器,一般小于10M的就不適用斩萌,比如細(xì)菌;而選項(xiàng)is?不適合大基因組屏轰,一般大于2G颊郎,比如人。
2)對(duì)reads 建立索引
通用語法:bwa aln [options] <prefix> <in.fq>
3)sampe 比對(duì)
構(gòu)建完了reads 與參考基因的索引文件霎苗,就可以進(jìn)行比對(duì)姆吭。一般雙末端選用Sampe。如果是單末端唁盏,則選擇samse内狸。
注釋:
- BWA(Burrows-Wheeler Aligner)是一種常用的基因組比對(duì)工具,特別適合將低差異的短序列(如 Illumina 讀取序列)比對(duì)到大型參考基因組上厘擂。BWA 包含三種主要算法:
① BWA-backtrack:適用于短讀序列(如 100bp 左右)昆淡。
② BWA-SW:支持較長(zhǎng)的讀序列,通常在 70bp 到 1Mbp 之間刽严。
③ BWA-MEM:是目前推薦的算法瘪撇,適用于高質(zhì)量的長(zhǎng)讀序列。它比 BWA-backtrack 更快且更準(zhǔn)確港庄。
- 基本用法:
構(gòu)建參考基因組索引:bwa index ref.fa
比對(duì)長(zhǎng)讀序列(BWA-MEM):bwa mem -t 4 ref.fa read1.fq read2.fq > aln.sam
工具二:soup
① soup,全稱short oligonucleotide analysis package恕曲。為華大開發(fā)的軟件工具包鹏氧。soup 在比對(duì)時(shí)與bwa 一樣,同樣采用了bwt 算法佩谣。
?簡(jiǎn)單介紹一下使用步驟
1)建立索引
2)soup比對(duì)
soup 輸出結(jié)果并非sam把还,但soup也可以轉(zhuǎn)換為sam格式。
工具三:bowtie
Bowtie2 是一個(gè)快速茸俭、內(nèi)存效率高的比對(duì)工具吊履,適用于將短序列比對(duì)到參考基因組上。它支持雙端和單端序列的比對(duì)调鬓,特別適合于大基因組的數(shù)據(jù)分析艇炎。
方法①?基本用法:
構(gòu)建索引:bowtie2-build ref.fa ref
比對(duì)序列:bowtie2 -x ref -1 read1.fq -2 read2.fq -S aln.sam
注釋:
與前面兩個(gè)軟件類似,但速度更快腾窝,一般應(yīng)用于RNAseq分析缀踪。
但bowtie 也有許多限制居砖,如不支持長(zhǎng)度太大片段等。
工具四:?TopHat
TopHat 是一個(gè)專門用于 RNA-seq 數(shù)據(jù)分析的工具驴娃,它基于 Bowtie 庫奏候,能夠識(shí)別并處理 RNA 序列中的剪接位點(diǎn)(splicing sites)。TopHat2 是其改進(jìn)版本唇敞,支持使用 Bowtie2 進(jìn)行比對(duì)蔗草。
方法①?
基本用法:
安裝和配置:
TopHat 依賴于 Boost 庫,可以通過安裝 Boost 后進(jìn)行配置和安裝疆柔。
運(yùn)行 TopHat 分析:tophat2 -p 8 -G genes.gtf ref.fa read1.fq read2.fq
工具五:HISAT2
HISAT2 是一個(gè)用于快速咒精、高效地將 DNA 和 RNA 序列映射到參考基因組上的比對(duì)工具。它在速度和內(nèi)存使用方面都進(jìn)行了優(yōu)化婆硬,特別適合處理 RNA-seq 數(shù)據(jù)狠轻。
方法①?
基本用法:
構(gòu)建索引:hisat2-build ref.fa ref
比對(duì)序列:hisat2 -x ref -1 read1.fq -2 read2.fq -S aln.sam
總結(jié):
注意事項(xiàng)
1. 設(shè)置insertsize
2. 控制錯(cuò)配數(shù)
3. 控制容gap數(shù)
4.監(jiān)控內(nèi)存消耗
5. 多線程提高比對(duì)效率
三、可視化
基因組的許多特征可以通過點(diǎn)圖(Dot Plot)有效地突出顯示彬犯,幫助識(shí)別結(jié)構(gòu)變化向楼,如倒置、缺失谐区、重復(fù)和插入等湖蜕。
基因組點(diǎn)圖(Genome Dot Plot)是一種用于比較兩個(gè)或多個(gè)基因組序列的工具。它通過在二維矩陣中繪制序列的相似性宋列,展示基因組之間的相對(duì)關(guān)系昭抒。圖中的每個(gè)點(diǎn)代表一個(gè)基因組中的一段序列,而整個(gè)圖像則反映了這些序列之間的相似性與差異性炼杖。
生物信息學(xué)領(lǐng)域非常廣泛灭返,難以一次說盡。我們下次繼續(xù)更新坤邪,一起深入學(xué)習(xí)生物信息學(xué)的內(nèi)容熙含!
喜歡的寶子們點(diǎn)個(gè)贊吧~碼字不易,且行且珍惜~