一文讀懂短序列比對(duì)

一淹办、短序列比對(duì)、雙序列比對(duì)和多序列比對(duì)的區(qū)別

短序列比對(duì)強(qiáng)調(diào)快速搜索低葫,雙序列比對(duì)關(guān)注詳細(xì)匹配,多序列比對(duì)注重全局關(guān)系和保守區(qū)域分析


二仍律、短序列比對(duì)主要是將測(cè)序的reads重新定位到基因組上嘿悬,這個(gè)過程也叫回帖,mapping水泉。


(1)基本概念

關(guān)于IIIumina和reads

a. 覆蓋深度與覆蓋比率(一個(gè)好的測(cè)序善涨,需要具備較高的覆蓋比率與覆蓋深度)

- 覆蓋深度(coverage depth,覆蓋度草则,乘數(shù))钢拧,是指每個(gè)堿基被測(cè)序的平均次數(shù),是用來衡量測(cè)序量的首要參數(shù)炕横。

- 覆蓋比率(coverage ratio源内,覆蓋率),指被測(cè)序到的堿基占全基因組的大小份殿。

b. 一般測(cè)序會(huì)存在高膜钓、低覆蓋區(qū),這些區(qū)域產(chǎn)生的原因可能是由于 GC 偏向造成的卿嘲。(之前的文章中有介紹颂斜,全基因組測(cè)序(WGS)數(shù)據(jù)分析:第4節(jié)構(gòu)建WGS主流程),高覆蓋深度區(qū)域相對(duì)來說準(zhǔn)確性也更高拾枣。而覆蓋比率也可以近似的反映測(cè)序序列與參考序列的相似程度沃疮,若覆蓋比率較高,也就具有較高的同源性放前。

c. 注意

- 當(dāng)測(cè)序樣品與參考序列為遠(yuǎn)緣關(guān)系時(shí)忿磅,短序列比對(duì)就很難比對(duì)到參考序列上。

d. 物理覆蓋度包含測(cè)序覆蓋度

- 在PE測(cè)序中凭语,測(cè)序深度指該位點(diǎn)實(shí)際被測(cè)序序列覆蓋的情況葱她;而物理覆蓋度則指位點(diǎn)被多少對(duì)reads 跨越的數(shù)目。

- 物理覆蓋度一般用于變異檢測(cè)似扔。

(2)準(zhǔn)備材料:

① 基因組/基因集(fasta格式)吨些;

? ? 核酸(可以為全基因組搓谆,基因集,rRNA等)豪墅。

② 測(cè)序短reads(PE/SE)


(3)算法

空位種子片段索引法

Burrows Wheeler 轉(zhuǎn)換法(最常用)

Smith-Waterman 動(dòng)態(tài)規(guī)劃算法


(4)工具:

工具一:BWA

方法①?GitHub - lh3/bwa: Burrow-Wheeler Aligner for short-read alignment (see minimap2 for long-read alignment)

bwa是短序列比對(duì)中最常用的工具泉手。可以輸出bam?與sam

?簡(jiǎn)單介紹一下使用步驟

1)對(duì)參考序列構(gòu)建索引

通用語法:bwa index [-a bwtsw|is] [-c] <in.fasta>

注釋:選項(xiàng)bwtsw?適用于大基因組偶器,一般小于10M的就不適用斩萌,比如細(xì)菌;而選項(xiàng)is?不適合大基因組屏轰,一般大于2G颊郎,比如人。

2)對(duì)reads 建立索引

通用語法:bwa aln [options] <prefix> <in.fq>

3)sampe 比對(duì)

構(gòu)建完了reads 與參考基因的索引文件霎苗,就可以進(jìn)行比對(duì)姆吭。一般雙末端選用Sampe。如果是單末端唁盏,則選擇samse内狸。

比對(duì)文件會(huì)輸出為.sam格式

注釋:

- BWA(Burrows-Wheeler Aligner)是一種常用的基因組比對(duì)工具,特別適合將低差異的短序列(如 Illumina 讀取序列)比對(duì)到大型參考基因組上厘擂。BWA 包含三種主要算法:

① BWA-backtrack:適用于短讀序列(如 100bp 左右)昆淡。

② BWA-SW:支持較長(zhǎng)的讀序列,通常在 70bp 到 1Mbp 之間刽严。

③ BWA-MEM:是目前推薦的算法瘪撇,適用于高質(zhì)量的長(zhǎng)讀序列。它比 BWA-backtrack 更快且更準(zhǔn)確港庄。

- 基本用法:

構(gòu)建參考基因組索引:bwa index ref.fa

比對(duì)長(zhǎng)讀序列(BWA-MEM):bwa mem -t 4 ref.fa read1.fq read2.fq > aln.sam


工具二:soup

① soup,全稱short oligonucleotide analysis package恕曲。為華大開發(fā)的軟件工具包鹏氧。soup 在比對(duì)時(shí)與bwa 一樣,同樣采用了bwt 算法佩谣。

?簡(jiǎn)單介紹一下使用步驟

1)建立索引

2)soup比對(duì)

soup 輸出結(jié)果并非sam把还,但soup也可以轉(zhuǎn)換為sam格式。


工具三:bowtie

Bowtie2 是一個(gè)快速茸俭、內(nèi)存效率高的比對(duì)工具吊履,適用于將短序列比對(duì)到參考基因組上。它支持雙端和單端序列的比對(duì)调鬓,特別適合于大基因組的數(shù)據(jù)分析艇炎。

方法①?基本用法:

構(gòu)建索引:bowtie2-build ref.fa ref

比對(duì)序列:bowtie2 -x ref -1 read1.fq -2 read2.fq -S aln.sam

注釋:

與前面兩個(gè)軟件類似,但速度更快腾窝,一般應(yīng)用于RNAseq分析缀踪。

但bowtie 也有許多限制居砖,如不支持長(zhǎng)度太大片段等。


工具四:?TopHat

TopHat 是一個(gè)專門用于 RNA-seq 數(shù)據(jù)分析的工具驴娃,它基于 Bowtie 庫奏候,能夠識(shí)別并處理 RNA 序列中的剪接位點(diǎn)(splicing sites)。TopHat2 是其改進(jìn)版本唇敞,支持使用 Bowtie2 進(jìn)行比對(duì)蔗草。

方法①?

基本用法:

安裝和配置:

TopHat 依賴于 Boost 庫,可以通過安裝 Boost 后進(jìn)行配置和安裝疆柔。

運(yùn)行 TopHat 分析:tophat2 -p 8 -G genes.gtf ref.fa read1.fq read2.fq


工具五:HISAT2

HISAT2 是一個(gè)用于快速咒精、高效地將 DNA 和 RNA 序列映射到參考基因組上的比對(duì)工具。它在速度和內(nèi)存使用方面都進(jìn)行了優(yōu)化婆硬,特別適合處理 RNA-seq 數(shù)據(jù)狠轻。

方法①?

基本用法:

構(gòu)建索引:hisat2-build ref.fa ref

比對(duì)序列:hisat2 -x ref -1 read1.fq -2 read2.fq -S aln.sam


總結(jié):

注意事項(xiàng)

1. 設(shè)置insertsize

2. 控制錯(cuò)配數(shù)

3. 控制容gap數(shù)

4.監(jiān)控內(nèi)存消耗

5. 多線程提高比對(duì)效率


三、可視化

基因組的許多特征可以通過點(diǎn)圖(Dot Plot)有效地突出顯示彬犯,幫助識(shí)別結(jié)構(gòu)變化向楼,如倒置、缺失谐区、重復(fù)和插入等湖蜕。

基因組點(diǎn)圖(Genome Dot Plot)是一種用于比較兩個(gè)或多個(gè)基因組序列的工具。它通過在二維矩陣中繪制序列的相似性宋列,展示基因組之間的相對(duì)關(guān)系昭抒。圖中的每個(gè)點(diǎn)代表一個(gè)基因組中的一段序列,而整個(gè)圖像則反映了這些序列之間的相似性與差異性炼杖。

Dot Plot

生物信息學(xué)領(lǐng)域非常廣泛灭返,難以一次說盡。我們下次繼續(xù)更新坤邪,一起深入學(xué)習(xí)生物信息學(xué)的內(nèi)容熙含!

喜歡的寶子們點(diǎn)個(gè)贊吧~碼字不易,且行且珍惜~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載艇纺,如需轉(zhuǎn)載請(qǐng)通過簡(jiǎn)信或評(píng)論聯(lián)系作者怎静。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市黔衡,隨后出現(xiàn)的幾起案子蚓聘,更是在濱河造成了極大的恐慌,老刑警劉巖盟劫,帶你破解...
    沈念sama閱讀 222,252評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件夜牡,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡捞高,警方通過查閱死者的電腦和手機(jī)氯材,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門渣锦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人氢哮,你說我怎么就攤上這事袋毙。” “怎么了冗尤?”我有些...
    開封第一講書人閱讀 168,814評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵听盖,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我裂七,道長(zhǎng)皆看,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,869評(píng)論 1 299
  • 正文 為了忘掉前任背零,我火速辦了婚禮腰吟,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘徙瓶。我一直安慰自己毛雇,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評(píng)論 6 398
  • 文/花漫 我一把揭開白布侦镇。 她就那樣靜靜地躺著灵疮,像睡著了一般。 火紅的嫁衣襯著肌膚如雪壳繁。 梳的紋絲不亂的頭發(fā)上震捣,一...
    開封第一講書人閱讀 52,475評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音闹炉,去河邊找鬼蒿赢。 笑死,一個(gè)胖子當(dāng)著我的面吹牛渣触,可吹牛的內(nèi)容都是我干的诉植。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼昵观,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了舌稀?” 一聲冷哼從身側(cè)響起啊犬,我...
    開封第一講書人閱讀 39,924評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎壁查,沒想到半個(gè)月后觉至,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,469評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡睡腿,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評(píng)論 3 342
  • 正文 我和宋清朗相戀三年语御,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了峻贮。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,680評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡应闯,死狀恐怖纤控,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情碉纺,我是刑警寧澤船万,帶...
    沈念sama閱讀 36,362評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站骨田,受9級(jí)特大地震影響耿导,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜态贤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評(píng)論 3 335
  • 文/蒙蒙 一舱呻、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧悠汽,春花似錦箱吕、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至姻采,卻和暖如春雅采,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背慨亲。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工婚瓜, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人刑棵。 一個(gè)月前我還...
    沈念sama閱讀 49,099評(píng)論 3 378
  • 正文 我出身青樓巴刻,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親蛉签。 傳聞我的和親對(duì)象是個(gè)殘疾皇子胡陪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容