biostar handbook(八)|高通量數(shù)據(jù)分析初步：序列比對

高通量短讀比對工具

在過去的十幾年里，隨著高通量測序(HTS)成本降低，出現(xiàn)了各種測序概念, DNA-Seq, ChIP-Seq, RNA-Seq, BS-Seq覆蓋了研究領(lǐng)域的方方面面耕肩。隨之而來的問題是呀闻，如何把這些短片段快速且準(zhǔn)確地回貼到參考基因組上厨相。

解決這個問題不能直接使用傳統(tǒng)的比對工具炼七，比如說BLAST，因為它們的任務(wù)是找到最多的聯(lián)配虱朵，而短序列比對工具則是要快速從眾多潛在可選聯(lián)配中找到最優(yōu)的位置莉炉。也就是說BLAST和短讀工具的目標(biāo)其實不太一樣。

在將海量的reads回貼到參考基因組上的過程碴犬，大量短讀比對工具就需要面對準(zhǔn)確度(accuracy)和精確度(precision)的平衡絮宁，也就是盡可能保證每一次的分析結(jié)果是相近的，并且也是符合真實情況翅敌。

mapping and alignment

對于alignment和mapping羞福，其實我對他們之前的區(qū)別一直都不太清楚，并且也不知道它們到底該如何翻譯蚯涮，總感覺這兩個詞說的是同一件事情治专。這里看下Heng Li是如何進行定義

Mapping(映射)

A mapping is a region where a read sequence is placed

A mapping is regarded to be correct if it overlaps the ture region

Alignment(聯(lián)配)

An alignment is the detailed placement of each base in a read.

An alignment is regarded to be correct if each base is placed correctly.

也就是說mapping側(cè)重于把序列放到正確的位置，而不管這個序列的一致性遭顶，而聯(lián)配則是主要讓序列和參考序列盡可能的配對张峰，而不管位置。目前來看棒旗，大多數(shù)工具都是想既能找到正確的位置喘批，也保證有足夠多的聯(lián)配撩荣，不過明白這兩者的區(qū)別對于不同項目的分析非常重要。比如說變異檢測就要優(yōu)先保證聯(lián)配饶深，而RNA-Seq則要盡可能保證把reads放到正確的位置餐曹。

如何挑選合適的短讀比對工具

2012年 Bioinformatics 有一篇文章^[Tools for mapping high-throughput sequencing data ]綜述了目前高通量數(shù)據(jù)的比對軟件，并且建立主頁https://www.ebi.ac.uk/~nf/hts_mappers/羅列并追蹤目前的比對軟件敌厘。

比對工具年譜

盡管看起來有那么多軟件台猴，但是實際使用就那么幾種，BWA(傲視群雄), TopHat(盡管官方都建議用HISAT2俱两，還是那么堅挺), SOAP(架不住華大業(yè)務(wù)多)饱狂。由于這些工具都挺成熟，所以選擇軟件更多靠的是信仰宪彩，比如說Broad Institute的科學(xué)家喜歡bwa（畢竟是自家的）休讳，華大（BGI）喜歡用novoalign(也是自家出品)，只不過novoalign是商業(yè)工具尿孔，不買就只能用單核俊柔，因此限制了它的傳播。

除了信仰之外纳猫，我們挑選短序列比對工具的時候還要看什么呢婆咸？

聯(lián)配算法：全局竹捉，局部還是半全局
需要報道非線性重排(non-linear arrangements)嘛
比對工具如何處理InDels
比對工具支持可變剪切嘛
比對工具能夠過濾出符合需要的聯(lián)配嘛
比對工具能找到嵌合聯(lián)配(chimeric alignments)嘛

最后我們的選擇就落到兩個工具：BWA和Bowtie2.

BWA和Bowtie的使用簡介

大部分比對工具的使用都可以分為兩步芜辕，建立索引和比對索引。值得注意的是BWA有兩種算法块差，aln和mem分別處理低于100bp和大于70bp的短讀侵续。bowtie也有1和2兩代，處理50bp以下和50bp以上的短讀憨闰，注意選擇状蜗。

建立索引

需要先用efetch下載ebola參考基因組，如果網(wǎng)絡(luò)不佳鹉动，直接去NCBI查找到下載也可以

mkdir -p ~/biostar/refs/ebola
cd ~/biostar
# efetch下載
efetch -db=nuccore -format=fasta -id=AF086833 > ~/refs/ebola/1976.fa
# wget下載
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/848/505/GCF_000848505.1_ViralProj14703/GCF_000848505.1_ViralProj14703_genomic.fna.gz

由于基因組特別小轧坎，所以建立索引的速度也會特別快。

REF=~/biostar/refs/ebola/1976.fa
# bwa
bwa index $REF
# bowtie2
bowtie2-build $REF $REF

索引一覽

序列比對

為了比對序列泽示，首先得準(zhǔn)備數(shù)據(jù)文件缸血，可以從SRA上下載項目的Ebola項目的所有runs, 選擇其中一個作為demo數(shù)據(jù)。

esearch -db sra -query PRJNA257197 | efetch -format runinfo > runinfo.csv
mkdir raw_data
cd raw_data
fastq-dump -X 10000 --split-files SRR1972739

比對其實很簡單,如果只用默認(rèn)參數(shù)的話

R1=raw_data/SRR1972739_1.fastq
R2=raw_data/SRR1972739_2.fastq
# bwa-mem
bwa mem $REF $R1 $R2 > bwa_mem_out.sam
# bowite2
bowtie2 -x $REF -1 $R1 -2 $R2 > bowtie2_out.sam

結(jié)果是個SAM文件械筛，那什么是SAM呢捎泻，后面繼續(xù)討論。

bwa和bowtie2到底選誰

比較不同的比對軟件是一個比較麻煩的事情埋哟。最常見的比較方法是笆豁，先模擬出一些序列，然后檢查默認(rèn)參數(shù)下的比對率和運行速度

10w條read，錯誤率為1%闯狱，默認(rèn)參數(shù)

# dwgsim的安裝方法見biostar handbook
~/bin/dwgsim -N 100000 -e 0.01 -E 0.01 $REF data
R1=data.bwa.read1.fastq.gz
R2=data.bwa.read2.fastq.gz
time bwa mem $REF $R1 $R2 > bwa.sam
# 4s 95.04%
time bowtie2 -x $REF -1 $R1 -2 $R2 > bowtie2.sam
# 10秒煞赢， 94.82%

10w條read，錯誤率為10%哄孤，默認(rèn)參數(shù)

~/bin/dwgsim -N 100000 -e 0.1 -E 0.1 $REF data
R1=data.bwa.read1.fastq.gz
R2=data.bwa.read2.fastq.gz
time bwa mem $REF $R1 $R2 > bwa.sam
samtools flagstat bwa.sam
# 7s 83.16%
time bowtie2 -x $REF -1 $R1 -2 $R2 > bowtie2.sam
# 4秒耕驰，29.01%

在默認(rèn)參數(shù)下，bowtie2的運行結(jié)果真的是差異巨大录豺，尤其是10%的錯誤率下朦肘，幾乎沒有啥能夠比對上了，讓我們不禁懷疑bowtie2這個軟件是不是不好使双饥。

讓我們換其他參數(shù)試試看

bowtie2 --very-sensitive-local -x $REF -1 $R1 -2 $R2 > bowtie.sam
# 10s, 63.21%
time bowtie2 -D 20 -R 3 -N 1 -L 20 -x $REF -1 $R1 -2 $R2 > bowtie.sam
# 11s, 87.11%

bowtie2在我們更換參數(shù)后比對率有著明顯的提高媒抠，但是-D 2O -R 3 -N 1 -L 20如何得來呢？

也就是說bwa的默認(rèn)參數(shù)是經(jīng)過很好的優(yōu)化來保證在默認(rèn)參數(shù)下的結(jié)果咏花，是不是我們都要選擇bwa呢趴生？也不能如此絕對，畢竟bowtie2的SAM結(jié)果保留了更多的信息昏翰。

最后說一句苍匆，選擇比對軟件在初學(xué)者時期真的是全靠信仰。

最后編輯于：2018.02.05 22:22:39

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末棚菊，一起剝皮案震驚了整個濱河市浸踩，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌统求，老刑警劉巖检碗，帶你破解...
沈念sama閱讀 219,039評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異码邻，居然都是意外死亡折剃，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,426評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門像屋，熙熙樓的掌柜王于貴愁眉苦臉地迎上來怕犁，“玉大人，你說我怎么就攤上這事己莺∽喔Γ” “怎么了？”我有些...
開封第一講書人閱讀 165,417評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵篇恒，是天一觀的道長扶檐。經(jīng)常有香客問我，道長胁艰，這世上最難降的妖魔是什么款筑？我笑而不...
開封第一講書人閱讀 58,868評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任智蝠，我火速辦了婚禮，結(jié)果婚禮上奈梳，老公的妹妹穿的比我還像新娘杈湾。我一直安慰自己，他們只是感情好攘须，可當(dāng)我...
茶點故事閱讀 67,892評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布漆撞。她就那樣靜靜地躺著，像睡著了一般于宙。火紅的嫁衣襯著肌膚如雪浮驳。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,692評論 1贊 305
城市分裂傳說
那天捞魁，我揣著相機與錄音至会，去河邊找鬼。笑死谱俭，一個胖子當(dāng)著我的面吹牛奉件，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播昆著，決...
沈念sama閱讀 40,416評論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼县貌，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了凑懂？” 一聲冷哼從身側(cè)響起煤痕，我...
開封第一講書人閱讀 39,326評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎征候，沒想到半個月后杭攻，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體祟敛，經(jīng)...
沈念sama閱讀 45,782評論 1贊 316
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡疤坝，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,957評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了馆铁。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片跑揉。...
茶點故事閱讀 40,102評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖埠巨，靈堂內(nèi)的尸體忽然破棺而出历谍，到底是詐尸還是另有隱情，我是刑警寧澤辣垒，帶...
沈念sama閱讀 35,790評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布望侈，位于F島的核電站，受9級特大地震影響勋桶，放射性物質(zhì)發(fā)生泄漏脱衙。R本人自食惡果不足惜侥猬，卻給世界環(huán)境...
茶點故事閱讀 41,442評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望捐韩。院中可真熱鬧退唠，春花似錦、人聲如沸荤胁。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,996評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽仅政。三九已至垢油，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間圆丹，已是汗流浹背秸苗。一陣腳步聲響...
開封第一講書人閱讀 33,113評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留运褪，地道東北人惊楼。一個月前我還...
沈念sama閱讀 48,332評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像秸讹，于是被迫代替她去往敵國和親檀咙。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,044評論 2贊 355