biostar handbook(八)|高通量數(shù)據(jù)分析初步:序列比對

高通量短讀比對工具

在過去的十幾年里,隨著高通量測序(HTS)成本降低,出現(xiàn)了各種測序概念, DNA-Seq, ChIP-Seq, RNA-Seq, BS-Seq覆蓋了研究領(lǐng)域的方方面面耕肩。隨之而來的問題是呀闻,如何把這些短片段快速且準(zhǔn)確地回貼到參考基因組上厨相。

解決這個問題不能直接使用傳統(tǒng)的比對工具炼七,比如說BLAST,因為它們的任務(wù)是找到最多的聯(lián)配虱朵,而短序列比對工具則是要快速從眾多潛在可選聯(lián)配中找到最優(yōu)的位置莉炉。也就是說BLAST和短讀工具的目標(biāo)其實不太一樣。

在將海量的reads回貼到參考基因組上的過程碴犬,大量短讀比對工具就需要面對準(zhǔn)確度(accuracy)和精確度(precision)的平衡絮宁,也就是盡可能保證每一次的分析結(jié)果是相近的,并且也是符合真實情況翅敌。

mapping and alignment

對于alignment和mapping羞福,其實我對他們之前的區(qū)別一直都不太清楚,并且也不知道它們到底該如何翻譯蚯涮,總感覺這兩個詞說的是同一件事情治专。這里看下Heng Li是如何進行定義

Mapping(映射)

  • A mapping is a region where a read sequence is placed
  • A mapping is regarded to be correct if it overlaps the ture region

Alignment(聯(lián)配)

  • An alignment is the detailed placement of each base in a read.
  • An alignment is regarded to be correct if each base is placed correctly.

也就是說mapping側(cè)重于把序列放到正確的位置,而不管這個序列的一致性遭顶,而聯(lián)配則是主要讓序列和參考序列盡可能的配對张峰,而不管位置。目前來看棒旗,大多數(shù)工具都是想既能找到正確的位置喘批,也保證有足夠多的聯(lián)配撩荣,不過明白這兩者的區(qū)別對于不同項目的分析非常重要。比如說變異檢測就要優(yōu)先保證聯(lián)配饶深,而RNA-Seq則要盡可能保證把reads放到正確的位置餐曹。

如何挑選合適的短讀比對工具

2012年 Bioinformatics 有一篇文章^[Tools for mapping high-throughput sequencing data ]綜述了目前高通量數(shù)據(jù)的比對軟件,并且建立主頁https://www.ebi.ac.uk/~nf/hts_mappers/羅列并追蹤目前的比對軟件敌厘。

比對工具年譜

盡管看起來有那么多軟件台猴,但是實際使用就那么幾種,BWA(傲視群雄), TopHat(盡管官方都建議用HISAT2俱两,還是那么堅挺), SOAP(架不住華大業(yè)務(wù)多)饱狂。 由于這些工具都挺成熟,所以選擇軟件更多靠的是信仰宪彩,比如說Broad Institute的科學(xué)家喜歡bwa(畢竟是自家的)休讳,華大(BGI)喜歡用novoalign(也是自家出品),只不過novoalign是商業(yè)工具尿孔,不買就只能用單核俊柔,因此限制了它的傳播。

除了信仰之外纳猫,我們挑選短序列比對工具的時候還要看什么呢婆咸?

  • 聯(lián)配算法: 全局竹捉,局部還是半全局
  • 需要報道非線性重排(non-linear arrangements)嘛
  • 比對工具如何處理InDels
  • 比對工具支持可變剪切嘛
  • 比對工具能夠過濾出符合需要的聯(lián)配嘛
  • 比對工具能找到嵌合聯(lián)配(chimeric alignments)嘛

最后我們的選擇就落到兩個工具:BWA和Bowtie2.

BWA和Bowtie的使用簡介

大部分比對工具的使用都可以分為兩步芜辕,建立索引和比對索引。值得注意的是BWA有兩種算法块差,alnmem分別處理低于100bp和大于70bp的短讀侵续。bowtie也有1和2兩代,處理50bp以下和50bp以上的短讀憨闰,注意選擇状蜗。

建立索引

需要先用efetch下載ebola參考基因組,如果網(wǎng)絡(luò)不佳鹉动,直接去NCBI查找到下載也可以

mkdir -p ~/biostar/refs/ebola
cd ~/biostar
# efetch下載
efetch -db=nuccore -format=fasta -id=AF086833 > ~/refs/ebola/1976.fa
# wget下載
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/848/505/GCF_000848505.1_ViralProj14703/GCF_000848505.1_ViralProj14703_genomic.fna.gz

由于基因組特別小轧坎,所以建立索引的速度也會特別快。

REF=~/biostar/refs/ebola/1976.fa
# bwa
bwa index $REF
# bowtie2
bowtie2-build $REF $REF
索引一覽

序列比對

為了比對序列泽示,首先得準(zhǔn)備數(shù)據(jù)文件缸血,可以從SRA上下載項目的Ebola項目的所有runs, 選擇其中一個作為demo數(shù)據(jù)。

esearch -db sra -query PRJNA257197 | efetch -format runinfo > runinfo.csv
mkdir raw_data
cd raw_data
fastq-dump -X 10000 --split-files SRR1972739

比對其實很簡單,如果只用默認(rèn)參數(shù)的話

R1=raw_data/SRR1972739_1.fastq
R2=raw_data/SRR1972739_2.fastq
# bwa-mem
bwa mem $REF $R1 $R2 > bwa_mem_out.sam
# bowite2
bowtie2 -x $REF -1 $R1 -2 $R2 > bowtie2_out.sam

結(jié)果是個SAM文件械筛,那什么是SAM呢捎泻,后面繼續(xù)討論。

bwa和bowtie2到底選誰

比較不同的比對軟件是一個比較麻煩的事情埋哟。最常見的比較方法是笆豁,先模擬出一些序列,然后檢查默認(rèn)參數(shù)下的比對率和運行速度

  • 10w條read,錯誤率為1%闯狱,默認(rèn)參數(shù)
# dwgsim的安裝方法見biostar handbook
~/bin/dwgsim -N 100000 -e 0.01 -E 0.01 $REF data
R1=data.bwa.read1.fastq.gz
R2=data.bwa.read2.fastq.gz
time bwa mem $REF $R1 $R2 > bwa.sam
# 4s 95.04%
time bowtie2 -x $REF -1 $R1 -2 $R2 > bowtie2.sam
# 10秒煞赢, 94.82%
  • 10w條read,錯誤率為10%哄孤,默認(rèn)參數(shù)
~/bin/dwgsim -N 100000 -e 0.1 -E 0.1 $REF data
R1=data.bwa.read1.fastq.gz
R2=data.bwa.read2.fastq.gz
time bwa mem $REF $R1 $R2 > bwa.sam
samtools flagstat bwa.sam
# 7s 83.16%
time bowtie2 -x $REF -1 $R1 -2 $R2 > bowtie2.sam
# 4秒耕驰,29.01%

在默認(rèn)參數(shù)下,bowtie2的運行結(jié)果真的是差異巨大录豺,尤其是10%的錯誤率下朦肘,幾乎沒有啥能夠比對上了,讓我們不禁懷疑bowtie2這個軟件是不是不好使双饥。

讓我們換其他參數(shù)試試看

bowtie2 --very-sensitive-local -x $REF -1 $R1 -2 $R2 > bowtie.sam
# 10s, 63.21%
time bowtie2 -D 20 -R 3 -N 1 -L 20 -x $REF -1 $R1 -2 $R2 > bowtie.sam
# 11s, 87.11%

bowtie2在我們更換參數(shù)后比對率有著明顯的提高媒抠,但是-D 2O -R 3 -N 1 -L 20如何得來呢?

也就是說bwa的默認(rèn)參數(shù)是經(jīng)過很好的優(yōu)化來保證在默認(rèn)參數(shù)下的結(jié)果咏花,是不是我們都要選擇bwa呢趴生?也不能如此絕對,畢竟bowtie2的SAM結(jié)果保留了更多的信息昏翰。

最后說一句苍匆,選擇比對軟件在初學(xué)者時期真的是全靠信仰。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末棚菊,一起剝皮案震驚了整個濱河市浸踩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌统求,老刑警劉巖检碗,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異码邻,居然都是意外死亡折剃,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進店門像屋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來怕犁,“玉大人,你說我怎么就攤上這事己莺∽喔Γ” “怎么了?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵篇恒,是天一觀的道長扶檐。 經(jīng)常有香客問我,道長胁艰,這世上最難降的妖魔是什么款筑? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任智蝠,我火速辦了婚禮,結(jié)果婚禮上奈梳,老公的妹妹穿的比我還像新娘杈湾。我一直安慰自己,他們只是感情好攘须,可當(dāng)我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布漆撞。 她就那樣靜靜地躺著,像睡著了一般于宙。 火紅的嫁衣襯著肌膚如雪浮驳。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天捞魁,我揣著相機與錄音至会,去河邊找鬼。 笑死谱俭,一個胖子當(dāng)著我的面吹牛奉件,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播昆著,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼县貌,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了凑懂?” 一聲冷哼從身側(cè)響起煤痕,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎征候,沒想到半個月后杭攻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體祟敛,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡疤坝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了馆铁。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片跑揉。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖埠巨,靈堂內(nèi)的尸體忽然破棺而出历谍,到底是詐尸還是另有隱情,我是刑警寧澤辣垒,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布望侈,位于F島的核電站,受9級特大地震影響勋桶,放射性物質(zhì)發(fā)生泄漏脱衙。R本人自食惡果不足惜侥猬,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望捐韩。 院中可真熱鬧退唠,春花似錦、人聲如沸荤胁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽仅政。三九已至垢油,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間圆丹,已是汗流浹背秸苗。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留运褪,地道東北人惊楼。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像秸讹,于是被迫代替她去往敵國和親檀咙。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內(nèi)容