day12 bowtie2學(xué)習(xí)

一腕巡、bowtie2的基本概念

1. 比對(duì)

全局比對(duì) End to end列荔,也叫雙端比對(duì)玩郊。把read作為一個(gè)整體,不可分割斷裂蛔溃。


image.png

局部比對(duì)local alignment example绰沥,把reference作為整體,read可以分割贺待。


image.png

bowtie2默認(rèn)全局比對(duì)徽曲,也稱作 "untrimmed " or "unclopped" alignment 。就是認(rèn)為read是完整的麸塞,看看能對(duì)上哪些reference秃臣。

2. 比對(duì)計(jì)分

規(guī)則還沒(méi)搞懂。慢慢琢磨哪工。奥此。。雁比。

3.參考索引還可以自己建立

索引可以直接從官網(wǎng)下載(昨天學(xué)習(xí)到了)稚虎,也可以自己構(gòu)建
bowtie2-build <fasta文件> <要生成的索引文件前綴名>
類似下面的代碼,但是這個(gè)過(guò)程大約要1-4小時(shí)偎捎,很耽誤時(shí)間蠢终,一定要后臺(tái)運(yùn)行——服務(wù)器上要通過(guò)腳本提交。

ref=~/refdata-gex-GRCh38-2020-A/fasta/genome.fa
bowtie-build $ref hg38

生成的6個(gè)后綴為.bt2 的文件和fa文件在同一個(gè)目錄下茴她。
也可以指定保存目錄~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/

ref=~/refdata-gex-GRCh38-2020-A/fasta/genome.fa
bowtie-build $ref  ~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/hg38

二寻拂、運(yùn)行比對(duì)程序

1.雙端測(cè)序

bowtie2 <-x 索引的位置和名稱前綴> <-1 fq格式的測(cè)序結(jié)果文件1> <-2 fq格式的測(cè)序結(jié)果文件2> <-S 輸出的sam文件>
-x 基因組索引文件前綴,不寫路徑表示當(dāng)前路徑下
-S 是輸出sam文件的路徑
-1和-2分別為雙端測(cè)序的兩個(gè)fq文件丈牢。-1(文件名通常包含_1)
-2(文件名通常包括_2)
比如:

index=~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/hg38
bowtie2 -x $index -1 ~/data/example_1.fq -2 ~/data/example_2.fq -S ~/data/result.sam

就會(huì)得到sam文件了祭钉。

2.單端測(cè)序single end

bowtie2 -x ~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/hg38 -U ~/data/example.fq -S ~/data/result.sam
-U為單端測(cè)序read文件

三、結(jié)果解讀

1. 比對(duì)后結(jié)果顯示:最后一行是比對(duì)率

image.png

image.png

雙端結(jié)果里面分割線分成三部分己沛。
part1:總共有多少對(duì)reads參加比對(duì)慌核;合理比對(duì)aligned concordantly 的情況。合理比對(duì)意思是兩端都比對(duì)上了申尼,且合理遂铡。
如上圖有650對(duì)reads沒(méi)有合理比對(duì)上,其余的比對(duì)上1次或多次晶姊。
part2:650對(duì)中扒接,有34對(duì)reads雙端比對(duì)上了,但是不合理们衙,可能是兩條reads之間距離過(guò)大钾怔,或者兩條reads居然在同一條鏈上。(合理的情況應(yīng)該是兩個(gè)reads在不同鏈上蒙挑,且能距離很近宗侦。
part3:這些都是沒(méi)有雙端比對(duì)成功的。616對(duì)忆蚀,就是1232條矾利,這些里面有606條姑裂,

2. SAM (The Sequence Alignment / Map format)格式文件的解讀

SAM是短序列比對(duì)默認(rèn)的標(biāo)準(zhǔn)格式,是以TAB為分割符的文本格式男旗。BAM就是SAM的二進(jìn)制文件舶斧,具有更小的存儲(chǔ)空間,并且許多下游分析工具使用的是BAM格式察皇。

SAM文件
頭部區(qū):以’@'開(kāi)始茴厉,體現(xiàn)了比對(duì)的一些總體信息。比如比對(duì)的SAM格式版本什荣,比對(duì)的參考序列矾缓,比對(duì)使用的軟件等。

主體區(qū):比對(duì)結(jié)果稻爬,每一個(gè)比對(duì)結(jié)果是一行嗜闻,有11個(gè)主列和一個(gè)可選列。
第一列:QNAME桅锄,比對(duì)的序列名稱泞辐,就是fq文件中的read ID,是一條測(cè)序read的名稱竞滓。
第二列:FLAG咐吼,比對(duì)上的情況
第三列:染色體名稱
第四列:POS,比對(duì)上的最左面的定位
第五列:MAPQ商佑,比對(duì)的質(zhì)量值锯茄。越高說(shuō)明比對(duì)的越唯一,最高60
第六列:CIGAR Extended CIGAR string茶没,M表示匹配肌幽、I表示插入、D表示刪除抓半、N表示內(nèi)含子和D類似喂急、S表示替換、H表示剪切笛求。87M表示87個(gè)堿基在比對(duì)時(shí)完全匹配廊移。
第七列:MRNM,這條reads第二次比對(duì)的位置探入,是比對(duì)上的參考序列名 狡孔。=表示參考序列與reads一模一樣,*表示沒(méi)有完全一模一樣的參考序列蜂嗽。
第八列:MPOS苗膝,與該reads對(duì)應(yīng)的mate pair reads的比對(duì)位置(即mate),若無(wú)mate,則為0植旧。
第九列:ISIZE 插入片段長(zhǎng)度 例如:200辱揭。如果R1端的read和R2端的read能夠mapping到同一條Reference序列上(即第三列RNAME相同)离唐,則該列的值表示第8列減去第4列加上第6列的值,
第十列:SEQ问窃,和參考序列在同一個(gè)鏈上比對(duì)的序列亥鬓,即read的序列。
第十一列:比對(duì)序列的質(zhì)量(ASCII-33=Phred base quality)reads堿基質(zhì)量值 例如:-8CCCGFCCCF7@E-

四泡躯、BAM文件

1. SAM 文件轉(zhuǎn)為 BAM 文件

得到的sam文件可以用semtools專程bam文件贮竟。
samtools sort example.sam>example.bam

2. 通過(guò)管道命令直接鏈接samtools

bowtie2 -x genome_index -1 input_1.fq -2 input_2.fq | samtools view -bS | samtools sort > output.bam
這條命令把bowtie2 生成的sam文件通過(guò)管道|傳遞到samtools丽焊,將sam轉(zhuǎn)換為bam文件较剃,省去中間sam文件的空間占用

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市技健,隨后出現(xiàn)的幾起案子写穴,更是在濱河造成了極大的恐慌,老刑警劉巖雌贱,帶你破解...
    沈念sama閱讀 222,681評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件啊送,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡欣孤,警方通過(guò)查閱死者的電腦和手機(jī)馋没,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)降传,“玉大人篷朵,你說(shuō)我怎么就攤上這事∑排牛” “怎么了声旺?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,421評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)段只。 經(jīng)常有香客問(wèn)我腮猖,道長(zhǎng),這世上最難降的妖魔是什么赞枕? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,114評(píng)論 1 300
  • 正文 為了忘掉前任澈缺,我火速辦了婚禮,結(jié)果婚禮上炕婶,老公的妹妹穿的比我還像新娘谍椅。我一直安慰自己,他們只是感情好古话,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,116評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布雏吭。 她就那樣靜靜地躺著,像睡著了一般陪踩。 火紅的嫁衣襯著肌膚如雪杖们。 梳的紋絲不亂的頭發(fā)上悉抵,一...
    開(kāi)封第一講書(shū)人閱讀 52,713評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音摘完,去河邊找鬼姥饰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛孝治,可吹牛的內(nèi)容都是我干的列粪。 我是一名探鬼主播,決...
    沈念sama閱讀 41,170評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼谈飒,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼岂座!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起杭措,我...
    開(kāi)封第一講書(shū)人閱讀 40,116評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤费什,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后手素,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體鸳址,經(jīng)...
    沈念sama閱讀 46,651評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,714評(píng)論 3 342
  • 正文 我和宋清朗相戀三年泉懦,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了稿黍。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,865評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡崩哩,死狀恐怖巡球,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情琢锋,我是刑警寧澤辕漂,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站吴超,受9級(jí)特大地震影響钉嘹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鲸阻,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,211評(píng)論 3 336
  • 文/蒙蒙 一跋涣、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鸟悴,春花似錦陈辱、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,699評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春利赋,著一層夾襖步出監(jiān)牢的瞬間水评,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,814評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工媚送, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留中燥,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,299評(píng)論 3 379
  • 正文 我出身青樓塘偎,卻偏偏與公主長(zhǎng)得像疗涉,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子吟秩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,870評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容