通過前面兩篇文章對MutMap原理和分析流程的介紹漓踢,我們對MutMap的分析已經(jīng)有了比較深入的了解止潘,是時候來點兒數(shù)據(jù)實戰(zhàn)一下了!
MutMap的發(fā)明者已經(jīng)搭建好了一套Pepline,并寫好了MutMap pipeline framework供大家免費使用姑原。我們只需要將數(shù)據(jù)按照要求進行放置和命名,并通過非常簡單的幾個命令呜舒,將任務(wù)提交給服務(wù)器锭汛,經(jīng)過三五天的分析(以水稻為例),就可以拿到結(jié)果了袭蝗。
1.分析環(huán)境的搭建
首先唤殴,我們需要有一臺Linux服務(wù)器。由于分析過程中需要進行大量的運算到腥,個人PC的配置根本吃不消朵逝。所以我們需要一臺服務(wù)器,當然配置越高越好乡范。在服務(wù)器上安裝Linux系統(tǒng)廉侧,我們使用的是Redhat篓足,當然也可以選擇免費的Ubuntu或CentOS段誊。
然后,在服務(wù)器安裝如下軟件:
Perl (v5.8.8)?5.22.2
R (version 2.15.0)3.0.1
BWA (version 0.5.9-r16)本版
SAMtools (0.1.8 or before)?本版
FASTX-Toolkit?使用conda安裝0.0.14版
(http://hannonlab.cshl.edu/fastx_toolkit/download.html)
(括號中的為推薦版本栈拖,后面的黑體為我自己使用的版本)
關(guān)于FASTX-Toolkit版本的選擇:
一定要安裝0.0.13及以上的版本连舍,因為從0.0.13開始FASTX-Toolkit才開始支持Illumina 1.8+ Phred+33的質(zhì)量打分規(guī)則,否則會報錯涩哟。就這一個報錯索赏,花費了我一天的時間,直到使用conda安裝了0.0.14版本才解決贴彼。(2018.01.24記)潜腻。
2.MutMap pipeline framework的下載和安裝
先下載MutMap pepline程序,解壓到Linux系統(tǒng)的工作目錄下(此處以myhome為例)。
#切換到安裝目錄
$ cd /myhome
#將framework壓縮文件拷貝到相應(yīng)文件夾
$ cp MutMap_framework1.4.4.tar.gz
#解壓
$ tar zxvf MutMap_framework1.4.4.tar.gz
#改名
$ mv MutMap_framework1.4.4 MutMap_test
3.將測序數(shù)據(jù)鏈接到相應(yīng)的文件夾中
將數(shù)據(jù)上傳到服務(wù)器中專門的目錄下器仗,通過鏈接的方式融涣,將原始文件鏈接到相應(yīng)的操作目錄下童番。
3.1 通過MD5值驗證文件的完整性
(1)Windows中生成MD5值
參考鏈接:https://jingyan.baidu.com/article/f7ff0bfc18ff302e26bb1382.html
(2)在Linux中通過驗證MD5值檢驗文件是否完整
參考鏈接:https://www.cnblogs.com/zhuxiaohou110908/p/5786893.html
3.2 將數(shù)據(jù)鏈接到野生型、分離群體混池文件夾中
$ cd /myhome/MutMap_test/1.qualify_read/anyname(野生型親本)
$ ln –s /fastq/ZZZ/ZZZ_L003_R1_001.fastq.gz p_3_1_sequence.txt.gz
$ ln –s /fastq/ZZZ/ZZZ_L003_R2_001.fastq.gz p_3_2_sequence.txt.gz
$ ln –s /fastq/ZZZ/ZZZ_L004_R1_001.fastq.gz p_4_1_sequence.txt.gz
$ ln –s /fastq/ZZZ/ZZZ_L004_R2_001.fastq.gz p_4_2_sequence.txt.gz
$ cd /myhome/MutMap_test/1.qualify_read/mybulk(突變體混池)
$ ln –s /fastq/XXX/XXX_L005_R1_001.fastq.gz p_5_1_sequence.txt.gz
$ ln –s /fastq/XXX/XXX_L005_R2_001.fastq.gz p_5_2_sequence.txt.gz
$ ln –s /fastq/XXX/XXX_L006_R1_001.fastq.gz p_6_1_sequence.txt.gz
$ ln –s /fastq/XXX/XXX_L006_R2_001.fastq.gz p_6_2_sequence.txt.gz
4.放置參考基因組fasta文件
#將參考基因組fasta格式文件放在下面的文件夾中
/myhome/MutMap_test/downloaded_fasta/IRGSP-1.0_genome.fasta/
#為fasta格式參考基因組創(chuàng)建.fai文件
samtools faidx IRGSP-1.0_genome.fasta
5. 配置common.fnc文件
5.1編輯config.tx文件
在第12威鹿、15剃斧、31、52忽你、115行做出如下修改:
#在第12行修改突變體混池名稱
Key1_Bulked_sample_name="mybulk"
#在第15行修野生型親本名稱
Key1_My_cultivar_sample="anyname"
#第31行指定參考基因組的路徑
Key2_Path_public_reference_FASTA="./downloaded_fasta/IRGSP1.0_genome.fasta/IRGSP-1.0_genome.fasta"
#在第52行配置BWA的線程數(shù)(實驗室的服務(wù)器最大32幼东,設(shè)置為20)
Key2_BWA_CPU=20
#第115行設(shè)置突變體混池的個體數(shù)
Key3_Individuals=20
其他設(shè)置一般不需要修改,具體設(shè)置參考MutMap Protocol
5.2 加載配置
#切換進入MutMap top目錄下
$ cd /myhome/MutMap_test
#運行Bat_make_common.fnc.sh
$ ./Bat_make_common.fnc.sh
# 上面的命令會做出如下的操作
mv 1.qualify_read/mybulk 1.qualify_read/XXX
mv 1.qualify_read/anyname 1.qualify_read/ZZZ
mkdir -p 1.qualify_read/XXX/q30p90/sep_pair
mkdir -p 1.qualify_read/ZZZ/q30p90/sep_pair
6.分析數(shù)據(jù)
6.1 對測序數(shù)據(jù)進行質(zhì)控和過濾
(1)對野生型親本測序數(shù)據(jù)進行質(zhì)控和過濾
# cd進入1.qualify_read文件夾下
$ cd /myhome/MutMap_test/1.qualify_read
#對野生型親本測序數(shù)據(jù)進行質(zhì)控和過濾
$ nohup ./Run_all_Bats.sh 9 &
#查看日志文件nohup.log科雳,自動追加最新工作結(jié)果并打印到屏幕
tail -f nohup.log
(2)對突變體混池測序數(shù)據(jù)進行質(zhì)控和過濾
#對突變體混池測序數(shù)據(jù)進行質(zhì)控和過濾
$ nohup ./Run_all_Bats.sh 0 &
#查看日志文件nohup.log根蟹,自動追加最新工作結(jié)果并打印到屏幕
tail -f nohup.log
6.2 構(gòu)建參考基因組
(1)Run “Run_all_Bats.sh”
將野生型親本測序reads比對到參考基因組上,并替換SNP糟秘,構(gòu)建自己的參考基因組:
#cd進入2.make_consensus文件夾下
$ cd /myhome/MutMap_test/2.make_consensus/
#運行程序
$nohup ./Run_all_Bats.sh &
(2)Run “Run_all_Bats.sh”
將野生型親本的reads重新比對到新構(gòu)建的參考基因組上简逮,發(fā)現(xiàn)錯配造成的SNP,用于下一步的排除和過濾:
#cd進入下面的文件夾
$ cd /myhome/MutMap_test/2.make_consensus/90.align_to_this_fasta/
#運行如下程序
$ nohup ./Run_all_Bats.sh &
6.3突變體混池數(shù)據(jù)分析及作圖
#切換到3.analysis文件夾下
$ cd /myhome/MutMap_test/3.analysis/
#運行如下命令蚌堵,進行數(shù)據(jù)分析和作圖
$ nohup ./Run_all_Bats.sh &
7.數(shù)據(jù)存儲位置
(1)構(gòu)建的野生型參考基因組
數(shù)據(jù)存放在2.make_consensus/50.make_consensus中买决,格式為fasta
(2)突變體混池和野生型親本比對鑒定出的snp信息
存儲在3.analysis/70.awk_custom中
(3)SNP-index圖
3.analysis/90.slidingwindow/pngs
(4)SNP低密度區(qū)域
每個窗口中的SNP數(shù)目小于10:
3.analysis/90.slidingwindow/pngs/Z1MZ2K/mut_index_X/mask10
8.使用samtools查看突變位點
使用方法:
samtools tview align.bam ref.fasta
samtools tview命令說明:
按?查看幫助吼畏,q或Esc退出
空格鍵向右移動一屏督赤,Backspace鍵向左移動一屏
.意為和正鏈匹配,泻蚊,意為和反向鏈匹配
大寫字母意為躲舌,正鏈替換為該堿基;小寫字母意為反向煉替換為該堿基
按g可跳轉(zhuǎn)至指定的堿基性雄,如:8:1256321
也可以使用IGV查看突變位點没卸。
9. 突變位點的注釋
Pepline的輸出結(jié)果中并沒有直接給出突變位點的注釋信息,不利于突變位點的篩選秒旋,得到所有的SNP后约计,我們后續(xù)可以通過snpEFF、ANNOVAR迁筛、AnnTools等軟件煤蚌,對突變進行注釋。
10. 結(jié)果展示
此處展示一張我用MutMap pipeline分析出的結(jié)果细卧,找到了突變基因的連鎖區(qū)間和候選突變位點尉桩。