使用MutMap快速定位突變基因:實戰(zhàn)篇

通過前面兩篇文章對MutMap原理和分析流程的介紹漓踢,我們對MutMap的分析已經(jīng)有了比較深入的了解止潘,是時候來點兒數(shù)據(jù)實戰(zhàn)一下了!

MutMap的發(fā)明者已經(jīng)搭建好了一套Pepline,并寫好了MutMap pipeline framework供大家免費使用姑原。我們只需要將數(shù)據(jù)按照要求進行放置和命名,并通過非常簡單的幾個命令呜舒,將任務(wù)提交給服務(wù)器锭汛,經(jīng)過三五天的分析(以水稻為例),就可以拿到結(jié)果了袭蝗。


1.分析環(huán)境的搭建

首先唤殴,我們需要有一臺Linux服務(wù)器。由于分析過程中需要進行大量的運算到腥,個人PC的配置根本吃不消朵逝。所以我們需要一臺服務(wù)器,當然配置越高越好乡范。在服務(wù)器上安裝Linux系統(tǒng)廉侧,我們使用的是Redhat篓足,當然也可以選擇免費的Ubuntu或CentOS段誊。

然后,在服務(wù)器安裝如下軟件:

Perl (v5.8.8)?5.22.2

R (version 2.15.0)3.0.1

BWA (version 0.5.9-r16)本版

SAMtools (0.1.8 or before)?本版

FASTX-Toolkit?使用conda安裝0.0.14版

(http://hannonlab.cshl.edu/fastx_toolkit/download.html)

(括號中的為推薦版本栈拖,后面的黑體為我自己使用的版本)

關(guān)于FASTX-Toolkit版本的選擇:

一定要安裝0.0.13及以上的版本连舍,因為從0.0.13開始FASTX-Toolkit才開始支持Illumina 1.8+ Phred+33的質(zhì)量打分規(guī)則,否則會報錯涩哟。就這一個報錯索赏,花費了我一天的時間,直到使用conda安裝了0.0.14版本才解決贴彼。(2018.01.24記)潜腻。

2.MutMap pipeline framework的下載和安裝

先下載MutMap pepline程序,解壓到Linux系統(tǒng)的工作目錄下(此處以myhome為例)。

#切換到安裝目錄

$ cd /myhome

#將framework壓縮文件拷貝到相應(yīng)文件夾

$ cp MutMap_framework1.4.4.tar.gz

#解壓

$ tar zxvf MutMap_framework1.4.4.tar.gz

#改名

$ mv MutMap_framework1.4.4 MutMap_test

3.將測序數(shù)據(jù)鏈接到相應(yīng)的文件夾中

將數(shù)據(jù)上傳到服務(wù)器中專門的目錄下器仗,通過鏈接的方式融涣,將原始文件鏈接到相應(yīng)的操作目錄下童番。

3.1 通過MD5值驗證文件的完整性

(1)Windows中生成MD5值

參考鏈接:https://jingyan.baidu.com/article/f7ff0bfc18ff302e26bb1382.html

(2)在Linux中通過驗證MD5值檢驗文件是否完整

參考鏈接:https://www.cnblogs.com/zhuxiaohou110908/p/5786893.html

3.2 將數(shù)據(jù)鏈接到野生型、分離群體混池文件夾中

$ cd /myhome/MutMap_test/1.qualify_read/anyname(野生型親本)

$ ln –s /fastq/ZZZ/ZZZ_L003_R1_001.fastq.gz p_3_1_sequence.txt.gz

$ ln –s /fastq/ZZZ/ZZZ_L003_R2_001.fastq.gz p_3_2_sequence.txt.gz

$ ln –s /fastq/ZZZ/ZZZ_L004_R1_001.fastq.gz p_4_1_sequence.txt.gz

$ ln –s /fastq/ZZZ/ZZZ_L004_R2_001.fastq.gz p_4_2_sequence.txt.gz

$ cd /myhome/MutMap_test/1.qualify_read/mybulk(突變體混池)

$ ln –s /fastq/XXX/XXX_L005_R1_001.fastq.gz p_5_1_sequence.txt.gz

$ ln –s /fastq/XXX/XXX_L005_R2_001.fastq.gz p_5_2_sequence.txt.gz

$ ln –s /fastq/XXX/XXX_L006_R1_001.fastq.gz p_6_1_sequence.txt.gz

$ ln –s /fastq/XXX/XXX_L006_R2_001.fastq.gz p_6_2_sequence.txt.gz

4.放置參考基因組fasta文件

#將參考基因組fasta格式文件放在下面的文件夾中

/myhome/MutMap_test/downloaded_fasta/IRGSP-1.0_genome.fasta/

#為fasta格式參考基因組創(chuàng)建.fai文件

samtools faidx IRGSP-1.0_genome.fasta

5. 配置common.fnc文件

5.1編輯config.tx文件

在第12威鹿、15剃斧、31、52忽你、115行做出如下修改:

#在第12行修改突變體混池名稱

Key1_Bulked_sample_name="mybulk"

#在第15行修野生型親本名稱

Key1_My_cultivar_sample="anyname"

#第31行指定參考基因組的路徑

Key2_Path_public_reference_FASTA="./downloaded_fasta/IRGSP1.0_genome.fasta/IRGSP-1.0_genome.fasta"

#在第52行配置BWA的線程數(shù)(實驗室的服務(wù)器最大32幼东,設(shè)置為20)

Key2_BWA_CPU=20

#第115行設(shè)置突變體混池的個體數(shù)

Key3_Individuals=20

其他設(shè)置一般不需要修改,具體設(shè)置參考MutMap Protocol

5.2 加載配置

#切換進入MutMap top目錄下

$ cd /myhome/MutMap_test

#運行Bat_make_common.fnc.sh

$ ./Bat_make_common.fnc.sh

# 上面的命令會做出如下的操作

mv 1.qualify_read/mybulk 1.qualify_read/XXX

mv 1.qualify_read/anyname 1.qualify_read/ZZZ

mkdir -p 1.qualify_read/XXX/q30p90/sep_pair

mkdir -p 1.qualify_read/ZZZ/q30p90/sep_pair

6.分析數(shù)據(jù)

6.1 對測序數(shù)據(jù)進行質(zhì)控和過濾

(1)對野生型親本測序數(shù)據(jù)進行質(zhì)控和過濾

# cd進入1.qualify_read文件夾下

$ cd /myhome/MutMap_test/1.qualify_read

#對野生型親本測序數(shù)據(jù)進行質(zhì)控和過濾

$ nohup ./Run_all_Bats.sh 9 &

#查看日志文件nohup.log科雳,自動追加最新工作結(jié)果并打印到屏幕

tail -f nohup.log

(2)對突變體混池測序數(shù)據(jù)進行質(zhì)控和過濾

#對突變體混池測序數(shù)據(jù)進行質(zhì)控和過濾

$ nohup ./Run_all_Bats.sh 0 &

#查看日志文件nohup.log根蟹,自動追加最新工作結(jié)果并打印到屏幕

tail -f nohup.log

6.2 構(gòu)建參考基因組

(1)Run “Run_all_Bats.sh”

將野生型親本測序reads比對到參考基因組上,并替換SNP糟秘,構(gòu)建自己的參考基因組:

#cd進入2.make_consensus文件夾下

$ cd /myhome/MutMap_test/2.make_consensus/

#運行程序

$nohup ./Run_all_Bats.sh &

(2)Run “Run_all_Bats.sh”

將野生型親本的reads重新比對到新構(gòu)建的參考基因組上简逮,發(fā)現(xiàn)錯配造成的SNP,用于下一步的排除和過濾:

#cd進入下面的文件夾

$ cd /myhome/MutMap_test/2.make_consensus/90.align_to_this_fasta/

#運行如下程序

$ nohup ./Run_all_Bats.sh &

6.3突變體混池數(shù)據(jù)分析及作圖

#切換到3.analysis文件夾下

$ cd /myhome/MutMap_test/3.analysis/

#運行如下命令蚌堵,進行數(shù)據(jù)分析和作圖

$ nohup ./Run_all_Bats.sh &

7.數(shù)據(jù)存儲位置

(1)構(gòu)建的野生型參考基因組

數(shù)據(jù)存放在2.make_consensus/50.make_consensus中买决,格式為fasta

(2)突變體混池和野生型親本比對鑒定出的snp信息

存儲在3.analysis/70.awk_custom中

(3)SNP-index圖

3.analysis/90.slidingwindow/pngs

(4)SNP低密度區(qū)域

每個窗口中的SNP數(shù)目小于10:

3.analysis/90.slidingwindow/pngs/Z1MZ2K/mut_index_X/mask10

8.使用samtools查看突變位點

使用方法:

samtools tview align.bam ref.fasta

samtools tview命令說明:

按?查看幫助吼畏,q或Esc退出

空格鍵向右移動一屏督赤,Backspace鍵向左移動一屏

.意為和正鏈匹配,泻蚊,意為和反向鏈匹配

大寫字母意為躲舌,正鏈替換為該堿基;小寫字母意為反向煉替換為該堿基

按g可跳轉(zhuǎn)至指定的堿基性雄,如:8:1256321

也可以使用IGV查看突變位點没卸。

9. 突變位點的注釋

Pepline的輸出結(jié)果中并沒有直接給出突變位點的注釋信息,不利于突變位點的篩選秒旋,得到所有的SNP后约计,我們后續(xù)可以通過snpEFF、ANNOVAR迁筛、AnnTools等軟件煤蚌,對突變進行注釋。

10. 結(jié)果展示

此處展示一張我用MutMap pipeline分析出的結(jié)果细卧,找到了突變基因的連鎖區(qū)間和候選突變位點尉桩。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市贪庙,隨后出現(xiàn)的幾起案子蜘犁,更是在濱河造成了極大的恐慌,老刑警劉巖止邮,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件这橙,死亡現(xiàn)場離奇詭異奏窑,居然都是意外死亡,警方通過查閱死者的電腦和手機析恋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門良哲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來盛卡,“玉大人助隧,你說我怎么就攤上這事』祝” “怎么了并村?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長滓技。 經(jīng)常有香客問我哩牍,道長,這世上最難降的妖魔是什么令漂? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任膝昆,我火速辦了婚禮,結(jié)果婚禮上叠必,老公的妹妹穿的比我還像新娘荚孵。我一直安慰自己,他們只是感情好纬朝,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布收叶。 她就那樣靜靜地躺著,像睡著了一般共苛。 火紅的嫁衣襯著肌膚如雪判没。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天隅茎,我揣著相機與錄音澄峰,去河邊找鬼。 笑死辟犀,一個胖子當著我的面吹牛俏竞,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播踪蹬,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼胞此,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了跃捣?” 一聲冷哼從身側(cè)響起漱牵,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎疚漆,沒想到半個月后酣胀,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刁赦,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年闻镶,在試婚紗的時候發(fā)現(xiàn)自己被綠了甚脉。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡铆农,死狀恐怖牺氨,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情墩剖,我是刑警寧澤猴凹,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站岭皂,受9級特大地震影響郊霎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜爷绘,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一书劝、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧土至,春花似錦购对、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至坑赡,卻和暖如春烙如,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背毅否。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工亚铁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人螟加。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓徘溢,卻偏偏與公主長得像,于是被迫代替她去往敵國和親捆探。 傳聞我的和親對象是個殘疾皇子然爆,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 郭芳艷 焦點網(wǎng)絡(luò)五期 焦作 堅持原創(chuàng)分享第25天 今天一大早一到單位,校長和同事都跟我說了一個壞消息——...
    冰山藍鷹閱讀 166評論 0 0
  • 最近看到兩句話覺得很有感悟黍图,第一句是人們寧可去關(guān)心一個蹩腳的演員的吃喝拉撒曾雕,也不愿去關(guān)注一個平凡人波瀾壯闊的內(nèi)...
    粉紅嬤嬤閱讀 177評論 0 0
  • 組別 301期 利他一組 【日精進打卡第165天 【知~學(xué)習(xí)】 誦讀《六項精進大綱》3遍,累計261遍助被;誦讀《大...
    J0hn先生閱讀 179評論 0 0
  • 依然是昨天那個時候醒來剖张,不知為什么近日常常失眠了切诀。撩開窗簾,刷的透過一股清新的空氣搔弄,吸到肚里幅虑,格外舒服。深冬大雪節(jié)...
    宏波_閱讀 558評論 0 2
  • 冰冰冰_閱讀 138評論 0 0