MutScan軟件介紹

近期在分析人的一種眼科疾病的WES數(shù)據(jù)時(shí),發(fā)現(xiàn)RPGR基因的第15號(hào)外顯子的一部分在高度重復(fù)區(qū)域牵触,該區(qū)域是高含量的CT重復(fù)墩剖,因此前期的文庫捕獲、后期比對(duì)都比較困難痒筒。好在我的樣本在這個(gè)區(qū)域的覆蓋度還可以宰闰,但是常規(guī)的流程沒有檢測出來這個(gè)區(qū)域的可靠變異,因此需要驗(yàn)證這個(gè)區(qū)間是否還有漏掉的位點(diǎn)凸克。發(fā)現(xiàn)MutScan軟件可以基于輸入的位點(diǎn)進(jìn)行驗(yàn)證议蟆,從fastq序列入手,不經(jīng)過bwa比對(duì)萎战,而是進(jìn)行字符串匹配(當(dāng)然會(huì)考慮到容錯(cuò))咐容,找出來一些位點(diǎn)。

1.軟件的情況如下:

1.1 源代碼網(wǎng)址:

http://www.github.com/OpenGene/MutScan

1.2 下載二進(jìn)制文件后直接使用:

wget http://opengene.org/MutScan/mutscan
chmod a+x ./mutscan

或者下載可編譯文件:

# get source (you can also use browser to download from master or releases)
git clone https://github.com/OpenGene/MutScan.git

# build
cd mutscan
make

# Install
sudo make install

1.3 軟件功能:

直接掃描FastQ文件檢測和可視化目標(biāo)突變

1.4 軟件特性

  • 超敏感涂籽,保證所有支持突變的讀取都將被檢測到
  • 可以比普通管道快 50 X+ ( 例如苹祟。 BWA + Samtools + GATK/VarScan/Mutect).
  • 非常容易使用,無需其他任何東西评雌。 沒有校準(zhǔn)沒有參考基因組沒有變異電話沒有树枫。
  • 包含在癌癥相關(guān)突變突變點(diǎn),如 EGFR p.L858R, BRAF p.V600E.景东。
  • 美觀且信息豐富的HTML報(bào)表砂轻,具有信息pileup可視化。
  • 多線程支持斤吐。
  • 支持單端和雙端數(shù)據(jù)搔涝。
  • 對(duì)于對(duì)端數(shù)據(jù)厨喂,MutScan將嘗試合并每對(duì),并進(jìn)行質(zhì)量調(diào)整和錯(cuò)誤糾正庄呈。
  • 能夠掃描一個(gè)蜕煌,文件中的突變,可以用來可以視化被稱為變量的變異抒痒。
  • 可以用于篩選假陽性突變幌绍。 換句話說,MutScan可以處理高度repetive序列以避免 false INDEL調(diào)用故响。
應(yīng)用程序方案:
  • 你對(duì)某些特定的( 比如drugable突變) 類型感興趣,并希望檢查給定的FastQ文件是否包含它們颁独。
  • 你對(duì)管道調(diào)用的突變沒有足夠的信心彩届,因此你希望可視化并驗(yàn)證它們以避免 false 正調(diào)用。
  • 你擔(dān)心管道使用過于嚴(yán)格的篩選誓酒,并且可能會(huì)導(dǎo)致某些 false 負(fù)數(shù)樟蠕,因這里你要快速檢查。
  • 你想看到所謂的變異靠柑,并用它清晰的pipeUp信息拍攝一個(gè)截圖寨辩。
  • 你稱為大量INDEL突變,并且擔(dān)心它們主要是 false 優(yōu)點(diǎn)( 特別是在高度repetive區(qū)域)歼冰。
  • 你想驗(yàn)證并可視化你的管道調(diào)用的VCF中的每個(gè)記錄靡狞。

1.5 Windows 版本( 可能不是最新版本)

如果要在 Windows 上編譯 MutScan,則應(yīng)使用 cygwin隔嫡。 我們已經(jīng)用 cygwin-2.6.0/G++ 5.4構(gòu)建了一個(gè)甸怕,它可以從以下位置下載: http://opengene.org/MutScan/windows_mutscan.zip

1.6 HTML報(bào)告

  • 將生成一個(gè)HTML報(bào)告,并將它的寫入給給定的文件名腮恩。 有關(guān)示例梢杭,請(qǐng)參閱 http://opengene.org/MutScan/report.html
  • 如果在Linux服務(wù)器中運(yùn)行命令并希望在本地系統(tǒng)上查看HTML報(bào)告秸滴,那么 武契。 記住要復(fù)制所有 xxxx.htmlxxxx.html.files 并將它們保存在同一文件夾中,然后單擊 xxxx.html 在瀏覽器中查看它荡含。
  • 默認(rèn)文件 NAME 是 mutscan.html咒唆,并且還會(huì)生成一個(gè)文件夾 mutscan.html.files
  • 默認(rèn)情況下内颗,將為每個(gè)發(fā)現(xiàn)的突變生成一個(gè) indivudal HTML文件钧排。 但是你可以指定 -s 或者 --standalone 來包含單個(gè)HTML文件中的所有突變。 如果掃描太多記錄( 例如掃描 VCF )均澳,請(qǐng)注意這個(gè)模式恨溜,它將給你一個(gè)非常大的HTML文件符衔,并且不能加載。
  • 下面是MutScan生成的突變( EGFR p.t790m ) pileup的屏幕截圖:


    image.png
  • 上面 p.T790M 突變的pileup糟袁。 EGFR p.T790M 是肺癌中非常重要的drugable突變判族。
  • 每個(gè)基礎(chǔ)的顏色表示它的質(zhì)量,并且在鼠標(biāo)超過時(shí)顯示質(zhì)量项戴。
  • 第一列形帮,d 表示 MATCH的編輯距離,--> 表示轉(zhuǎn)發(fā)周叮,<--表示反向

1.7 JSON報(bào)告

默認(rèn)情況下禁用JSON報(bào)告辩撑。 你可以通過使用 -j 或者 --json 指定一個(gè)JSON文件 NAME 來啟用它。 JSON報(bào)告如下所示:

{
 "command":"./mutscan -1/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R1_001.fastq -2/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R2_001.fastq -h z.html -j z.json -v --simplified=off ",
 "version":"1.14.0",
 "time":"2018-05-15 15:48:21",
 "mutations":{
 "NRAS-neg-1-115258747-2-c.35G>C-p.G12A-COSM565":{
 "chr":"chr1",
 "ref":["TGGATTGTCAGTGCGCTTTTCCCAACACCA","G","CTGCTCCAACCACCACCAGTTTGTACTCAG"],
 "reads":[
 {
 "breaks":[31,61,62,76], 
 "seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
 "qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieiiiiiiiiiiieieeeee" },
 {
 "breaks":[31,61,62,76], 
 "seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
 "qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieeeee" }
 ]
 },
 "PIK3CA-pos-3-178936082-9-c.1624G>A-E542K-COSM760":{
 "chr":"chr3",
 "ref":["AAAGCAATTTCTACACGAGATCCTCTCTCT","A","AAATCACTGAGCAGGAGAAAGATTTTCTAT"],
 "reads":[
 {
 "breaks":[22,52,53,83], 
 "seq":"GGAAAATGACAAAGAACAGCTCAAAGCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGAGCAGGAGAAAGATTTTCCAAAGATGTTTCTCAGAACGCTGCAGTCTGCAATTTGTATGAATTCCC",
 "qual":"eeeeeiiiQiiiiiieiiiieiSeiiiiiie`iiii`i`iiiiiiiiiiiiii`iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiaiiiiiiiiiiiiiiiiiieiiiiiieeeee" },
 {
 "breaks":[0,27,28,58], 
 "seq":"GCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGCGCAGGAGAAAGATTTTCTATGGACCACAGGTAAGTGCTAAAATGGAGATTCTCTGTTTCTTTTTCTTTATTACAGAAAAAATAACTGACTTTGGCTGATCTCAGCATGTTTTTACCATACC",
 "qual":"AAAAAEEEEiieiiieiiiiiiiiiieiiiiiiiie``iiiiiieiiiiiiiiiieiiiieiieieeiiiSiiiiiieiiiiiiiiiiiiiieiiiiiSiiiiiiiiiiiiieiiiiiiiiiiii`ieiiieiii`ieiiiii`eS``eieEEEAAAAA" }
 ]
 }
 }
}

1.8 軟件選項(xiàng)

usage: mutscan -1 <read1_file> -2 <read2_file> [options]...
options:
 -1, --read1 read1 file name, required
 -2, --read2 read2 file name
 -m, --mutation mutation file name, can be a CSV format or a VCF format
 -r, --ref reference fasta file name (only needed when mutation file is a VCF)
 -h, --html filename of html report, default is mutscan.html in work directory
 -j, --json filename of JSON report, default is no JSON report (string [=])
 -t, --thread worker thread number, default is 4
 -S, --support min read support required to report a mutation, default is 2.
 -k, --mark when mutation file is a vcf file, --mark means only process the records with FILTER column is M
 -l, --legacy use legacy mode, usually much slower but may be able to find a little more reads in certain case -s, --standalone output standalone HTML report with single file. Don't use this option when scanning too many target mutations (i.e.> 1000 mutations) -n, --no-original-reads dont output original reads in HTML and text output. Will make HTML report files a bit smaller -?, --help print this message

1.9 示例

純文本結(jié)果仿耽,其中包含檢測到的突變和它們的支持讀取合冀,將直接打印。 你可以使用 > 將輸出重定向到文件项贺,例如:

mutscan -1 <read1_file_name> -2 <read2_file_name > result.txt

MutScan生成非常有用的HTML文件報(bào)告君躺,默認(rèn)為工作目錄中的mutscan.html。 你可以使用 -h 參數(shù)更改文件 NAME开缎,例如:

mutscan -1 <read1_file_name> -2 <read2_file_name> -h report.html

對(duì)于單端排序數(shù)據(jù)棕叫,省略 -2 參數(shù):

mutscan -1 <read1_file_name>

多線程

-t 參數(shù)指定要啟動(dòng)的工作線程數(shù)。 默認(rèn)的線程號(hào)是 4奕删。 建議使用比系統(tǒng)的CPU內(nèi)核少的數(shù)字俺泣。

變異文件

  • -m 指定的變異文件可以是 CSV file,也可以是 VCF file急侥。
  • 如果沒有指定 -m砌滞,MutScan將使用內(nèi)置的默認(rèn)變異文件,其中包含 60個(gè)相關(guān)的癌癥相關(guān)突變點(diǎn)坏怪。
  • 如果提供了 CSV贝润,則不需要參考基因組程序集。
  • 如果提供 VCF铝宵,應(yīng)提供相應(yīng)的參考基因組程序集( 例如 )打掘。 ucsc.hg19. fasta ),并且不應(yīng)該被壓縮鹏秋。

格式的csv格式變異文件

帶有 name尊蚁,left_seq_of_mutation_point,mutation_seq侣夷,right_seq_of_mutation_point 和 chromosome(optional) 列的CSV文件:

#name, left_seq_of_mutation_point, mutation_seq, right_seq_of_mutation_point, chromosome

NRAS-neg-1-115258748-2-c.34G>A-p.G12S-COSM563, GGATTGTCAGTGCGCTTTTCCCAACACCAC, T, TGCTCCAACCACCACCAGTTTGTACTCAGT, chr1

NRAS-neg-1-115252203-2-c.437C>T-p.A146V-COSM4170228, TGAAAGCTGTACCATACCTGTCTGGTCTTG, A, CTGAGGTTTCAATGAATGGAATCCCGTAAC, chr1

BRAF-neg-7-140453136-15-c.1799T>A -V600E-COSM476, AACTGATGGGACCCACTCCATCGAGATTTC, T, CTGTAGCTAGACCAAAATCACCTATTTTTA, chr7

EGFR-pos-7-55241677-18-c.2125G>A-p.E709K-COSM12988, CCCAACCAAGCTCTCTTGAGGATCTTGAAG, A, AAACTGAATTCAAAAAGATCAAAGTGCTGG, chr7

EGFR-pos-7-55241707-18-c.2155G>A-p.G719S-COSM6252, GAAACTGAATTCAAAAAGATCAAAGTGCTG, A, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7

EGFR-pos-7-55241707-18-c.2155G>T-p.G719C-COSM6253, GAAACTGAATTCAAAAAGATCAAAGTGCTG, T, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7

testdata/mutations.csv 給出了csv格式變異文件的示例

vcf格式變異文件

標(biāo)準(zhǔn)VCF可以作為一個(gè)變異文件横朋,文件擴(kuò)展名為 .vcf 或者 .vcf。 如果突變文件是VCF文件百拓,你應(yīng)該通過 -r <ref.fa> 指定 reference assembly file琴锭。 例如命令可以是:

mutscan -1 R1.fq -2 R2.fq -m target.vcf -r hg19.fa

使用 bam/fill

如果希望使用 bam/fill文件運(yùn)行 MutScan晰甚,可以使用 samtools 將它們轉(zhuǎn)換為FASTQ文件,使用 samtools fastq 命令决帖,最新版本的samtools fastq 數(shù)據(jù)支持 paired厕九。

注釋

  • 如果你讀得太短,MutScan 需要至少 50個(gè)長讀地回,不要使用它
  • 如果你希望只使用一個(gè)讀取支持來提取突變扁远,請(qǐng)?jiān)诿钪刑砑?-S 1 或者 --support=1

2. 一些說明:

(1)相關(guān)的網(wǎng)站:
https://github.com/OpenGene/MutScan#get-mutscan

https://www.biostars.org/p/213988/

https://www.biostars.org/p/283969/#283980

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2024-6

(2)關(guān)于indel模式,創(chuàng)建vcf時(shí)的格式:
如果變異類型是insertion刻像,則直接把變異后的序列作為M序列畅买,如下圖中的紅色框內(nèi):


image.png

對(duì)于deletion類型:


(3)該軟件更像是驗(yàn)證變異位點(diǎn),不是call 變異细睡,是需要把已知的位點(diǎn)先填入的皮获。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市纹冤,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌购公,老刑警劉巖萌京,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異宏浩,居然都是意外死亡知残,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門比庄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來求妹,“玉大人,你說我怎么就攤上這事佳窑≈苹校” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵神凑,是天一觀的道長净神。 經(jīng)常有香客問我,道長溉委,這世上最難降的妖魔是什么鹃唯? 我笑而不...
    開封第一講書人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮瓣喊,結(jié)果婚禮上坡慌,老公的妹妹穿的比我還像新娘。我一直安慰自己藻三,他們只是感情好洪橘,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開白布跪者。 她就那樣靜靜地躺著,像睡著了一般梨树。 火紅的嫁衣襯著肌膚如雪坑夯。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,287評(píng)論 1 301
  • 那天抡四,我揣著相機(jī)與錄音柜蜈,去河邊找鬼。 笑死指巡,一個(gè)胖子當(dāng)著我的面吹牛淑履,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播藻雪,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼秘噪,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了勉耀?” 一聲冷哼從身側(cè)響起指煎,我...
    開封第一講書人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎便斥,沒想到半個(gè)月后至壤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡枢纠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年像街,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晋渺。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡镰绎,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出木西,到底是詐尸還是另有隱情畴栖,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布户魏,位于F島的核電站驶臊,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏叼丑。R本人自食惡果不足惜关翎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望鸠信。 院中可真熱鬧纵寝,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至室奏,卻和暖如春火焰,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背胧沫。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來泰國打工昌简, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人绒怨。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓纯赎,卻偏偏與公主長得像,于是被迫代替她去往敵國和親南蹂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子犬金,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354