近期在分析人的一種眼科疾病的WES數(shù)據(jù)時(shí),發(fā)現(xiàn)RPGR基因的第15號(hào)外顯子的一部分在高度重復(fù)區(qū)域牵触,該區(qū)域是高含量的CT重復(fù)墩剖,因此前期的文庫捕獲、后期比對(duì)都比較困難痒筒。好在我的樣本在這個(gè)區(qū)域的覆蓋度還可以宰闰,但是常規(guī)的流程沒有檢測出來這個(gè)區(qū)域的可靠變異,因此需要驗(yàn)證這個(gè)區(qū)間是否還有漏掉的位點(diǎn)凸克。發(fā)現(xiàn)MutScan軟件可以基于輸入的位點(diǎn)進(jìn)行驗(yàn)證议蟆,從fastq序列入手,不經(jīng)過bwa比對(duì)萎战,而是進(jìn)行字符串匹配(當(dāng)然會(huì)考慮到容錯(cuò))咐容,找出來一些位點(diǎn)。
1.軟件的情況如下:
1.1 源代碼網(wǎng)址:
http://www.github.com/OpenGene/MutScan
1.2 下載二進(jìn)制文件后直接使用:
wget http://opengene.org/MutScan/mutscan
chmod a+x ./mutscan
或者下載可編譯文件:
# get source (you can also use browser to download from master or releases)
git clone https://github.com/OpenGene/MutScan.git
# build
cd mutscan
make
# Install
sudo make install
1.3 軟件功能:
直接掃描FastQ文件檢測和可視化目標(biāo)突變
- 特性
- 應(yīng)用程序方案
- 快速瀏覽一下蚂维。
- 下載戳粒,編譯和安裝。
- HTML報(bào)告
- JSON報(bào)告
- 所有選項(xiàng)
- 自定義你的變異文件虫啥。
- 與 bam/cram一起工作蔚约。
- 備注
- 引用 MutScan。
1.4 軟件特性
- 超敏感涂籽,保證所有支持突變的讀取都將被檢測到
- 可以比普通管道快 50 X+ ( 例如苹祟。 BWA + Samtools + GATK/VarScan/Mutect).
- 非常容易使用,無需其他任何東西评雌。 沒有校準(zhǔn)沒有參考基因組沒有變異電話沒有树枫。
- 包含在癌癥相關(guān)突變突變點(diǎn),如 EGFR p.L858R, BRAF p.V600E.景东。
- 美觀且信息豐富的HTML報(bào)表砂轻,具有信息pileup可視化。
- 多線程支持斤吐。
- 支持單端和雙端數(shù)據(jù)搔涝。
- 對(duì)于對(duì)端數(shù)據(jù)厨喂,MutScan將嘗試合并每對(duì),并進(jìn)行質(zhì)量調(diào)整和錯(cuò)誤糾正庄呈。
- 能夠掃描一個(gè)蜕煌,文件中的突變,可以用來可以視化被稱為變量的變異抒痒。
- 可以用于篩選假陽性突變幌绍。 換句話說,MutScan可以處理高度repetive序列以避免 false INDEL調(diào)用故响。
應(yīng)用程序方案:
- 你對(duì)某些特定的( 比如drugable突變) 類型感興趣,并希望檢查給定的FastQ文件是否包含它們颁独。
- 你對(duì)管道調(diào)用的突變沒有足夠的信心彩届,因此你希望可視化并驗(yàn)證它們以避免 false 正調(diào)用。
- 你擔(dān)心管道使用過于嚴(yán)格的篩選誓酒,并且可能會(huì)導(dǎo)致某些 false 負(fù)數(shù)樟蠕,因這里你要快速檢查。
- 你想看到所謂的變異靠柑,并用它清晰的pipeUp信息拍攝一個(gè)截圖寨辩。
- 你稱為大量INDEL突變,并且擔(dān)心它們主要是 false 優(yōu)點(diǎn)( 特別是在高度repetive區(qū)域)歼冰。
- 你想驗(yàn)證并可視化你的管道調(diào)用的VCF中的每個(gè)記錄靡狞。
1.5 Windows 版本( 可能不是最新版本)
如果要在 Windows 上編譯 MutScan,則應(yīng)使用 cygwin
隔嫡。 我們已經(jīng)用 cygwin-2.6.0/G++ 5.4構(gòu)建了一個(gè)甸怕,它可以從以下位置下載: http://opengene.org/MutScan/windows_mutscan.zip
1.6 HTML報(bào)告
- 將生成一個(gè)HTML報(bào)告,并將它的寫入給給定的文件名腮恩。 有關(guān)示例梢杭,請(qǐng)參閱 http://opengene.org/MutScan/report.html。
- 如果在Linux服務(wù)器中運(yùn)行命令并希望在本地系統(tǒng)上查看HTML報(bào)告秸滴,那么 武契。 記住要復(fù)制所有
xxxx.html
和xxxx.html.files
并將它們保存在同一文件夾中,然后單擊xxxx.html
在瀏覽器中查看它荡含。 - 默認(rèn)文件 NAME 是
mutscan.html
咒唆,并且還會(huì)生成一個(gè)文件夾mutscan.html.files
。 - 默認(rèn)情況下内颗,將為每個(gè)發(fā)現(xiàn)的突變生成一個(gè) indivudal HTML文件钧排。 但是你可以指定
-s
或者--standalone
來包含單個(gè)HTML文件中的所有突變。 如果掃描太多記錄( 例如掃描 VCF )均澳,請(qǐng)注意這個(gè)模式恨溜,它將給你一個(gè)非常大的HTML文件符衔,并且不能加載。 -
下面是MutScan生成的突變( EGFR p.t790m ) pileup的屏幕截圖:
- 上面 p.T790M 突變的pileup糟袁。 EGFR p.T790M 是肺癌中非常重要的drugable突變判族。
- 每個(gè)基礎(chǔ)的顏色表示它的質(zhì)量,并且在鼠標(biāo)超過時(shí)顯示質(zhì)量项戴。
- 第一列形帮,d 表示 MATCH的編輯距離,--> 表示轉(zhuǎn)發(fā)周叮,<--表示反向
1.7 JSON報(bào)告
默認(rèn)情況下禁用JSON報(bào)告辩撑。 你可以通過使用 -j
或者 --json
指定一個(gè)JSON文件 NAME 來啟用它。 JSON報(bào)告如下所示:
{
"command":"./mutscan -1/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R1_001.fastq -2/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R2_001.fastq -h z.html -j z.json -v --simplified=off ",
"version":"1.14.0",
"time":"2018-05-15 15:48:21",
"mutations":{
"NRAS-neg-1-115258747-2-c.35G>C-p.G12A-COSM565":{
"chr":"chr1",
"ref":["TGGATTGTCAGTGCGCTTTTCCCAACACCA","G","CTGCTCCAACCACCACCAGTTTGTACTCAG"],
"reads":[
{
"breaks":[31,61,62,76],
"seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
"qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieiiiiiiiiiiieieeeee" },
{
"breaks":[31,61,62,76],
"seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
"qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieeeee" }
]
},
"PIK3CA-pos-3-178936082-9-c.1624G>A-E542K-COSM760":{
"chr":"chr3",
"ref":["AAAGCAATTTCTACACGAGATCCTCTCTCT","A","AAATCACTGAGCAGGAGAAAGATTTTCTAT"],
"reads":[
{
"breaks":[22,52,53,83],
"seq":"GGAAAATGACAAAGAACAGCTCAAAGCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGAGCAGGAGAAAGATTTTCCAAAGATGTTTCTCAGAACGCTGCAGTCTGCAATTTGTATGAATTCCC",
"qual":"eeeeeiiiQiiiiiieiiiieiSeiiiiiie`iiii`i`iiiiiiiiiiiiii`iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiaiiiiiiiiiiiiiiiiiieiiiiiieeeee" },
{
"breaks":[0,27,28,58],
"seq":"GCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGCGCAGGAGAAAGATTTTCTATGGACCACAGGTAAGTGCTAAAATGGAGATTCTCTGTTTCTTTTTCTTTATTACAGAAAAAATAACTGACTTTGGCTGATCTCAGCATGTTTTTACCATACC",
"qual":"AAAAAEEEEiieiiieiiiiiiiiiieiiiiiiiie``iiiiiieiiiiiiiiiieiiiieiieieeiiiSiiiiiieiiiiiiiiiiiiiieiiiiiSiiiiiiiiiiiiieiiiiiiiiiiii`ieiiieiii`ieiiiii`eS``eieEEEAAAAA" }
]
}
}
}
1.8 軟件選項(xiàng)
usage: mutscan -1 <read1_file> -2 <read2_file> [options]...
options:
-1, --read1 read1 file name, required
-2, --read2 read2 file name
-m, --mutation mutation file name, can be a CSV format or a VCF format
-r, --ref reference fasta file name (only needed when mutation file is a VCF)
-h, --html filename of html report, default is mutscan.html in work directory
-j, --json filename of JSON report, default is no JSON report (string [=])
-t, --thread worker thread number, default is 4
-S, --support min read support required to report a mutation, default is 2.
-k, --mark when mutation file is a vcf file, --mark means only process the records with FILTER column is M
-l, --legacy use legacy mode, usually much slower but may be able to find a little more reads in certain case -s, --standalone output standalone HTML report with single file. Don't use this option when scanning too many target mutations (i.e.> 1000 mutations) -n, --no-original-reads dont output original reads in HTML and text output. Will make HTML report files a bit smaller -?, --help print this message
1.9 示例
純文本結(jié)果仿耽,其中包含檢測到的突變和它們的支持讀取合冀,將直接打印。 你可以使用 >
將輸出重定向到文件项贺,例如:
mutscan -1 <read1_file_name> -2 <read2_file_name > result.txt
MutScan生成非常有用的HTML文件報(bào)告君躺,默認(rèn)為工作目錄中的mutscan.html
。 你可以使用 -h
參數(shù)更改文件 NAME开缎,例如:
mutscan -1 <read1_file_name> -2 <read2_file_name> -h report.html
對(duì)于單端排序數(shù)據(jù)棕叫,省略 -2
參數(shù):
mutscan -1 <read1_file_name>
多線程
-t
參數(shù)指定要啟動(dòng)的工作線程數(shù)。 默認(rèn)的線程號(hào)是 4
奕删。 建議使用比系統(tǒng)的CPU內(nèi)核少的數(shù)字俺泣。
變異文件
- 由
-m
指定的變異文件可以是CSV file
,也可以是VCF file
急侥。 - 如果沒有指定
-m
砌滞,MutScan將使用內(nèi)置的默認(rèn)變異文件,其中包含 60個(gè)相關(guān)的癌癥相關(guān)突變點(diǎn)坏怪。 - 如果提供了 CSV贝润,則不需要參考基因組程序集。
- 如果提供 VCF铝宵,應(yīng)提供相應(yīng)的參考基因組程序集( 例如 )打掘。 ucsc.hg19. fasta ),并且不應(yīng)該被壓縮鹏秋。
格式的csv格式變異文件
帶有 name尊蚁,left_seq_of_mutation_point,mutation_seq侣夷,right_seq_of_mutation_point 和 chromosome(optional) 列的CSV文件:
#name, left_seq_of_mutation_point, mutation_seq, right_seq_of_mutation_point, chromosome
NRAS-neg-1-115258748-2-c.34G>A-p.G12S-COSM563, GGATTGTCAGTGCGCTTTTCCCAACACCAC, T, TGCTCCAACCACCACCAGTTTGTACTCAGT, chr1
NRAS-neg-1-115252203-2-c.437C>T-p.A146V-COSM4170228, TGAAAGCTGTACCATACCTGTCTGGTCTTG, A, CTGAGGTTTCAATGAATGGAATCCCGTAAC, chr1
BRAF-neg-7-140453136-15-c.1799T>A -V600E-COSM476, AACTGATGGGACCCACTCCATCGAGATTTC, T, CTGTAGCTAGACCAAAATCACCTATTTTTA, chr7
EGFR-pos-7-55241677-18-c.2125G>A-p.E709K-COSM12988, CCCAACCAAGCTCTCTTGAGGATCTTGAAG, A, AAACTGAATTCAAAAAGATCAAAGTGCTGG, chr7
EGFR-pos-7-55241707-18-c.2155G>A-p.G719S-COSM6252, GAAACTGAATTCAAAAAGATCAAAGTGCTG, A, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7
EGFR-pos-7-55241707-18-c.2155G>T-p.G719C-COSM6253, GAAACTGAATTCAAAAAGATCAAAGTGCTG, T, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7
testdata/mutations.csv 給出了csv格式變異文件的示例
vcf格式變異文件
標(biāo)準(zhǔn)VCF可以作為一個(gè)變異文件横朋,文件擴(kuò)展名為 .vcf 或者 .vcf。 如果突變文件是VCF文件百拓,你應(yīng)該通過 -r <ref.fa> 指定 reference assembly file琴锭。 例如命令可以是:
mutscan -1 R1.fq -2 R2.fq -m target.vcf -r hg19.fa
使用 bam/fill
如果希望使用 bam/fill文件運(yùn)行 MutScan晰甚,可以使用 samtools
將它們轉(zhuǎn)換為FASTQ文件,使用 samtools fastq
命令决帖,最新版本的samtools fastq
數(shù)據(jù)支持 paired厕九。
- 如果你讀得太短,
MutScan
需要至少 50個(gè)長讀地回,不要使用它 - 如果你希望只使用一個(gè)讀取支持來提取突變扁远,請(qǐng)?jiān)诿钪刑砑?
-S 1
或者--support=1
2. 一些說明:
(1)相關(guān)的網(wǎng)站:
https://github.com/OpenGene/MutScan#get-mutscan
https://www.biostars.org/p/213988/
https://www.biostars.org/p/283969/#283980
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2024-6
(2)關(guān)于indel模式,創(chuàng)建vcf時(shí)的格式:
如果變異類型是insertion刻像,則直接把變異后的序列作為M序列畅买,如下圖中的紅色框內(nèi):
對(duì)于deletion類型:
(3)該軟件更像是驗(yàn)證變異位點(diǎn),不是call 變異细睡,是需要把已知的位點(diǎn)先填入的皮获。