call SNP from wheat RNA_seq

首先輸入文件格式如下下圖。

S2.png

代碼如下错邦，這個(gè)流程是根據(jù)sentieon提供的流程稍加改動(dòng)而來，這里不再對(duì)每一步進(jìn)行解釋型宙，請(qǐng)見諒撬呢，另外注意參考基因組要使用染色體分開的那個(gè)，直接整條染色體>500Mb,軟件不支持：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
__author__ = 'wheatomics'

import subprocess

with open('input.txt', 'r') as f:
    for line in f:
        line = line.strip().split()
        if len(line) > 4:
            sra1, day1, rg1, sra2, day2, rg2 = line
            print sra1, sra2
            proc = subprocess.Popen(['fastq-dump', '--split-3', '--helicos',  sra1 + '.sra'], shell=False)
            proc.wait()
            proc = subprocess.Popen(['fastq-dump', '--split-3', '--helicos', sra2 + '.sra'], shell=False)
            proc.wait()
            proc = subprocess.Popen('cat ' + sra2 + '_1.fastq' + ' >> ' + sra1 + '_1.fastq', shell=True)
            proc.wait()
            proc = subprocess.Popen('cat ' + sra2 + '_2.fastq' + ' >> ' + sra1 + '_2.fastq', shell=True)
            proc.wait()
            proc = subprocess.Popen(['shred', '-u', '-z', sra2 + '_1.fastq'], shell=False)
            proc.wait()
            proc = subprocess.Popen(['shred', '-u', '-z', sra2 + '_2.fastq'], shell=False)
            proc.wait()
        else:
            sra1, day1, rg1 = line
            proc = subprocess.Popen(['fastq-dump', '--split-3', '--helicos', sra1 + '.sra'], shell=False)
            proc.wait()
        proc = subprocess.Popen(
            ['STAR', '--twopassMode', 'Basic', '--genomeDir', '/data2/Fshare/FastaAndIndex/IWGSC_v1.0_STAR/',
             '--runThreadN', '10', '--limitSjdbInsertNsj', '5000000', '--outSAMtype', 'BAM', 'SortedByCoordinate', '--twopass1readsN', '-1',
             '--sjdbOverhang', '100', '--readFilesIn', sra1 + '_1.fastq', sra1 + '_2.fastq',
             '--outSAMattrRGline', 'ID:' + rg1, 'SM:' + rg1, 'PL:ILLUMINA'], shell=False)
        proc.wait()
        proc = subprocess.Popen(['mv', 'Aligned.sortedByCoord.out.bam', 'sorted.bam'], shell=False)
        proc.wait()
        proc = subprocess.Popen(['shred', '-u', '-z', sra1 + '_1.fastq'], shell=False)
        proc.wait()
        proc = subprocess.Popen(['shred', '-u', '-z', sra1 + '_2.fastq'], shell=False)
        proc.wait()
        proc = subprocess.Popen(['sentieon', 'util', 'index', 'sorted.bam'], shell=False)
        proc.wait()
        proc = subprocess.Popen(['sentieon', 'driver', '-r', '/data2/Fshare/FastaAndIndex/IWGSC_v1.0_STAR/IWGSC_v1.0_part.fasta',
                                 '-t', '10', '-i', 'sorted.bam', '--algo', 'MeanQualityByCycle', 'mq_metrics.txt',
                                 '--algo', 'QualDistribution', 'qd_metrics.txt', '--algo', 'GCBias', '--summary', 'gc_summary.txt',
                                 'gc_metrics.txt', '--algo', 'AlignmentStat', '--adapter_seq', "''", 'aln_metrics.txt',
                                 '--algo', 'InsertSizeMetricAlgo', 'is_metrics.txt'], shell=False)
        proc.wait()
        proc = subprocess.Popen(['sentieon', 'plot', 'metrics', '-o', rg1 + '-metrics-report.pdf', 'gc=gc_metrics.txt',
                                 'qd=qd_metrics.txt', 'mq=mq_metrics.txt', 'isize=is_metrics.txt'], shell=False)
        proc.wait()
        proc = subprocess.Popen(['sentieon', 'driver', '-t', '10', '-i', 'sorted.bam', '--algo', 'LocusCollector',
                                 '--fun', 'score_info', 'score.txt'], shell=False)
        proc.wait()
        proc = subprocess.Popen(['sentieon', 'driver', '-t', '10', '-i', 'sorted.bam', '--algo', 'Dedup', '--rmdup',
                                 '--score_info', 'score.txt', '--metrics', 'dedup_metrics.txt', 'deduped.bam'], shell=False)
        proc.wait()
        proc = subprocess.Popen(['sentieon', 'driver', '-r', '/data2/Fshare/FastaAndIndex/IWGSC_v1.0_STAR/IWGSC_v1.0_part.fasta',
                                 '-t', '10', '-i', 'deduped.bam', '--algo', 'RNASplitReadsAtJunction', '--reassign_mapq',
                                 '255:60', 'splitted.bam'], shell=False)
        proc.wait()
        proc = subprocess.Popen(['sentieon', 'driver', '-r', '/data2/Fshare/FastaAndIndex/IWGSC_v1.0_STAR/IWGSC_v1.0_part.fasta',
                                 '-t', '10', '-i', 'splitted.bam', '--algo', 'Haplotyper',
                                 '--trim_soft_clip', '--emit_mode', 'gvcf', '--emit_conf', '20', '--call_conf', '20',
                                  rg1 + 'g.vcf.gz'], shell=False)
        proc.wait()

最后合并gvcf生成vcf
sentieon driver -r /data2/Fshare/FastaAndIndex/IWGSC_v1.0_STAR/IWGSC_v1.0_part.fasta -t 10 --algo GVCFtyper MS1_rna_seq.vcf *g.vcf.gz

最后編輯于：2017.12.11 14:49:20

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末妆兑，一起剝皮案震驚了整個(gè)濱河市魂拦，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌搁嗓，老刑警劉巖芯勘，帶你破解...
沈念sama閱讀 211,265評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異腺逛，居然都是意外死亡荷愕，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,078評(píng)論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門棍矛，熙熙樓的掌柜王于貴愁眉苦臉地迎上來安疗，“玉大人，你說我怎么就攤上這事够委〖隼啵” “怎么了？”我有些...
開封第一講書人閱讀 156,852評(píng)論 0贊 347
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵慨绳，是天一觀的道長掉冶。經(jīng)常有香客問我，道長脐雪，這世上最難降的妖魔是什么厌小？我笑而不...
開封第一講書人閱讀 56,408評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮战秋，結(jié)果婚禮上璧亚，老公的妹妹穿的比我還像新娘。我一直安慰自己脂信，他們只是感情好癣蟋，可當(dāng)我...
茶點(diǎn)故事閱讀 65,445評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著狰闪，像睡著了一般疯搅。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上埋泵，一...
開封第一講書人閱讀 49,772評(píng)論 1贊 290
城市分裂傳說
那天幔欧，我揣著相機(jī)與錄音罪治，去河邊找鬼。笑死礁蔗，一個(gè)胖子當(dāng)著我的面吹牛觉义，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播浴井，決...
沈念sama閱讀 38,921評(píng)論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼晒骇，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了磺浙？” 一聲冷哼從身側(cè)響起洪囤，我...
開封第一講書人閱讀 37,688評(píng)論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎屠缭，沒想到半個(gè)月后箍鼓，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,130評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡呵曹，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,467評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了何暮。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片奄喂。...
茶點(diǎn)故事閱讀 38,617評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖海洼，靈堂內(nèi)的尸體忽然破棺而出跨新，到底是詐尸還是另有隱情，我是刑警寧澤坏逢，帶...
沈念sama閱讀 34,276評(píng)論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布域帐，位于F島的核電站，受9級(jí)特大地震影響是整，放射性物質(zhì)發(fā)生泄漏肖揣。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,882評(píng)論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一浮入、第九天我趴在偏房一處隱蔽的房頂上張望龙优。院中可真熱鬧，春花似錦事秀、人聲如沸彤断。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,740評(píng)論 0贊 21
一樁弒父案易迹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽宰衙。三九已至，卻和暖如春睹欲，著一層夾襖步出監(jiān)牢的瞬間供炼，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,967評(píng)論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留劲蜻，地道東北人陆淀。一個(gè)月前我還...
沈念sama閱讀 46,315評(píng)論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像先嬉，于是被迫代替她去往敵國和親轧苫。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,486評(píng)論 2贊 348

call SNP from wheat RNA_seq

推薦閱讀更多精彩內(nèi)容