snakemake 轉(zhuǎn)錄組上游pipeline

trim-galore + hisat2 + featureCounts

##工作的路徑別名,主要作用引用別名浴讯,省代碼帮非,同時(shí)更加簡潔
base_path = "/path/"
##所有樣本名的集合司蔬,用于后面的批量調(diào)用
tissue_type = {"1-ICM-P16_FRAS210019583-1r", "1-ICM-P17_FRAS210019584-2r", "1-ICM-P18_FRAS210019585-1r",
               "3-ICM-P16_FRAS210019580-1r", "3-ICM-P17_FRAS210019581-1r", "3-ICM-P18_FRAS210019582-2r",
               "IPS-4-P19_FRAS210019586-1r", "IPS-4-P20_FRAS210019587-2r", "IPS-4-P21_FRAS210019588-1r",
               "X-2-P5_FRAS210019577-1r", "X-2-P6_FRAS210019578-1r", "X-2-P7_FRAS210019579-1r", "OFC_FRAS210019589-2r"}

hisat2_index = "/path/to/hisat2_genome/genome"
annotation_gtf = "/path/to/GCF_002742125.1_Oar_rambouillet_v1.0_genomic.gff"

# 構(gòu)建索引
# hisat2-build -p 20 genome.fa genome

rule all:
    input:
        expand("{base_path}/bam/{tissue_type}_hisat_sorted.bam",
            base_path=base_path, tissue_type=tissue_type),
        expand("{base_path}/bam/{tissue_type}_hisat_sorted.bam.bai",
            base_path=base_path, tissue_type=tissue_type),
        expand("{base_path}/count/counts.txt", base_path=base_path),


# --quality <int>: 設(shè)定Phred quality score閾值,默認(rèn)為20棚愤。
# --phred33: 選擇-phred33或者-phred64,表示測序平臺(tái)使用的Phred quality score。
# --adapter: 輸入adapter序列徘溢。也可以不輸入,Trim Galore!會(huì)自動(dòng)尋找可能性最高的平臺(tái)對應(yīng)的adapter捆探。自動(dòng)搜選的平臺(tái)三個(gè)然爆,
# 也直接顯式輸入這三種平臺(tái),即--illumina黍图、--nextera和--small_rna曾雕。
# --stringency <int>: 設(shè)定可以忍受的前后adapter重疊的堿基數(shù),默認(rèn)為1(非持唬苛刻)剖张。可以適度放寬揩环,因?yàn)楹笠粋€(gè)adapter幾乎不可能被測序儀讀到搔弄。
# --length <int>: 設(shè)定輸出reads長度閾值,小于設(shè)定值會(huì)被拋棄丰滑。
rule trim_galore:
    input:
        "{base_path}/raw/{tissue_type}_{rep_num}_1.fq.gz",
        "{base_path}/raw/{tissue_type}_{rep_num}_2.fq.gz"
    output:
        "{base_path}/clean/{tissue_type}_{rep_num}_1.clean.fq.gz",
        "{base_path}/clean/{tissue_type}_{rep_num}_2.clean.fq.gz"
    log:
        "{base_path}/clean/{tissue_type}_{rep_num}.log"
    shell:
        "trim_galore -q 20 --phred33 --length 50 -e 0.1 --stringency 3 \
        -o {output[0]} {output[1]} {input[0]} {input[1]} > {log} 2>&1"


# -p <int>: 線程數(shù)目
# -x <string>: 參考基因組索引的basename顾犹,即前綴名
# -1 <string>: 雙端測序的read1 list ,若為list褒墨,使用逗號(hào)隔開炫刷,名字與2要匹配,如-1 flyA_1.fq,flyB_1.fq
# -2 <string>: 雙端測序的read2 list 郁妈,若為list柬唯,使用逗號(hào)隔開,名字與1要匹配圃庭,如-2 flyA_2.fq,flyB_2.fq
# -S <string>: SAM寫入的文件名锄奢,默認(rèn)寫入到標(biāo)準(zhǔn)輸出中
# --dta: 注意J纭!拘央!在下游使用stringtie組裝的時(shí)候一定要在hisat中設(shè)置這個(gè)參數(shù)M科ā!灰伟!
rule hisat2:
    input:
        "{base_path}/clean/{tissue_type}_1.clean.fq.gz",
        "{base_path}/clean/{tissue_type}_2.clean.fq.gz"
    output:
        temp("{base_path}/bam/{tissue_type}_hisat.sam")
    log:
        "{base_path}/bam/{tissue_type}_hisat.log"
    threads:
        8
    shell:
        "hisat2 -p 8 -x {hisat2_index} -1 {input[0]} -2 {input[1]} -S {output[0]} 1>{log} 2>&1"


# -b output BAM: 該參數(shù)設(shè)置輸出 BAM 格式拆又,默認(rèn)下輸出是 SAM 格式文件
# -h print header for the output: 默認(rèn)下輸出的文件不帶 header,該參數(shù)設(shè)定輸出文件時(shí)帶 header 信息
# -S input is SAM: 默認(rèn)下輸入是 BAM 文件栏账,若是輸入是 SAM 文件帖族,則最好加該參數(shù),否則有時(shí)候會(huì)報(bào)錯(cuò)挡爵。
# -@ Number of additional threads to use [0]: 指使用的線程數(shù)
rule sam2bam:
    input:
        "{base_path}/bam/{tissue_type}_hisat.sam"
    output:
        temp("{base_path}/bam/{tissue_type}_hisat.bam")
    threads:
        8
    shell:
        "samtools view -b -S -h -@ 8 {input[0]} > {output[0]}"


# -@ <int>: 指使用的線程數(shù)
# -o <string>: 輸出文件的名字竖般,輸出文件的內(nèi)容為read 的統(tǒng)計(jì)數(shù)目
rule bam_sort:
    input:
        "{base_path}/bam/{tissue_type}_hisat.bam"
    output:
        "{base_path}/bam/{tissue_type}_hisat_sorted.bam"
    log:
        "{base_path}/bam/{tissue_type}_bam_sort.log"
    threads:
        8
    shell:
        "samtools sort -@ 8 -o {output[0]} {input[0]} 1>{log} 2>&1"


rule bam_index:
    input:
        "{base_path}/bam/{tissue_type}_hisat_sorted.bam"
    output:
        "{base_path}/bam/{tissue_type}_hisat_sorted.bam.bai"
    shell:
        "samtools index {input[0]} {output[0]}"


# -p: 只能用在paired-end的情況中,會(huì)統(tǒng)計(jì)fragment而不統(tǒng)計(jì)read
# -T <int>: 線程數(shù)目茶鹃,1~32
# -t <string>: 設(shè)置feature-type涣雕,-t指定的必須是gtf中有的feature,同時(shí)read只有落到這些feature上才會(huì)被統(tǒng)計(jì)到闭翩,默認(rèn)是“exon”
# -g <string>: 當(dāng)參考的gtf提供的時(shí)候挣郭,我們需要提供一個(gè)id identifier 來將feature水平的統(tǒng)計(jì)匯總為meta-feature水平的統(tǒng)計(jì),
# 默認(rèn)為gene_id疗韵,注意兑障!選擇gtf中提供的id identifier!!!

# -a <string>: 參考gtf文件名,支持Gzipped文件格式
# -o <string>: 輸出文件的名字蕉汪,輸出文件的內(nèi)容為read 的統(tǒng)計(jì)數(shù)目
rule featureCounts:
    input:
        expand("{base_path}/bam/{tissue_type}_hisat_sorted.bam", base_path=base_path,
            tissue_type=tissue_type)
    output:
        "{base_path}/count/counts.txt"
    log:
        "{base_path}/count/featureCounts.log"
    threads:
        8
    shell:
        "ls {base_path}/bam/*_hisat_sorted.bam | xargs featureCounts -a {annotation_gtf} -o {output[0]} \
        -p -T 8 -F GFF -t gene -g ID 1>{log} 2>&1"
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末旺垒,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子肤无,更是在濱河造成了極大的恐慌先蒋,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,366評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宛渐,死亡現(xiàn)場離奇詭異竞漾,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)窥翩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門业岁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人寇蚊,你說我怎么就攤上這事笔时。” “怎么了仗岸?”我有些...
    開封第一講書人閱讀 165,689評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵允耿,是天一觀的道長借笙。 經(jīng)常有香客問我,道長较锡,這世上最難降的妖魔是什么业稼? 我笑而不...
    開封第一講書人閱讀 58,925評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮蚂蕴,結(jié)果婚禮上低散,老公的妹妹穿的比我還像新娘。我一直安慰自己骡楼,他們只是感情好熔号,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鸟整,像睡著了一般引镊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上吃嘿,一...
    開封第一講書人閱讀 51,727評(píng)論 1 305
  • 那天祠乃,我揣著相機(jī)與錄音梦重,去河邊找鬼兑燥。 笑死,一個(gè)胖子當(dāng)著我的面吹牛琴拧,可吹牛的內(nèi)容都是我干的降瞳。 我是一名探鬼主播,決...
    沈念sama閱讀 40,447評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼蚓胸,長吁一口氣:“原來是場噩夢啊……” “哼挣饥!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起沛膳,我...
    開封第一講書人閱讀 39,349評(píng)論 0 276
  • 序言:老撾萬榮一對情侶失蹤扔枫,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后锹安,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體短荐,經(jīng)...
    沈念sama閱讀 45,820評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評(píng)論 3 337
  • 正文 我和宋清朗相戀三年叹哭,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了忍宋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,127評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡风罩,死狀恐怖糠排,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情超升,我是刑警寧澤入宦,帶...
    沈念sama閱讀 35,812評(píng)論 5 346
  • 正文 年R本政府宣布哺徊,位于F島的核電站,受9級(jí)特大地震影響云石,放射性物質(zhì)發(fā)生泄漏唉工。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評(píng)論 3 331
  • 文/蒙蒙 一汹忠、第九天 我趴在偏房一處隱蔽的房頂上張望淋硝。 院中可真熱鬧,春花似錦宽菜、人聲如沸谣膳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽继谚。三九已至,卻和暖如春阵幸,著一層夾襖步出監(jiān)牢的瞬間花履,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評(píng)論 1 272
  • 我被黑心中介騙來泰國打工挚赊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留诡壁,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,388評(píng)論 3 373
  • 正文 我出身青樓荠割,卻偏偏與公主長得像妹卿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子蔑鹦,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評(píng)論 2 355