1吮炕、測(cè)序數(shù)據(jù)質(zhì)量控制:fastqc軟件
1)使用方法:/life/rjian/software/fastQC/FastQC/fastqc -o/life/rjian/data/liyan/filename_fastqc\filename.fq >>filename.log
2)參數(shù)說(shuō)明:-o:輸出文件所在目錄,并且是已經(jīng)存在的目錄,如:filename_fastqc
--noextract:不解壓縮輸出文件
最后加上fastq文件:filename.fq;重定向結(jié)果到日志文件:filename.log,以便查看祝谚。
filename:表示是一個(gè)樣品的一個(gè)生物學(xué)重復(fù),一般有多個(gè)樣品,每個(gè)樣品有多個(gè)重復(fù)昵骤,如:C1_R1;如果是雙端測(cè)序則后面會(huì)加上數(shù)字树碱,如:filename_1.fq和filename_2.fq
2、readstrim工具——trimmomatic
1)使用方法:java -jar/life/rjian/software/Trimmomatic-0.32/trimmomatic-0.32.jar SE-threads 5 \-phred33 -trimlog filename_trimmomatic.log filename.fqfilename_out.fq ILLUMINACLIP:adapter.fa:2:30:10 \SLIDINGWINDOW:4:15MINLEN:36
2)參數(shù)說(shuō)明:SE:指定單端測(cè)序变秦,PE:雙端測(cè)序
-threads:指定線程數(shù)
-phred33:指定fastq文件的質(zhì)量格式成榜,或者:-phred64
-trimlog:指定日志文件,后加上輸入和輸出文件
ILLUMINACLIP:adapter.fa:2:30:10:adapter.fa為adapter文件蹦玫,2:允許的最大mismatch數(shù)赎婚,30:palindrome模式下匹配堿基數(shù)閾值,10:simple模式下的匹配堿基數(shù)閾值
SLIDINGWINDOW:4:15 MINLEN:36:滑動(dòng)窗口的size是4個(gè)堿基,其平均堿基質(zhì)量小于15樱溉,則切除挣输。
MINLEN:36:最低reads長(zhǎng)度為36
3、bowtie2建立參考基因組的索引——bowtie2-build
1)使用方法: bowtie2-build<要生成的索引文件前綴名>福贞;比如:
nohup/home/cuckoo/software/bowtie2-2.2.3/bowtie2-build genome.fabowtie2index/genome>>bowtie2.log &
2)參數(shù)說(shuō)明:genome.fa是fasta文件撩嚼;
genome是要生成的索引文件的前綴名;
bowtie2index是一個(gè)文件夾挖帘,用來(lái)存放索引文件完丽,方便日后查看和使用;
注意:程序運(yùn)行完后genome.fa文件要放在bowtie2index索引目錄中肠套,tophat2軟件才能正確運(yùn)行舰涌。
4、reads mapping到參考基因組——tophat2軟件:基于bowtie2
1)使用方法:/home/cuckoo/software/tophat-2.0.12.Linux_x86_64/tophat2-p 8 -G \/home/cuckoo/data/liyan/train/genes.gtf -o filename_thout/\/home/cuckoo/data/liyan/train/bowtie2index/genome/home/cuckoo/data/liyan/train/filename.fq\>filenametophat.log
2)參數(shù)說(shuō)明:-p :指定線程數(shù)你稚,默認(rèn)為1
-G :指定已有的基因組注釋信息瓷耙,gtf或gff文件;
-o :指定輸出目錄刁赖,默認(rèn)為”./tophat_out“搁痛;
后面加上索引文件:與前面的bowtie2建立的索引相對(duì)應(yīng),只取前綴名宇弛。
最后加上fastq文件:filename.fq鸡典;如果是雙端測(cè)序則是filename_1.fq和filename_2.fq兩個(gè)文件。
5枪芒、轉(zhuǎn)錄本組裝——Cufflinks:Cufflinks是一套拼接轉(zhuǎn)錄本彻况,定量表達(dá)量。
1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cufflinks-p 8 -o \filename_clout filename_thout/accepted_hits.bam>filename_cufflinks.log
2)參數(shù)說(shuō)明:-p :指定線程數(shù)舅踪;
-o :指定輸出文件所在目錄纽甘;
后面跟上Tophat2中生成的bam文件:
6、轉(zhuǎn)錄本合并——Cuffmerge
1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffmerge-g genes.gtf -s\/home/cuckoo/data/liyan/train/bowtie2index/genome.fa -p 8assemblies.txt
2)參數(shù)說(shuō)明:-g :參考基因組注釋文件
-s :參考基因組序列文件
-p :指定線程數(shù)
-o :指定輸出文件merged.gtf所在目錄抽碌,默認(rèn)情況下是 merged_asm
最后assemblies.txt:一個(gè)包含每個(gè)樣品(重復(fù))拼接后的gtf文件的列表悍赢;如下:兩個(gè)文件分別是在上一步中生成的樣品的轉(zhuǎn)錄本注釋文件。
./s0924fb_clout/transcripts.gtf
./sCal27_clout/transcripts.gtf
7、基因和轉(zhuǎn)錄本表達(dá)定量——cuffquant
1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffquant-o sample_quant -p 8 \-u AT.gffsample_thout/accepted_hits.bam
2)參數(shù)說(shuō)明:-o:指定結(jié)果輸出目錄:包含結(jié)果文件abundances.cxb
-p :指定線程數(shù)
-u :指定對(duì)比對(duì)上基因組上多個(gè)位置的reads進(jìn)行統(tǒng)計(jì)分析左权。
加上參考基因組注釋文件:AT.gff
最后加上Tophat2產(chǎn)生的該樣本的比對(duì)結(jié)果文件:accepted_hits.bam
8皮胡、基因和轉(zhuǎn)錄本表達(dá)水平標(biāo)準(zhǔn)化——cuffnorm
1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffnorm-o cuffnorm_out -p 8 \-L 0h_1,12h_CK1,12h_E1 AT.gff/data/disk2/liyan/AT/0h_1_quant/abundances.cxb\/data/disk2/liyan/AT/12h_CK1_quant/abundances.cxb/data/disk2/liyan/AT/12h_E1_quant/abundances.cxb
2)參數(shù)說(shuō)明:-o :指定結(jié)果輸出目錄
-p :指定線程數(shù)
-L :為每個(gè)樣本(處理)作標(biāo)記
–total-hits-norm :計(jì)算所有的fragments,包括與所有的參考轉(zhuǎn)錄本不容的赏迟,默認(rèn)不激活屡贺。
–compatible-hits-norm :只計(jì)算與一些參考轉(zhuǎn)錄本相容的fragments,默認(rèn)激活。
加上參考基因組注釋文件:AT.gff
最后加上每個(gè)樣本(處理)的cuffquant產(chǎn)生的abundances.cxb文件锌杀,樣本的每個(gè)重復(fù)之間用逗號(hào)”烹笔,“分割;樣本之間則由空格分割抛丽。
9谤职、轉(zhuǎn)錄本差異表達(dá)分析——Cuffdiff:分析差異表達(dá)基因的工具。
1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffdiff-o diff_out -b \bowtie2index/genome.fa -p 8 -L C1,C2 -umerged_asm/merged.gtf ./C1_thout/accepted_hits.bam\./C2_thout/accepted_hits.bam
2)參數(shù)說(shuō)明:-o :指定輸出目錄
-b :參考基因組序列文件
-p :指定線程數(shù)
-L :為每個(gè)樣本標(biāo)上名稱-u:-u命令指cuffdiff對(duì)回帖的基因組中多個(gè)位置的read進(jìn)行一個(gè)初步的估計(jì)亿鲜,然后加權(quán)分配到各個(gè)基因組位置允蜈。而不是簡(jiǎn)單的平均分配,其功能與Cufflinks中的u命令相同蒿柳。
加上合并后的轉(zhuǎn)錄本:merged.gtf;由cuffmerge產(chǎn)生饶套。
最后是TopHat產(chǎn)生的樣本的bam文件,如果一個(gè)樣本有多個(gè)生物學(xué)重復(fù)垒探,那么我們需要提供每個(gè)重復(fù)的bam文件妓蛮,文件名之間以逗號(hào)隔開并且樣本名應(yīng)與-L參數(shù)相對(duì)應(yīng)。
10圾叼、轉(zhuǎn)錄本與參考基因組注釋文件比較——Cuffcompare蛤克,發(fā)現(xiàn)新基因,轉(zhuǎn)錄本
1)使用方法:cuffcompare -i gtf_out_list.txt -r genes.gtf
2)參數(shù)說(shuō)明:-i :輸入文件夷蚊,是cufflinks組裝轉(zhuǎn)錄本的結(jié)果文件——transcripts.gtf的列表构挤;
其中g(shù)tf_out_list.txt是由find . -name transcripts.gtf> gtf_out_list.txt命令產(chǎn)生的集合了所有樣本轉(zhuǎn)錄本文件的列表。
-o :指定輸出文件的前綴惕鼓,如果沒(méi)有指定默認(rèn)為cuffcmp筋现。
-r :指定參考基因組注釋文件。
注:結(jié)果文件大部分位于cmp_out(自己先建立好)目錄中箱歧,統(tǒng)計(jì)匯總所有轉(zhuǎn)錄本的比較情況矾飞;而單個(gè)樣本轉(zhuǎn)錄本的比較結(jié)果文件:cuffcmp.transcripts.gtf.tmap和 cuffcmp.transcripts.gtf.refmap分別位于樣本的cufflinks運(yùn)行結(jié)果transcripts.gtf所在目錄中,統(tǒng)計(jì)單個(gè)樣本的比較情況以鑒定新轉(zhuǎn)錄本呀邢。