RNA-seq :TopHat2 + Cufflinks分析流程

1吮炕、測(cè)序數(shù)據(jù)質(zhì)量控制:fastqc軟件

1)使用方法:/life/rjian/software/fastQC/FastQC/fastqc -o/life/rjian/data/liyan/filename_fastqc\filename.fq >>filename.log

2)參數(shù)說(shuō)明:-o:輸出文件所在目錄,并且是已經(jīng)存在的目錄,如:filename_fastqc

--noextract:不解壓縮輸出文件

最后加上fastq文件:filename.fq;重定向結(jié)果到日志文件:filename.log,以便查看祝谚。

filename:表示是一個(gè)樣品的一個(gè)生物學(xué)重復(fù),一般有多個(gè)樣品,每個(gè)樣品有多個(gè)重復(fù)昵骤,如:C1_R1;如果是雙端測(cè)序則后面會(huì)加上數(shù)字树碱,如:filename_1.fq和filename_2.fq

2、readstrim工具——trimmomatic

1)使用方法:java -jar/life/rjian/software/Trimmomatic-0.32/trimmomatic-0.32.jar SE-threads 5 \-phred33 -trimlog filename_trimmomatic.log filename.fqfilename_out.fq ILLUMINACLIP:adapter.fa:2:30:10 \SLIDINGWINDOW:4:15MINLEN:36

2)參數(shù)說(shuō)明:SE:指定單端測(cè)序变秦,PE:雙端測(cè)序

-threads:指定線程數(shù)

-phred33:指定fastq文件的質(zhì)量格式成榜,或者:-phred64

-trimlog:指定日志文件,后加上輸入和輸出文件

ILLUMINACLIP:adapter.fa:2:30:10:adapter.fa為adapter文件蹦玫,2:允許的最大mismatch數(shù)赎婚,30:palindrome模式下匹配堿基數(shù)閾值,10:simple模式下的匹配堿基數(shù)閾值

SLIDINGWINDOW:4:15 MINLEN:36:滑動(dòng)窗口的size是4個(gè)堿基,其平均堿基質(zhì)量小于15樱溉,則切除挣输。

MINLEN:36:最低reads長(zhǎng)度為36

3、bowtie2建立參考基因組的索引——bowtie2-build

1)使用方法: bowtie2-build<要生成的索引文件前綴名>福贞;比如:

nohup/home/cuckoo/software/bowtie2-2.2.3/bowtie2-build genome.fabowtie2index/genome>>bowtie2.log &

2)參數(shù)說(shuō)明:genome.fa是fasta文件撩嚼;

genome是要生成的索引文件的前綴名;

bowtie2index是一個(gè)文件夾挖帘,用來(lái)存放索引文件完丽,方便日后查看和使用;

注意:程序運(yùn)行完后genome.fa文件要放在bowtie2index索引目錄中肠套,tophat2軟件才能正確運(yùn)行舰涌。

4、reads mapping到參考基因組——tophat2軟件:基于bowtie2

1)使用方法:/home/cuckoo/software/tophat-2.0.12.Linux_x86_64/tophat2-p 8 -G \/home/cuckoo/data/liyan/train/genes.gtf -o filename_thout/\/home/cuckoo/data/liyan/train/bowtie2index/genome/home/cuckoo/data/liyan/train/filename.fq\>filenametophat.log

2)參數(shù)說(shuō)明:-p :指定線程數(shù)你稚,默認(rèn)為1

-G :指定已有的基因組注釋信息瓷耙,gtf或gff文件;

-o :指定輸出目錄刁赖,默認(rèn)為”./tophat_out“搁痛;

后面加上索引文件:與前面的bowtie2建立的索引相對(duì)應(yīng),只取前綴名宇弛。

最后加上fastq文件:filename.fq鸡典;如果是雙端測(cè)序則是filename_1.fq和filename_2.fq兩個(gè)文件。

5枪芒、轉(zhuǎn)錄本組裝——Cufflinks:Cufflinks是一套拼接轉(zhuǎn)錄本彻况,定量表達(dá)量。

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cufflinks-p 8 -o \filename_clout filename_thout/accepted_hits.bam>filename_cufflinks.log

2)參數(shù)說(shuō)明:-p :指定線程數(shù)舅踪;

-o :指定輸出文件所在目錄纽甘;

后面跟上Tophat2中生成的bam文件:

6、轉(zhuǎn)錄本合并——Cuffmerge

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffmerge-g genes.gtf -s\/home/cuckoo/data/liyan/train/bowtie2index/genome.fa -p 8assemblies.txt

2)參數(shù)說(shuō)明:-g :參考基因組注釋文件

-s :參考基因組序列文件

-p :指定線程數(shù)

-o :指定輸出文件merged.gtf所在目錄抽碌,默認(rèn)情況下是 merged_asm

最后assemblies.txt:一個(gè)包含每個(gè)樣品(重復(fù))拼接后的gtf文件的列表悍赢;如下:兩個(gè)文件分別是在上一步中生成的樣品的轉(zhuǎn)錄本注釋文件。

./s0924fb_clout/transcripts.gtf

./sCal27_clout/transcripts.gtf

7、基因和轉(zhuǎn)錄本表達(dá)定量——cuffquant

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffquant-o sample_quant -p 8 \-u AT.gffsample_thout/accepted_hits.bam

2)參數(shù)說(shuō)明:-o:指定結(jié)果輸出目錄:包含結(jié)果文件abundances.cxb

-p :指定線程數(shù)

-u :指定對(duì)比對(duì)上基因組上多個(gè)位置的reads進(jìn)行統(tǒng)計(jì)分析左权。

加上參考基因組注釋文件:AT.gff

最后加上Tophat2產(chǎn)生的該樣本的比對(duì)結(jié)果文件:accepted_hits.bam

8皮胡、基因和轉(zhuǎn)錄本表達(dá)水平標(biāo)準(zhǔn)化——cuffnorm

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffnorm-o cuffnorm_out -p 8 \-L 0h_1,12h_CK1,12h_E1 AT.gff/data/disk2/liyan/AT/0h_1_quant/abundances.cxb\/data/disk2/liyan/AT/12h_CK1_quant/abundances.cxb/data/disk2/liyan/AT/12h_E1_quant/abundances.cxb

2)參數(shù)說(shuō)明:-o :指定結(jié)果輸出目錄

-p :指定線程數(shù)

-L :為每個(gè)樣本(處理)作標(biāo)記

–total-hits-norm :計(jì)算所有的fragments,包括與所有的參考轉(zhuǎn)錄本不容的赏迟,默認(rèn)不激活屡贺。

–compatible-hits-norm :只計(jì)算與一些參考轉(zhuǎn)錄本相容的fragments,默認(rèn)激活。

加上參考基因組注釋文件:AT.gff

最后加上每個(gè)樣本(處理)的cuffquant產(chǎn)生的abundances.cxb文件锌杀,樣本的每個(gè)重復(fù)之間用逗號(hào)”烹笔,“分割;樣本之間則由空格分割抛丽。

9谤职、轉(zhuǎn)錄本差異表達(dá)分析——Cuffdiff:分析差異表達(dá)基因的工具。

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffdiff-o diff_out -b \bowtie2index/genome.fa -p 8 -L C1,C2 -umerged_asm/merged.gtf ./C1_thout/accepted_hits.bam\./C2_thout/accepted_hits.bam

2)參數(shù)說(shuō)明:-o :指定輸出目錄

-b :參考基因組序列文件

-p :指定線程數(shù)

-L :為每個(gè)樣本標(biāo)上名稱-u:-u命令指cuffdiff對(duì)回帖的基因組中多個(gè)位置的read進(jìn)行一個(gè)初步的估計(jì)亿鲜,然后加權(quán)分配到各個(gè)基因組位置允蜈。而不是簡(jiǎn)單的平均分配,其功能與Cufflinks中的u命令相同蒿柳。

加上合并后的轉(zhuǎn)錄本:merged.gtf;由cuffmerge產(chǎn)生饶套。

最后是TopHat產(chǎn)生的樣本的bam文件,如果一個(gè)樣本有多個(gè)生物學(xué)重復(fù)垒探,那么我們需要提供每個(gè)重復(fù)的bam文件妓蛮,文件名之間以逗號(hào)隔開并且樣本名應(yīng)與-L參數(shù)相對(duì)應(yīng)。

10圾叼、轉(zhuǎn)錄本與參考基因組注釋文件比較——Cuffcompare蛤克,發(fā)現(xiàn)新基因,轉(zhuǎn)錄本

1)使用方法:cuffcompare -i gtf_out_list.txt -r genes.gtf

2)參數(shù)說(shuō)明:-i :輸入文件夷蚊,是cufflinks組裝轉(zhuǎn)錄本的結(jié)果文件——transcripts.gtf的列表构挤;

其中g(shù)tf_out_list.txt是由find . -name transcripts.gtf> gtf_out_list.txt命令產(chǎn)生的集合了所有樣本轉(zhuǎn)錄本文件的列表。

-o :指定輸出文件的前綴惕鼓,如果沒(méi)有指定默認(rèn)為cuffcmp筋现。

-r :指定參考基因組注釋文件。

注:結(jié)果文件大部分位于cmp_out(自己先建立好)目錄中箱歧,統(tǒng)計(jì)匯總所有轉(zhuǎn)錄本的比較情況矾飞;而單個(gè)樣本轉(zhuǎn)錄本的比較結(jié)果文件:cuffcmp.transcripts.gtf.tmap和 cuffcmp.transcripts.gtf.refmap分別位于樣本的cufflinks運(yùn)行結(jié)果transcripts.gtf所在目錄中,統(tǒng)計(jì)單個(gè)樣本的比較情況以鑒定新轉(zhuǎn)錄本呀邢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末洒沦,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子驼鹅,更是在濱河造成了極大的恐慌微谓,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件输钩,死亡現(xiàn)場(chǎng)離奇詭異豺型,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)买乃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門姻氨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人剪验,你說(shuō)我怎么就攤上這事肴焊。” “怎么了功戚?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵娶眷,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我啸臀,道長(zhǎng)届宠,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任乘粒,我火速辦了婚禮豌注,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘灯萍。我一直安慰自己轧铁,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布旦棉。 她就那樣靜靜地躺著齿风,像睡著了一般。 火紅的嫁衣襯著肌膚如雪绑洛。 梳的紋絲不亂的頭發(fā)上聂宾,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音诊笤,去河邊找鬼系谐。 笑死,一個(gè)胖子當(dāng)著我的面吹牛讨跟,可吹牛的內(nèi)容都是我干的纪他。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼晾匠,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼茶袒!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起凉馆,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤薪寓,失蹤者是張志新(化名)和其女友劉穎亡资,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體向叉,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡锥腻,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了母谎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瘦黑。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖奇唤,靈堂內(nèi)的尸體忽然破棺而出幸斥,到底是詐尸還是另有隱情,我是刑警寧澤咬扇,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布甲葬,位于F島的核電站,受9級(jí)特大地震影響懈贺,放射性物質(zhì)發(fā)生泄漏演顾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一隅居、第九天 我趴在偏房一處隱蔽的房頂上張望钠至。 院中可真熱鬧,春花似錦胎源、人聲如沸棉钧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)宪卿。三九已至,卻和暖如春万栅,著一層夾襖步出監(jiān)牢的瞬間佑钾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工烦粒, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留休溶,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓扰她,卻偏偏與公主長(zhǎng)得像兽掰,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子徒役,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容