1 比對(duì)的是:使用idba_ud拼接的AER314-4raw_data基因組與轉(zhuǎn)錄組數(shù)據(jù)经瓷。
2 bowtie2做index(bowtie2使用conda安裝)
建索引:bowtie2-build AER314-4_scaffold.fa AER314-4_scaffold.fa
3 reads mapping到參考基因組——tophat2軟件:基于bowtie2(tophat安裝見(jiàn)軟件安裝)
命令:tophat2 -p 12 -o AER314-4_output /home/test04/lyr/rna-seq/02align_out/AER314-4_scaffold.fa /home/test04/lyr/rna-seq/01data/YSH-qurRNA-42-314-4_L001_R1.fastq /home/test04/lyr/rna-seq/01data/YSH-qurRNA-42-314-4_L001_R2.fastq
4 然后就很順利的跑出來(lái)結(jié)果了
使用公司服務(wù)器败明,12個(gè)線程,大概五個(gè)小時(shí)就跑完啦逞姿。
5 cufflink
[?? Cufflinks輸出結(jié)果
cufflinks的輸入文件是sam或bam格式辞嗡。并且sam或bam格式的文件必須排好序。(The SAM file supplied to Cufflinksmustbe sorted by? ? ? ? ? reference position.)Tophat的輸出結(jié)果sam或bam已經(jīng)排好了序滞造。針對(duì)其他的未排序的sam或bam文件采用如下排序方式:
sort -k 3,3 -k 4,4n hits.sam > hits.sam.sorted
1. transcripts.gtf
該文件包含Cufflinks的組裝結(jié)果isoforms续室。前7列為標(biāo)準(zhǔn)的GTF格式,最后一列為attributes断部。其每一列的意義:
列數(shù)? 列的名稱? 例子? ? ? ? 描述
1? ? 序列名? ? chrX? ? ? ? 染色體或contig名; 2? ? 來(lái)源? ? ? Cufflinks? 產(chǎn)生該文件的程序名; 3? ? 類型? ? ? exon? ? ? ? 記錄的類型猎贴,一般是transcript或exon; 4? ? 起始? ? ? 1? ? ? ? ? 1-base的值; 5? ? 結(jié)束? ? ? 1000? ? ? ? 結(jié)束位置; 6? ? 得分? ? ? 1000? ? ? ? ; 7? ? 鏈? ? ? ? +? ? ? ? ? Cufflinks猜測(cè)isoform來(lái)自參考序列的那一條鏈,一般是'+','-'或'.';8? ? frame? ? .? ? ? ? ? Cufflinks不去預(yù)測(cè)起始或終止密碼子框的位置; 9? ? attributes? ...? ? ? 詳見(jiàn)下
每一個(gè)GTF記錄包含如下attributes:
Attribute? ? ? 例子? ? ? 描述
gene_idCUFF.1Cufflinks的gene id;transcript_idCUFF.1.1? Cufflinks的轉(zhuǎn)錄子 id; FPKM? ? ? ? ? 101.267? isoform水平上的豐度,FragmentsPerKilobase of exon model perMillion mapped fragments; frac? ? ? ? ? 0.7647? ? 保留著的一項(xiàng)蝴光,忽略即可她渴,以后可能會(huì)取消這個(gè);conf_lo? ? ? ? 0.07? ? ? isoform豐度的95%置信區(qū)間的下邊界,即 下邊界值 = FPKM * ( 1.0 - conf_lo );conf_hi? ? ? ? 0.1102? ? isoform豐度的95%置信區(qū)間的上邊界蔑祟,即 上邊界值 = FPKM * ( 1.0 + conf_hi ); cov? ? ? ? ? ? 100.765?計(jì)算整個(gè)transcript上read的覆蓋度;full_read_support? yes? 當(dāng)使用 RABT assembly 時(shí)趁耗,該選項(xiàng)報(bào)告所有的introns和exons是否完全被reads所覆蓋
2. ispforms.fpkm_tracking
isoforms(可以理解為gene的各個(gè)外顯子)的fpkm計(jì)算結(jié)果
3. genes.fpkm_tracking
gene的fpkm計(jì)算結(jié)果Cuffmerge簡(jiǎn)介
Cuffmerge將各個(gè)Cufflinks生成的transcripts.gtf文件融合稱為一個(gè)更加全面的transcripts注釋結(jié)果文件merged.gtf。以利于用Cuffdiff來(lái)分析基因差異表達(dá)疆虚。
2. 使用方法
$ cuffmerge [options]*
輸入文件為一個(gè)文本文件苛败,是包含著GTF文件路徑的list。常用例子:
$ cuffmerge -o ./merged_asm -p 8 assembly_list.txt
3. 使用參數(shù)
-h | --help
-o? default: ./merged_asm
將結(jié)果輸出至該文件夾径簿。
-g | --ref-gtf將該reference GTF一起融合到最終結(jié)果中罢屈。
-p | --num-threads? defautl: 1
使用的CPU線程數(shù)
-s | --ref-sequence /該參數(shù)指向基因組DNA序列。如果是一個(gè)文件夾篇亭,則每個(gè)contig則是一個(gè)fasta文件缠捌;如果是一個(gè)fasta文件,則所有的contigs都需要在里面译蒂。Cuffmerge將使用該ref-sequence來(lái)幫助對(duì)transfrags分類曼月,并排除repeats。比如transcripts包含一些小寫堿基的將歸類到repeats.? ]
cufflinks:
<1>命令:cufflinks -p 4 -o test_cuff /home/andengdi/lyr/rna-seq/02-align_out/test_output/accepted_hits.bam
流程及結(jié)果
5 用相同的方法將其他兩個(gè)樣本跑一遍柔昼。