表達(dá)定量
1. 處理原始比對(duì)文件
- 利用 picard / samtools
- 將 sam 格式轉(zhuǎn)換為 bam 格式
- 對(duì) bam 文件進(jìn)行排序
- 去除比對(duì)得分較低的序列
- 如果需要歇攻,可以去除重復(fù) reads
2. STAR + RSEM (先比對(duì),再定量轩娶,耗時(shí)長(zhǎng))
- 輸出結(jié)果可以選擇轉(zhuǎn)錄本定量或者基因定量
- 定量單位包括 feature count, FPKM, TPM
- 操作相對(duì)復(fù)雜
3. STAR + HTSeq (先比對(duì)疑务,再定量沾凄,耗時(shí)長(zhǎng))
- 輸出結(jié)果為原始 read count
- 結(jié)果可用于差異表達(dá)分析
- 操作相對(duì)簡(jiǎn)單
#htseq-count
htseq-count -r pos -m union -f bam -s no \
-q 03align_out/sample2Aligned.sortedByCoord.out.bam > 05htseq_out/sample2.htseq.out
4. Kallisto (free-alignment) (只定量,不比對(duì))
- 速度快知允,省內(nèi)存
- 基于轉(zhuǎn)錄本定量
- 不產(chǎn)生 bam 文件撒蟀,不方便其他后續(xù)分析
5. STAR + RSEM 實(shí)例演示
- 準(zhǔn)備定量分析所需文件
# rsem prepare reference:建立參照基因組
rsem-prepare-reference --gtf 00ref/Araport11_GFF3_genes_transposons.201606.gtf \
00ref/TAIR10_Chr.all.fasta \
arab_RSEM/arab_rsem
- 利用STAR結(jié)果進(jìn)行分析定量
rsem-calculate-expression --paired-end --no-bam-output \
--alignments -p 5 \
-q 03align_out/sample2Aligned.toTranscriptome.out.bam \
arab_RSEM/arab_rsem \
04rsem_out/sample2_rsem
6. Kallisto 演示
- 利用轉(zhuǎn)錄本參考序列文件構(gòu)建索引
mkdir arab_kallisto
cd arab_kallisto
kallisto index -i arab_kallisto ../arab_RSEM/arab_rsem.transcripts.fa
kallisto運(yùn)行結(jié)果:產(chǎn)生了54.4 million 個(gè)k-mer
- 進(jìn)行無比對(duì)定量分析
#定量:quant: 定量模式;-i:index文件廊镜;-o:輸出文件
kallisto quant -i arab_kallisto/arab_kallisto -o 05kallisto_out/sample2 \
02clean_data/sample2_paired_clean_R1.fastq.gz 02clean_data/sample2_paired_clean_R2.fastq.gz #輸入文件牙肝,即原始數(shù)據(jù),不需bam格式
運(yùn)行結(jié)果