RNA-seq數(shù)據(jù)的上游處理及工具HISAT2; STAR; RSEM; featureCounts; Htseq-count; kallisto; salmon

歡迎批評(píng)指正

一蘑志、上游處理流程

上游處理步驟包括質(zhì)量檢測(cè)累奈、質(zhì)量控制、比對(duì)急但、定量^[2]澎媒，每一步處理數(shù)據(jù)的目的都是不同，也有相關(guān)的軟件與之對(duì)應(yīng)波桩。通過(guò)質(zhì)量檢測(cè)戒努，原始數(shù)據(jù)的各種問(wèn)題將會(huì)呈現(xiàn)出來(lái)，接下來(lái)的質(zhì)量控制就是為了解決原始數(shù)據(jù)的質(zhì)量問(wèn)題镐躲。比對(duì)是將reads比對(duì)到染色體或者基因储玫，并生成sam或者bam文件記錄比對(duì)情況以及質(zhì)量。定量既是統(tǒng)計(jì)比對(duì)到同一位置的reads萤皂，當(dāng)然并不是比對(duì)上就計(jì)數(shù)缘缚，還有一些其他的篩選條件，比如比對(duì)質(zhì)量過(guò)低或者比對(duì)到多個(gè)位置的reads就不能用來(lái)計(jì)數(shù)敌蚜。而免比對(duì)的定量軟件kallisto和salmon不會(huì)生成sam或bam文件而直接進(jìn)行定量桥滨，僅輸出定量文件。以上軟件都可以使用Conda安裝^[3]弛车。

二齐媒、處理工具

（一）質(zhì)量檢測(cè)軟件

用法：fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam]

例如：fastqc 01raw_data/sample1_1_R1.fastq.gz或者fastqc 01raw_data/*

[-f fastq|bam|sam ] 指需要質(zhì)量檢測(cè)的文件，可以是fastq文件纷跛，也可以是.gz喻括、bam或者sam文件。[-o output dir] 指定質(zhì)量報(bào)告生成的目錄贫奠，如果不指定唬血，將會(huì)在輸入文件所在目錄生成質(zhì)量報(bào)告html。

這份報(bào)告包括Basic Statistics唤崭、Per base sequence quality拷恨、Per tile sequence quality、Per sequence quality scores谢肾、Per base sequence content腕侄、Per sequence GC content、Per base N content、Sequence Length Distribution冕杠、Sequence Duplication Levels微姊、Overrepresented sequences、Adapter Content分预。Basic Statistics給出基本的統(tǒng)計(jì)信息兢交，如測(cè)序平臺(tái)、序列長(zhǎng)度笼痹、GC含量配喳、序列總數(shù)。根據(jù)Per base sequence quality得到序列每個(gè)堿基的測(cè)序質(zhì)量与倡，在質(zhì)量評(píng)分在28以上為良好界逛，意味著該位置的堿基錯(cuò)誤率小于1.59％。Adapter Content則給出接頭的含量纺座，如果有接頭存在息拜，則可以根據(jù)Overrepresented sequences給出的接頭信息在質(zhì)控階段選擇對(duì)應(yīng)的接頭文件^[4]。

質(zhì)檢報(bào)告數(shù)量不多還好净响，我們只需一個(gè)一個(gè)查看既可少欺，但是如果有幾十份呢？此時(shí)multiqc就派上了用場(chǎng)馋贤。multiqc本身沒有質(zhì)檢的能力赞别，只是將多個(gè)fastqc生成的html文件融合為一個(gè)html文件，這樣原本要查看幾十個(gè)html文件配乓，現(xiàn)在只需查看一個(gè)既可仿滔，極大提高了效率。

（二）質(zhì)量控制軟件

質(zhì)量控制階段使用的軟件是Trimmomatic犹芹。Trimmomatic 支持多線程崎页，可以快速的去除 Reads中的接頭，并根據(jù)堿基質(zhì)量值修剪Reads腰埂。軟件有SE和PE兩種模式飒焦，分別針對(duì)單端測(cè)序和雙端測(cè)序數(shù)據(jù)^[5]。

在PE模式下屿笼，輸入文件為樣本的Reads1和Reads2文件sample_R1.fastq.gz和sample_R2.fastq.gz牺荠，輸出文件一共有四個(gè)文件，分別是樣本Reads1的配對(duì)序列和未配對(duì)序列以及Reads2的配對(duì)序列和未配對(duì)序列驴一，所以對(duì)文件命名時(shí)也需要按照輸出文件的順序休雌，例如sample_paired_R1.clean.fastq.gz sample_unpaired_R1.clean.fastq.gz sample_paired_R2.clean.fastq.gz sample_unpaired_R2.clean.fastq。

Trimmomatic會(huì)按照所給參數(shù)的順序處理輸入文件蛔趴。一般以下參數(shù)順序進(jìn)行處理挑辆。

參數(shù)ILLUMINACLIP過(guò)濾 reads 中的接頭例朱，并決定是否去除反向互補(bǔ)的reads孝情；參數(shù)SLIDINGWINDOW從 reads 的 5' 端開始鱼蝉，進(jìn)行滑窗質(zhì)量過(guò)濾，切掉堿基質(zhì)量平均值低于閾值的滑窗箫荡；參數(shù)LEADING從 reads 的開頭切除質(zhì)量值低于閾值的堿基魁亦；參數(shù)TRAILING從 reads 的末尾開始切除質(zhì)量值低于閾值的堿基；參數(shù)MINLEN如果經(jīng)過(guò)剪切后 reads 的長(zhǎng)度低于閾值則丟棄這條 reads羔挡；參數(shù)AVGQUAL如果 reads 的平均堿基質(zhì)量值低于閾值則丟棄這條 reads洁奈；參數(shù)TOPHRED33 將 reads 的堿基質(zhì)量值體系轉(zhuǎn)為 phred-33；參數(shù)TOPHRED64將 reads 的堿基質(zhì)量值體系轉(zhuǎn)為 phred-64绞灼，現(xiàn)在基本上都是phred-33利术。

處理結(jié)束后，得到的就是sample_paired_R1.clean.fastq.gz sample_unpaired_R1.clean.fastq.gz低矮，sample_paired_R2.clean.fastq.gz sample_unpaired_R2.clean.fastq四個(gè)文件印叁。同時(shí)Trimmomatic也會(huì)給出一個(gè)處理報(bào)告，顯示配對(duì)reads和未配對(duì)reads所占百分比军掂。如果顯示配對(duì)reads超過(guò)90％轮蜕，那么在后續(xù)步驟中只需使用sample1_paired_R1.clean.fastq.gz和sample_paired_R1.clean.fastq.gz兩個(gè)文件。

（三）比對(duì)軟件

主要介紹HISAT2和STAR蝗锥。Tophat2團(tuán)隊(duì)不繼續(xù)更新Tophat2而開發(fā)了HISAT2跃洛，并推薦使用HISAT2，因?yàn)槠渌俣雀熘找椋瑑?nèi)存占用率更小汇竭，準(zhǔn)確率更高。而STAR更是ENCODE官方推薦的RNA-seq比對(duì)工具穴张。無(wú)論是HISAT2還是STAR细燎，對(duì)于Tophat2來(lái)說(shuō)都有很大的優(yōu)勢(shì)。而且綜合來(lái)講陆馁，STAR的綜合表現(xiàn)最好^[1]找颓。

HISAT2和STAR的使用步驟都是先構(gòu)建索引，再進(jìn)行比對(duì)叮贩。用基于一定算法構(gòu)建的索引文件進(jìn)行比對(duì)击狮，可以明顯減少比對(duì)所需的內(nèi)存和計(jì)算量，同時(shí)顯著提高比對(duì)的速度以及準(zhǔn)確率益老。

1彪蓬、HISAT2使用

（1）構(gòu)建索引

用法：hisat2-build [options]* <reference_in> <ht2_index_base>

<reference_in>是參考基因組或者參考轉(zhuǎn)錄本的路徑，<ht2_index_base>是輸出的索引文件所在的目錄以及前綴捺萌。[options]*指一些其他可選參數(shù)档冬，為-p指定線程數(shù)可以加快構(gòu)建索引的速度，其他參數(shù)默認(rèn)既可。

例如：hisat2-build -p 4 00ref/TAIR10.fasta 03hisat2_index/TAIR10

（2）比對(duì)

用法：hisat2 [options]* -x <ht2-idx> {-1 <m1> -2 <m2> | -U <r>} [-S <sam>]

<ht2-idx>指索引文件所在目錄和前綴酷誓。<m1>和<m2>指雙端測(cè)序中Reads1和Reads2文件披坏。

<r>指單端測(cè)序文件。根據(jù)自己的測(cè)序模式選擇<m1>和<m2>或者 <r>盐数。hisat2的輸出文件較單一棒拂，僅有一個(gè)sam文件，<sam>指定輸出的sam文件玫氢。[options]*提供了大量可選參數(shù)帚屉，大多數(shù)選擇默認(rèn)既可。這里需要注意我們的reads是否具有鏈特異性漾峡，如果有鏈特異性需要對(duì)參數(shù) --rna-strandness 進(jìn)行修改攻旦。同樣，可以為-p指定線程數(shù)生逸，以提高比對(duì)速率牢屋。

示例：hisat2 --rna-strandness FR -p 4 -x 03hisat2_index/TAIR10 -1 ./02clean_data/sample1_R1_paired_clean.fq.gz -2 ./02clean_data/sample1_R2_paired_clean.fq.gz
-S 04hisat2_out/sample1.sam

使用示例比對(duì)后，僅僅會(huì)得到一個(gè)無(wú)序的sam文件牺陶，為了方便定量伟阔，還需要使用samtools軟件將無(wú)序的sam文件轉(zhuǎn)為有序的壓縮文件bam。

示例：samtools view -b -S 04hisat2_out/sample1.sam > 05samtools_out/sample1.bam; samtools sort 05samtools_out/sample1.bam > 05samtools_out/sample1_sorted.bam

-b和-S指輸入文件是sam格式掰伸，輸出是bam皱炉，并用 > 將輸出內(nèi)容重定向到一個(gè)bam文件。samtools sort默認(rèn)是按照position排序狮鸭，如有需要可以加-n參數(shù)合搅，既可按照Reads的名字排序。

2歧蕉、STAR使用

（1）構(gòu)建索引

示例：  STAR --runThreadN 8 \

--runMode genomeGenerate \

--genomeDir 03star_index/ \

--genomeSAindexNbases 12 \

--genomeFastaFiles 00ref/TAIR10.fasta \

--sjdbGTFfile 00ref/TAIR10.gtf \

--sjdbOverhang 149

--runThreadN指定所用的線程數(shù)為8灾部；--runMode指定STAR要完成的動(dòng)作，默認(rèn)是alignReads惯退，所以這里需要指定為genomeGenerate以生成索引文件赌髓；--genomeDir指定索引文件的生成目錄；--genomeSAindexNbases指構(gòu)建的索引長(zhǎng)度催跪，默認(rèn)14锁蠕，建議取10-15。該值越大會(huì)消耗越多的內(nèi)存懊蒸，但是檢索的更快荣倾。但是對(duì)于小基因組來(lái)說(shuō)，不能太大骑丸，如果索引太長(zhǎng)就會(huì)造成索引總數(shù)少的問(wèn)題舌仍，所以這里選擇12妒貌。也可以通過(guò)(log2(GenomeLength)/2 - 1)計(jì)算得到；--genomeFastaFiles指定參考基因組铸豁；--sjdbGTFfile指定參考基因組的注釋文件灌曙，用于構(gòu)建可變剪接數(shù)據(jù)庫(kù)；--sjdbOverhang指定剪接點(diǎn)兩端的長(zhǎng)度推姻，默認(rèn)100平匈，建議取值 (mate_length - 1)框沟。mate_length在FASTQC給出的報(bào)告中可以查到藏古。

（2）比對(duì)

示例：  STAR --runThreadN 8 \

--genomeDir 03star_index/ \

--readFilesCommand zcat \

--readFilesIn ./02clean_data/sample1_R1_paired_clean.fq.gz  \

./02clean_data/sample1_R1_R2_paired_clean.fq.gz \

--outFileNamePrefix ./04star_out/sample1_R1 \

--outSAMtype BAM SortedByCoordinate \

--outBAMsortingThreadN 8 \

--quantMode TranscriptomeSAM GeneCounts

--runThreadN 指定所用線程為8；--genomeDir指索引文件所在位置忍燥；--readFilesCommand指對(duì)讀入文件進(jìn)行的處理拧晕，這里選擇zcat是指對(duì)讀入文件進(jìn)行解壓。--readFilesIn指定輸入文件梅垄，因?yàn)槲覀兊妮斎胛募?gz結(jié)尾厂捞，所以需要zcat，如果這里是沒有.gz結(jié)尾队丝，也就不需要--readFilesCommand參數(shù)了靡馁；--outFileNamePrefix指輸出文件的前綴；--outSAMtype指輸出文件的類型机久。不使用該參數(shù)則表示不輸出以染色體和位置定位Reads的sam文件臭墨，使用時(shí)可以選擇SAM或者BAM(SAM的壓縮格式)，并且SortedByCoordinate告訴STAR此bam按照coordinate也就是position進(jìn)行排序膘盖。加上這個(gè)參數(shù)胧弛，輸出文件就是排過(guò)序的bam文件；--outBAMsortingThreadN 指定bam文件排序時(shí)所用的線程侠畔；--quantMode告訴STAR在定量時(shí)所采用的模式结缚，STAR會(huì)輸出所需的文件，TranscriptomeSAM 表示輸出比對(duì)到轉(zhuǎn)錄本的sam文件软棺；GeneCounts輸出一個(gè)記錄比對(duì)到各個(gè)基因上reads數(shù)的文件红竭。

使用示例命令，將會(huì)生成7個(gè)文件喘落。其中sample1_1Aligned.sortedByCoord.out.bam 是以bam格式記錄reads比對(duì)到基因組的文件茵宪。sample1_1Log.final.out 記錄了比對(duì)的統(tǒng)計(jì)結(jié)果。sample1_1ReadsPerGene.out.tab記錄了比對(duì)到每個(gè)基因上的reads數(shù)揖盘。sample1_1Aligned.toTranscriptome.out.bam是以bam格式記錄reads比對(duì)到轉(zhuǎn)錄本的文件眉厨。生成sample1_1Aligned.toTranscriptome.out.bam并不是必須的，比如RSEM定量時(shí)需要sample1_1Aligned.toTranscriptome.out.bam兽狭，但是featureCounts就不需要憾股。

3鹿蜀、STAR和HISAT2比較

STAR的參數(shù)比HISAT2多，也就意味著STAR更加靈活服球，用戶可以根據(jù)自己的需求靈活的改變參數(shù)茴恰，而且用戶不用考慮讓人頭疼的鏈特異性問(wèn)題，因?yàn)镾TAR可以自動(dòng)判斷是否為鏈特異性測(cè)序斩熊。而且STAR眾多的輸出文件可以滿足不同的需求往枣。HISAT2因?yàn)樗饕膬?yōu)勢(shì)，可以相對(duì)輕松比對(duì)跨區(qū)域的reads（可變剪切)粉渠，而Tophat2耗時(shí)久分冈，STAR耗內(nèi)存，HISAT2克服了兩個(gè)的缺點(diǎn)^[2]霸株。

（四）定量軟件

介紹的定量軟件有RSEM雕沉、featureCounts 和HTSeq-count。RSEM像是一個(gè)集成的軟件去件，對(duì)新手甚是友好坡椒，不僅提供了定量的命令，甚至連構(gòu)建表達(dá)矩陣都有相應(yīng)的命令尤溜。featureCounts以快和靈活著稱倔叼，半分鐘既可處理2000萬(wàn)的reads，用戶更是可以選擇feature和 meta-feature進(jìn)行定量宫莱。HTSeq-count同樣可以選擇feature和 meta-feature進(jìn)行定量丈攒。

1、RSEM使用

（1）構(gòu)建索引

用法：rsem-prepare-reference [options] reference_fasta_file(s) reference_name

--gtf指基因組的注釋文件梢睛，并且rsem將會(huì)使用該注釋文件從 reference_fasta_file(s)中提取出轉(zhuǎn)錄本肥印；reference_fasta_file(s)為基因組文件；reference_name指定索引的目錄以及前綴绝葡。

示例：  rsem-prepare-reference --gtf 00ref/TAIR10.gtf \

00ref/TAIR10.fasta \

05rsem_index/TAIR10

使用示例命令將會(huì)生成7個(gè)文件深碱。

（2）定量

用法： rsem-calculate-expression [options] --alignments [--paired-end] input reference_name sample_name

Input為SAM/BAM/CRAM，也就是在比對(duì)后得到的文件藏畅；--paired-end指input是雙端測(cè)序敷硅；reference_name指索引文件所在目錄和前綴；sample_name為輸出文件的前綴愉阎；--alignments指輸入文件為SAM/BAM/CRAM绞蹦。

可選擇的[options]有很多，這里需要注意鏈特異性參數(shù)--forward-prob榜旦，如果無(wú)鏈特異性幽七，不加該參數(shù)既可，如果reads1是正義鏈則參數(shù)為1溅呢，反之為0澡屡；--no-bam-output指不輸出比對(duì)的BAM文件猿挚。

示例：rsem-calculate-expression \

--forward-prob 0 \

--paired-end \

--no-bam-output \

--alignments -p 16 -q ./04star_out/sample1_1Aligned.toTranscriptome.out.bam \

./05rsem_index/TAIR10 \

./06rsem_out/sample1_1

使用示例命令將會(huì)生成3個(gè)文件。sample1_1.genes.results是以gene_id為meta-feature的定量結(jié)果驶鹉，sample1_1.isoforms.results是以transcript_id為meta-feature的定量結(jié)果绩蜻。sample1_1.stat為統(tǒng)計(jì)文件的目錄。

2室埋、featureCounts使用

（1）定量

用法：featureCounts [options] -a <annotation_file> -o <output_file> input_file1 [input_file2]

<annotation_file>為注釋文件办绝；<output_file>指定輸出文件；input_file1 [input_file2]為一系列輸入文件姚淆。

[options]中需要注意的有-p指定量時(shí)將以片段計(jì)數(shù)而不是reads孕蝉，此參數(shù)針對(duì)雙端測(cè)序；-s同樣也指有無(wú)鏈特異性肉盹，0為默認(rèn)參數(shù)表示無(wú)特異性昔驱，1表示Reads1是正義鏈，2表示Reads1是反義鏈上忍；-T指定線程數(shù)；-t表示計(jì)數(shù)的feature纳本；-g表示meta-feature窍蓝。

示例：featureCounts -p -s 2 -T 6 -a 00ref/TAIR10.gtf \

-o 06featurecounts_quant/sample1_1_counts.txt \

-t exon -g transcript_id \

05samtools_out/sample1_1_sorted.bam

使用示例命令將輸出2個(gè)文件，sample1_1_counts.txt記錄了定量結(jié)果繁成，sample1_1_counts.txt.summary統(tǒng)計(jì)了定量情況吓笙。

3、HTSeq-count使用

（1）定量

用法：htseq-count [options] alignment_file gff_file

alignment_file為比對(duì)得到的文件巾腕，通常為bam面睛；gff_file為注釋文件。

[options]中需要注意的有-f 指定alignment_file的格式尊搬，為bam或sam叁鉴；-r指alignment_file按什么排序，有pos和name佛寿，需要根據(jù)bam文件設(shè)置幌墓；-s指鏈特異性，no指無(wú)特異性冀泻，yes指reads1是正義鏈常侣， reverse表示reads1是反義鏈；-m指定量的模式弹渔，一般選擇union就可以胳施；-a表示若比對(duì)質(zhì)量小于a的值，則忽略此reads肢专；-t指定feature舞肆；-i指定meta-feature您没。

示例：htseq-count -f bam -r pos -s reverse -a 10 -t exon -i transcript_id -m union ./05samtools_out/sample1_1_sorted.bam 00ref/TAIR10.gtf > ./06htseq_quant/sample1_1_counts.txt

使用示例命令可以得到1個(gè)文件。sample1_1_counts.txt記錄了meta-feature的counts數(shù)胆绊，文件的末尾為定量的統(tǒng)計(jì)信息氨鹏。

4、RSEM压状、featureCounts 和HTSeq-count比較

使用RSEM定量時(shí)仆抵，需要先構(gòu)建索引文件，而featureCounts 和HTSeq-count用比對(duì)結(jié)果直接定量种冬，顯得方便很多镣丑，而且對(duì)于不會(huì)寫提取counts腳本的用戶來(lái)說(shuō)，RSEM構(gòu)建表達(dá)矩陣的命令同樣讓人驚喜娱两。RSEM定量后的結(jié)果更加多樣莺匠，有g(shù)ene_id和transcript_id兩類。而且count十兢、TPM趣竣、FPKM都有，為后續(xù)差異分析提供便利旱物。但featureCounts 和HTSeq-count只能定量所指定的meta_feature遥缕，且結(jié)果單一。featureCounts的定量速度是顯而易見的快^[6]宵呛。featureCounts與HTSeq-count對(duì)待多重比對(duì)reads的態(tài)度有所不同单匣。HTSeq-count采用全部丟棄的策略，而featureCounts更加靈活宝穗，可以通過(guò)參數(shù)-m進(jìn)行處理户秤。

（五）免比對(duì)的定量軟件

主要介紹kallisto和salmon。kallisto和salmon可以免去比對(duì)步驟逮矛，直接進(jìn)行定量鸡号，甚至在PC端就可以處理RNA-seq數(shù)據(jù)。

1橱鹏、kallisto使用

（1）構(gòu)建索引

用法：kallisto index [arguments] FASTA-files

FASTA-files為輸入的轉(zhuǎn)錄本膜蠢；[arguments]必要有-i，指定生成的索引文件莉兰；-k指定 k-mer 的長(zhǎng)度挑围，默認(rèn)為31，必要時(shí)可以修改糖荒。

示例：kallisto index -i 03kallisto_index/TAIR10 00ref/TAIR10.transcripts.fa

使用示例命令得到一個(gè)輸出文件TAIR10

（2）定量

用法：kallisto quant [arguments] FASTQ-files

FASTQ-file為樣本的reads1和reads2文件杉辙。[arguments]中，-i指定索引文件捶朵；-t指定線程數(shù)蜘矢；-o 指定輸出文件夾狂男；-g 指定注釋文件；--rf-stranded指reads1為反義鏈品腹，--fr-stranded指reads1為正義鏈岖食。

示例：kallisto quant --rf-stranded -t 4 -i ./03kallisto_index/TAIR10 -o ./04kallisto_quant/sample1_1/ -g 00ref/TAIR10.gtf  02clean_data/sample1_1_R1_paired_clean.fq.gz 02clean_data/sample1_1_R2_paired_clean.fq.gz

使用示例命令可以得到三個(gè)文件，Abundance.tsv記錄了定量情況

2舞吭、salmon使用

(1) 構(gòu)建索引

用法：salmon index [options]

-t指轉(zhuǎn)錄本文件泡垃；-i指輸出的索引所在目錄；-p指定線程

示例：salmon index -p 12 -t 00ref/Arabidopsis_thaliana.TAIR10.cds.all.fa \

-i 03salmon_index/TAIR10

使用示例命令可以得到15個(gè)文件

(2) 定量

用法：salmon index [options]

-i 表示索引文件所在目錄羡鸥；-l這里需要指定測(cè)序模式蔑穴，此時(shí)指定為A表示salmon自動(dòng)判斷；-g可以理解為meta-feature的對(duì)應(yīng)關(guān)系惧浴，加上此參數(shù)存和，salmon還可以對(duì)gene_id進(jìn)行定量，而不只是transcript_id衷旅；-1捐腿，-2分別指輸入的reads1和reads2；-p指線程數(shù)芜茵；-o指輸出目錄叙量。

示例：salmon quant -i 03salmon_index/TAIR10 -l A -g 1.txt \

-1 02clean_data/sample1_1_R1_paired_clean.fq.gz -2 02clean_data/sample1_1_R2_paired_clean.fq.gz \

-p 12 -o 04salmon_quant/sample1_1

使用示例命令可以得到7個(gè)文件。quant.sf是根據(jù)transcript_id定量的結(jié)果九串，quant.genes.sf是根據(jù)gene_id定量的結(jié)果。

3寺鸥、kallisto和salmon比較

對(duì)于免比對(duì)軟件kallisto^[7]和salmon來(lái)說(shuō)猪钮，比對(duì)和定量是一步完成的。對(duì)于salmon^[8]來(lái)說(shuō)胆建，可以通過(guò)添加-g參數(shù)烤低，將原來(lái)的meta-feature(transcript_id)轉(zhuǎn)換為我們想要的meta-feature(gene_id)，甚至他還可以自己判斷測(cè)序類型笆载。整體來(lái)說(shuō)salmon表現(xiàn)更佳^[8]扑馁，而kallisto是science常用^[9]。

三凉驻、總結(jié)

上游分析包括質(zhì)量檢測(cè)腻要、質(zhì)量控制、比對(duì)涝登、定量雄家。質(zhì)量檢測(cè)和質(zhì)量控制使用fastqc和Trimmomatic既可，比對(duì)和定量軟件的選擇比較多胀滚。比對(duì)軟件STAR和HISAT2趟济，定量軟件featureCounts乱投、RSEM和HTSeq-count。比對(duì)軟件處理質(zhì)控后的數(shù)據(jù)后可以得到sam和bam文件顷编，其中記錄到reads比對(duì)的位置戚炫、可變剪接、比對(duì)質(zhì)量媳纬、配對(duì)reads比對(duì)到的位置等双肤。定量軟件基于比對(duì)軟件給出的sam或bam文件進(jìn)行定量。主要是根據(jù)比對(duì)到的位置進(jìn)行定量层宫，當(dāng)然也會(huì)有一定的篩選條件杨伙。

最常用的組合套裝是STAR-RSEM和HISAT2-featureCounts以及HISAT2-HTSeq-count。從整體上看萌腿，RSEM很全面的限匣，因?yàn)樗{(diào)用了STAR做聯(lián)配，所以效率高速度快毁菱，而且這個(gè)組合輸出的文件相當(dāng)豐富米死，除了基于基因組和轉(zhuǎn)錄本比對(duì)的bam文件，其定量文件還包含count贮庞、TPM峦筒、FPKM等，為后續(xù)分析提供很大便利窗慎。相比之下HISAT2-featureCounts的定量結(jié)果只包含count和TPM物喷，HISAT2-HTSeq-count的定量結(jié)果僅有count，比對(duì)結(jié)果只有sam遮斥，可以明顯感覺到這兩套組合的輸出文件并不豐富峦失，但勝在快捷、目的性強(qiáng)术吗。如果我們不需要STAR-RSEM產(chǎn)生的諸多文件尉辑，那么這兩套就足夠了牛哺。

免比對(duì)軟件kallisto和salmon對(duì)PC用戶是首選君仆，因?yàn)槠淇梢蕴^(guò)比對(duì)的步驟，直接拿質(zhì)控后的數(shù)據(jù)進(jìn)行定量娶视，所以需要的內(nèi)存和運(yùn)算量比組合套裝少得多隘蝎。尤其是salmon可以自動(dòng)判斷測(cè)序類型购啄，對(duì)于不是很了解整個(gè)流程和細(xì)節(jié)而又不想花時(shí)間學(xué)習(xí)的用戶來(lái)說(shuō)，使用salmon再好不過(guò)末贾。

參考文獻(xiàn)

[1] Sahraeian Sayed Mohammad Ebrahim,Mohiyuddin Marghoob,Sebra Robert,Tilgner Hagen,Afshar Pegah T,Au Kin Fai,Bani Asadi Narges,Gerstein Mark B,Wong Wing Hung,Snyder Michael P,Schadt Eric,Lam Hugo Y K. Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis.[J]. Nature communications,2017,8(1):59.

[2] 忘川水.RNA-seq轉(zhuǎn)錄組上游分析流程(2021年)[OL].https://zhuanlan.zhihu.com/p/369749492. 2021.

[3]Grüning Bj?rn,Dale Ryan,Sj?din Andreas,Chapman Brad A,Rowe Jillian,Tomkins-Tinch Christopher H,Valieris Renan,K?ster Johannes. Bioconda: sustainable and comprehensive software distribution for the life sciences.[J]. Nature methods,2018,15(7):475-476.

[4]劉永鑫Adam.數(shù)據(jù)的質(zhì)量控制軟件——fastQC[OL].https://blog.csdn.net/woodcorpse/article/details/106552332. 2018.

[5]Bolger, A. M., Lohse, M., & Usadel, B.Trimmomatic: A flexible trimmer for Illumina Sequence Data.[J]. Bioinformatics,2014,30(15):2114-20.

[6]Liao Y, Smyth GK and Shi W. featureCounts: an efficient general purpose program for assigning sequence reads to genomic features. Bioinformatics,2014,30(7):923-30.

[7]Bray Nicolas L,Pimentel Harold,Melsted Páll,Pachter Lior. Near-optimal probabilistic RNA-seq quantification.[J]. Nature biotechnology,2016,34(5):525-7.

[8]Patro Rob,Duggal Geet,Love Michael I,Irizarry Rafael A,Kingsford Carl. Salmon provides fast and bias-aware quantification of transcript expression.[J]. Nature methods,2017,14(4):417-419.

[9]馬省偉.使用salmon和kallisto進(jìn)行RNA-seq定量[OL].https://blog.sciencenet.cn/blog-1094241-1133526.html. 2018.

最后編輯于：2021.12.22 20:56:50

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末闸溃，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌辉川，老刑警劉巖表蝙，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異乓旗，居然都是意外死亡府蛇，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門屿愚，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)汇跨，“玉大人，你說(shuō)我怎么就攤上這事妆距∏钏欤” “怎么了？”我有些...
開封第一講書人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵娱据，是天一觀的道長(zhǎng)蚪黑。經(jīng)常有香客問(wèn)我，道長(zhǎng)中剩，這世上最難降的妖魔是什么忌穿？我笑而不...
開封第一講書人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮结啼，結(jié)果婚禮上掠剑，老公的妹妹穿的比我還像新娘。我一直安慰自己郊愧，他們只是感情好朴译，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著属铁，像睡著了一般动分。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上红选，一...
開封第一講書人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音姆另，去河邊找鬼喇肋。笑死，一個(gè)胖子當(dāng)著我的面吹牛迹辐，可吹牛的內(nèi)容都是我干的蝶防。我是一名探鬼主播，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼明吩，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼间学！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤低葫，失蹤者是張志新（化名）和其女友劉穎详羡，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嘿悬，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡实柠，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了善涨。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片窒盐。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖钢拧，靈堂內(nèi)的尸體忽然破棺而出蟹漓，到底是詐尸還是另有隱情，我是刑警寧澤源内，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布葡粒，位于F島的核電站，受9級(jí)特大地震影響姿锭，放射性物質(zhì)發(fā)生泄漏塔鳍。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一呻此、第九天我趴在偏房一處隱蔽的房頂上張望轮纫。院中可真熱鬧，春花似錦焚鲜、人聲如沸掌唾。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評(píng)論 0贊 19
一樁弒父案忿磅，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)糯彬。三九已至，卻和暖如春葱她，著一層夾襖步出監(jiān)牢的瞬間撩扒，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工吨些，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留搓谆，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓豪墅，卻偏偏與公主長(zhǎng)得像泉手，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子偶器，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345

RNA-seq數(shù)據(jù)的上游處理及工具HISAT2; STAR; RSEM; featureCounts; Htseq-count; kallisto; salmon

一蘑志、上游處理流程

二齐媒、處理工具

（一）質(zhì)量檢測(cè)軟件

（二）質(zhì)量控制軟件

（三）比對(duì)軟件

1彪蓬、HISAT2使用

（1）構(gòu)建索引

（2）比對(duì)

2歧蕉、STAR使用

（1）構(gòu)建索引

（2）比對(duì)

3鹿蜀、STAR和HISAT2比較

（四）定量軟件

1、RSEM使用

（1）構(gòu)建索引

（2）定量

2室埋、featureCounts使用

（1）定量

3、HTSeq-count使用

（1）定量

4、RSEM压状、featureCounts 和HTSeq-count比較

（五）免比對(duì)的定量軟件

1橱鹏、kallisto使用

（1）構(gòu)建索引

（2）定量

2舞吭、salmon使用

(1) 構(gòu)建索引

(2) 定量

3寺鸥、kallisto和salmon比較

三凉驻、總結(jié)

參考文獻(xiàn)

推薦閱讀更多精彩內(nèi)容