一.conda安裝multiqc軟件
1.安裝conda
2.安裝python2環(huán)境
conda create --name python2 python=2.7 -c https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/ -y
conda activate python2
3.用conda安裝multiqc軟件
conda install multiqc -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
4.查看multiqc是否安裝成功
multiqc -h #在使用multiqc軟件前需要先激活Python環(huán)境
二.獲得fastq文件
1. 在NCBI中尋找兩條序列(盡量選擇較小的序列,便于運(yùn)行)减途,利用prefetch下載此序列
prefetch SRR5987926
prefetch SRR5987998
2.將SRA文件解壓為fastq格式
fastq-dump --gzip --split-files SRR5987926
fastq-dump --gzip --split-files SRR5987998
3.fastqc進(jìn)行數(shù)據(jù)質(zhì)量評(píng)價(jià)
fastqc SRR5987926_1.fastq.gz SRR5987926_2.fastq.gz SRR5987998_1.fastq.gz SRR5987998_2.fastq.gz
三痴晦、multiqc進(jìn)行整合
在當(dāng)前目錄下
multiqc .
生成兩個(gè)文件multiqc_data和multiqc_report.html檐蚜,將multiqc_report.html download下來(lái)并打開該網(wǎng)頁(yè)
四很洋、結(jié)果分析
1.所有樣本數(shù)據(jù)基本情況統(tǒng)計(jì)
重復(fù)reads的比例(%Dups)缆镣、GC含量占總堿基的比例(%GC呻逆,比例越小越好)请唱、總測(cè)序量(M Seqs,單位:millions)
2.序列的計(jì)數(shù)
可以查看reads的數(shù)量和其百分比锭亏。
根據(jù)表可知該四條序列的重復(fù)序列都較多纠吴。
3.每個(gè)read各位置堿基的平均測(cè)序質(zhì)量
橫坐標(biāo)——堿基的位置
縱坐標(biāo)——質(zhì)量分?jǐn)?shù)=-10log10p(p代表錯(cuò)誤率),所以當(dāng)質(zhì)量分?jǐn)?shù)為40的時(shí)候慧瘤,p就是0.0001戴已。此時(shí)說(shuō)明測(cè)序質(zhì)量非常好。
綠色區(qū)間——質(zhì)量很好锅减,橙色區(qū)間——質(zhì)量合理糖儡,紅色區(qū)間——質(zhì)量不好。
由此可知怔匣,四個(gè)樣本的140個(gè)堿基的測(cè)序質(zhì)量平均線都在綠色區(qū)域內(nèi)握联,質(zhì)量很好。
4.具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量
綠色區(qū)間——質(zhì)量很好,橙色區(qū)間——質(zhì)量合理,紅色區(qū)間——質(zhì)量不好
由上圖可知4個(gè)樣本基本都在綠色區(qū)域每瞒,測(cè)序質(zhì)量合格金闽。
5.每個(gè)read各位置堿基ATCG的比列
reads每個(gè)位置的顏色顯示由4種顏色的比例混合而成,哪一個(gè)堿基的比例大剿骨,則趨近于這個(gè)堿基所代表的顏色代芜。
正常情況下每個(gè)位置每種堿基出現(xiàn)的概率是相近的。
由上圖可知4個(gè)樣本在14個(gè)bp前的ATCG的含量比例是非常不均勻的浓利,可能有過(guò)表達(dá)序列的污染挤庇,測(cè)序質(zhì)量不好钞速。
6.reads的平均GC含量
正常的樣本的GC含量曲線會(huì)趨近于正態(tài)分布曲線。
由上圖可知GC含量曲線不符合正態(tài)分布曲線嫡秕,曲線形狀的偏差往往是由于文庫(kù)的污染或是部分reads構(gòu)成的子集有偏差渴语,測(cè)序質(zhì)量不好。
7.每條reads各位置N堿基含量比例
當(dāng)測(cè)序儀器不能辨別某條reads的某個(gè)位置到底是什么堿基時(shí)昆咽,就會(huì)產(chǎn)生“N”遵班,統(tǒng)計(jì)N的比率。正常情況下潮改,N值非常小。
由上圖可知樣本的N堿基的含量為0腹暖,每個(gè)位置的堿基都能確定汇在,測(cè)序質(zhì)量很好。
8.序列長(zhǎng)度的分布
所有樣本的序列都是單一長(zhǎng)度(151bp)脏答。
9.每個(gè)序列的相對(duì)重復(fù)水平
橫坐標(biāo):每個(gè)序列的相對(duì)重復(fù)水平糕殉,縱坐標(biāo):在文庫(kù)中的比例
由上圖可知每個(gè)樣本序列的相對(duì)重復(fù)水平都小于1k,測(cè)序質(zhì)量還行殖告。
10.文庫(kù)中過(guò)表達(dá)序列的比例
橫坐標(biāo)——過(guò)表達(dá)序列的比例阿蝶,縱坐標(biāo)——樣本
一條序列的重復(fù)數(shù),因?yàn)橐粋€(gè)轉(zhuǎn)錄組中有非常多的轉(zhuǎn)錄本黄绩,一條序列再怎么多也不太會(huì)占整個(gè)轉(zhuǎn)錄組的一小部分(比如1%)羡洁,如果出現(xiàn)這種情況,不是這種轉(zhuǎn)錄本巨量表達(dá)爽丹,就是樣品被污染筑煮。
11.接頭含量
4個(gè)樣本的接頭含量都小于0.1%
總的來(lái)說(shuō),該4個(gè)樣本的重復(fù)序列太多粤蝎,ATCG分布不均勻真仲,有過(guò)表達(dá)序列污染的可能。