MultiQC軟件的安裝運(yùn)行及對(duì)數(shù)據(jù)質(zhì)量做出評(píng)價(jià)

一.conda安裝multiqc軟件

1.安裝conda

2.安裝python2環(huán)境

conda create --name python2 python=2.7 -c https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/ -y
conda activate python2
multiqc1.PNG

multiqc2.PNG

3.用conda安裝multiqc軟件

conda install multiqc -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
multiqc4.PNG

4.查看multiqc是否安裝成功

multiqc -h   #在使用multiqc軟件前需要先激活Python環(huán)境

multiqc 01.PNG

二.獲得fastq文件

1. 在NCBI中尋找兩條序列(盡量選擇較小的序列,便于運(yùn)行)减途,利用prefetch下載此序列

prefetch SRR5987926
prefetch SRR5987998
multiqc02.PNG

2.將SRA文件解壓為fastq格式

fastq-dump --gzip --split-files SRR5987926
fastq-dump --gzip --split-files SRR5987998
multiqc03.PNG

3.fastqc進(jìn)行數(shù)據(jù)質(zhì)量評(píng)價(jià)

fastqc SRR5987926_1.fastq.gz SRR5987926_2.fastq.gz SRR5987998_1.fastq.gz SRR5987998_2.fastq.gz
multiqc04.PNG

01.PNG

三痴晦、multiqc進(jìn)行整合

在當(dāng)前目錄下

multiqc .
02.PNG

生成兩個(gè)文件multiqc_data和multiqc_report.html檐蚜,將multiqc_report.html download下來(lái)并打開該網(wǎng)頁(yè)


四很洋、結(jié)果分析

1.所有樣本數(shù)據(jù)基本情況統(tǒng)計(jì)

001.PNG

重復(fù)reads的比例(%Dups)缆镣、GC含量占總堿基的比例(%GC呻逆,比例越小越好)请唱、總測(cè)序量(M Seqs,單位:millions)

2.序列的計(jì)數(shù)

002.PNG

可以查看reads的數(shù)量和其百分比锭亏。
根據(jù)表可知該四條序列的重復(fù)序列都較多纠吴。


3.每個(gè)read各位置堿基的平均測(cè)序質(zhì)量

003.PNG

橫坐標(biāo)——堿基的位置
縱坐標(biāo)——質(zhì)量分?jǐn)?shù)=-10log10p(p代表錯(cuò)誤率),所以當(dāng)質(zhì)量分?jǐn)?shù)為40的時(shí)候慧瘤,p就是0.0001戴已。此時(shí)說(shuō)明測(cè)序質(zhì)量非常好。
綠色區(qū)間——質(zhì)量很好锅减,橙色區(qū)間——質(zhì)量合理糖儡,紅色區(qū)間——質(zhì)量不好。

由此可知怔匣,四個(gè)樣本的140個(gè)堿基的測(cè)序質(zhì)量平均線都在綠色區(qū)域內(nèi)握联,質(zhì)量很好。


4.具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量

005.PNG

綠色區(qū)間——質(zhì)量很好,橙色區(qū)間——質(zhì)量合理,紅色區(qū)間——質(zhì)量不好
由上圖可知4個(gè)樣本基本都在綠色區(qū)域每瞒,測(cè)序質(zhì)量合格金闽。


5.每個(gè)read各位置堿基ATCG的比列

006.PNG

reads每個(gè)位置的顏色顯示由4種顏色的比例混合而成,哪一個(gè)堿基的比例大剿骨,則趨近于這個(gè)堿基所代表的顏色代芜。
正常情況下每個(gè)位置每種堿基出現(xiàn)的概率是相近的。

由上圖可知4個(gè)樣本在14個(gè)bp前的ATCG的含量比例是非常不均勻的浓利,可能有過(guò)表達(dá)序列的污染挤庇,測(cè)序質(zhì)量不好钞速。


6.reads的平均GC含量

007.PNG

正常的樣本的GC含量曲線會(huì)趨近于正態(tài)分布曲線。
由上圖可知GC含量曲線不符合正態(tài)分布曲線嫡秕,曲線形狀的偏差往往是由于文庫(kù)的污染或是部分reads構(gòu)成的子集有偏差渴语,測(cè)序質(zhì)量不好。


7.每條reads各位置N堿基含量比例

008.PNG

當(dāng)測(cè)序儀器不能辨別某條reads的某個(gè)位置到底是什么堿基時(shí)昆咽,就會(huì)產(chǎn)生“N”遵班,統(tǒng)計(jì)N的比率。正常情況下潮改,N值非常小。
由上圖可知樣本的N堿基的含量為0腹暖,每個(gè)位置的堿基都能確定汇在,測(cè)序質(zhì)量很好。


8.序列長(zhǎng)度的分布

009.PNG

所有樣本的序列都是單一長(zhǎng)度(151bp)脏答。


9.每個(gè)序列的相對(duì)重復(fù)水平

010.PNG

橫坐標(biāo):每個(gè)序列的相對(duì)重復(fù)水平糕殉,縱坐標(biāo):在文庫(kù)中的比例
由上圖可知每個(gè)樣本序列的相對(duì)重復(fù)水平都小于1k,測(cè)序質(zhì)量還行殖告。


10.文庫(kù)中過(guò)表達(dá)序列的比例

011.PNG

橫坐標(biāo)——過(guò)表達(dá)序列的比例阿蝶,縱坐標(biāo)——樣本
一條序列的重復(fù)數(shù),因?yàn)橐粋€(gè)轉(zhuǎn)錄組中有非常多的轉(zhuǎn)錄本黄绩,一條序列再怎么多也不太會(huì)占整個(gè)轉(zhuǎn)錄組的一小部分(比如1%)羡洁,如果出現(xiàn)這種情況,不是這種轉(zhuǎn)錄本巨量表達(dá)爽丹,就是樣品被污染筑煮。


11.接頭含量

012.PNG

4個(gè)樣本的接頭含量都小于0.1%

總的來(lái)說(shuō),該4個(gè)樣本的重復(fù)序列太多粤蝎,ATCG分布不均勻真仲,有過(guò)表達(dá)序列污染的可能。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末初澎,一起剝皮案震驚了整個(gè)濱河市秸应,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌碑宴,老刑警劉巖软啼,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異延柠,居然都是意外死亡焰宣,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門捕仔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)匕积,“玉大人盈罐,你說(shuō)我怎么就攤上這事∩了簦” “怎么了盅粪?”我有些...
    開封第一講書人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)悄蕾。 經(jīng)常有香客問(wèn)我票顾,道長(zhǎng),這世上最難降的妖魔是什么帆调? 我笑而不...
    開封第一講書人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任奠骄,我火速辦了婚禮,結(jié)果婚禮上番刊,老公的妹妹穿的比我還像新娘含鳞。我一直安慰自己,他們只是感情好芹务,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開白布蝉绷。 她就那樣靜靜地躺著,像睡著了一般枣抱。 火紅的嫁衣襯著肌膚如雪熔吗。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評(píng)論 1 284
  • 那天佳晶,我揣著相機(jī)與錄音桅狠,去河邊找鬼。 笑死轿秧,一個(gè)胖子當(dāng)著我的面吹牛垂攘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播淤刃,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼晒他,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了逸贾?” 一聲冷哼從身側(cè)響起陨仅,我...
    開封第一講書人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎铝侵,沒(méi)想到半個(gè)月后灼伤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡咪鲜,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年狐赡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片疟丙。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡颖侄,死狀恐怖鸟雏,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情览祖,我是刑警寧澤孝鹊,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站展蒂,受9級(jí)特大地震影響又活,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜锰悼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一柳骄、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧箕般,春花似錦耐薯、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)鸠踪。三九已至丙者,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間营密,已是汗流浹背械媒。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留评汰,地道東北人纷捞。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像被去,于是被迫代替她去往敵國(guó)和親主儡。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345