MultiQC軟件的安裝運(yùn)行及對(duì)數(shù)據(jù)質(zhì)量做出評(píng)價(jià)

一.conda安裝multiqc軟件

1.安裝conda

2.安裝python2環(huán)境

conda create --name python2 python=2.7 -c https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/ -y
conda activate python2

multiqc1.PNG

multiqc2.PNG

3.用conda安裝multiqc軟件

conda install multiqc -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda

multiqc4.PNG

4.查看multiqc是否安裝成功

multiqc -h   #在使用multiqc軟件前需要先激活Python環(huán)境

multiqc 01.PNG

二.獲得fastq文件

1. 在NCBI中尋找兩條序列(盡量選擇較小的序列，便于運(yùn)行)减途，利用prefetch下載此序列

prefetch SRR5987926
prefetch SRR5987998

multiqc02.PNG

2.將SRA文件解壓為fastq格式

fastq-dump --gzip --split-files SRR5987926
fastq-dump --gzip --split-files SRR5987998

multiqc03.PNG

3.fastqc進(jìn)行數(shù)據(jù)質(zhì)量評(píng)價(jià)

fastqc SRR5987926_1.fastq.gz SRR5987926_2.fastq.gz SRR5987998_1.fastq.gz SRR5987998_2.fastq.gz

multiqc04.PNG

01.PNG

三痴晦、multiqc進(jìn)行整合

在當(dāng)前目錄下

multiqc .

02.PNG

生成兩個(gè)文件multiqc_data和multiqc_report.html檐蚜，將multiqc_report.html download下來(lái)并打開該網(wǎng)頁(yè)

四很洋、結(jié)果分析

1.所有樣本數(shù)據(jù)基本情況統(tǒng)計(jì)

001.PNG

重復(fù)reads的比例（%Dups）缆镣、GC含量占總堿基的比例（%GC呻逆，比例越小越好）请唱、總測(cè)序量（M Seqs，單位：millions）

2.序列的計(jì)數(shù)

002.PNG

可以查看reads的數(shù)量和其百分比锭亏。
根據(jù)表可知該四條序列的重復(fù)序列都較多纠吴。

3.每個(gè)read各位置堿基的平均測(cè)序質(zhì)量

003.PNG

橫坐標(biāo)——堿基的位置
縱坐標(biāo)——質(zhì)量分?jǐn)?shù)=-10log10p（p代表錯(cuò)誤率），所以當(dāng)質(zhì)量分?jǐn)?shù)為40的時(shí)候慧瘤，p就是0.0001戴已。此時(shí)說(shuō)明測(cè)序質(zhì)量非常好。
綠色區(qū)間——質(zhì)量很好锅减，橙色區(qū)間——質(zhì)量合理糖儡，紅色區(qū)間——質(zhì)量不好。
由此可知怔匣，四個(gè)樣本的140個(gè)堿基的測(cè)序質(zhì)量平均線都在綠色區(qū)域內(nèi)握联，質(zhì)量很好。

4.具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量

005.PNG

綠色區(qū)間——質(zhì)量很好,橙色區(qū)間——質(zhì)量合理,紅色區(qū)間——質(zhì)量不好
由上圖可知4個(gè)樣本基本都在綠色區(qū)域每瞒，測(cè)序質(zhì)量合格金闽。

5.每個(gè)read各位置堿基ATCG的比列

006.PNG

reads每個(gè)位置的顏色顯示由4種顏色的比例混合而成，哪一個(gè)堿基的比例大剿骨，則趨近于這個(gè)堿基所代表的顏色代芜。
正常情況下每個(gè)位置每種堿基出現(xiàn)的概率是相近的。
由上圖可知4個(gè)樣本在14個(gè)bp前的ATCG的含量比例是非常不均勻的浓利，可能有過(guò)表達(dá)序列的污染挤庇，測(cè)序質(zhì)量不好钞速。

6.reads的平均GC含量

007.PNG

正常的樣本的GC含量曲線會(huì)趨近于正態(tài)分布曲線。
由上圖可知GC含量曲線不符合正態(tài)分布曲線嫡秕，曲線形狀的偏差往往是由于文庫(kù)的污染或是部分reads構(gòu)成的子集有偏差渴语，測(cè)序質(zhì)量不好。

7.每條reads各位置N堿基含量比例

008.PNG

當(dāng)測(cè)序儀器不能辨別某條reads的某個(gè)位置到底是什么堿基時(shí)昆咽，就會(huì)產(chǎn)生“N”遵班，統(tǒng)計(jì)N的比率。正常情況下潮改，N值非常小。
由上圖可知樣本的N堿基的含量為0腹暖，每個(gè)位置的堿基都能確定汇在，測(cè)序質(zhì)量很好。

8.序列長(zhǎng)度的分布

009.PNG

所有樣本的序列都是單一長(zhǎng)度（151bp）脏答。

9.每個(gè)序列的相對(duì)重復(fù)水平

010.PNG

橫坐標(biāo)：每個(gè)序列的相對(duì)重復(fù)水平糕殉，縱坐標(biāo)：在文庫(kù)中的比例
由上圖可知每個(gè)樣本序列的相對(duì)重復(fù)水平都小于1k，測(cè)序質(zhì)量還行殖告。

10.文庫(kù)中過(guò)表達(dá)序列的比例

011.PNG

橫坐標(biāo)——過(guò)表達(dá)序列的比例阿蝶，縱坐標(biāo)——樣本
一條序列的重復(fù)數(shù)，因?yàn)橐粋€(gè)轉(zhuǎn)錄組中有非常多的轉(zhuǎn)錄本黄绩，一條序列再怎么多也不太會(huì)占整個(gè)轉(zhuǎn)錄組的一小部分（比如1%）羡洁，如果出現(xiàn)這種情況，不是這種轉(zhuǎn)錄本巨量表達(dá)爽丹，就是樣品被污染筑煮。

11.接頭含量

012.PNG

4個(gè)樣本的接頭含量都小于0.1%

總的來(lái)說(shuō)，該4個(gè)樣本的重復(fù)序列太多粤蝎，ATCG分布不均勻真仲，有過(guò)表達(dá)序列污染的可能。

最后編輯于：2022.10.24 10:57:16

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末初澎，一起剝皮案震驚了整個(gè)濱河市秸应，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌碑宴，老刑警劉巖软啼，帶你破解...
沈念sama閱讀 206,214評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異延柠，居然都是意外死亡焰宣，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,307評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門捕仔，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)匕积，“玉大人盈罐，你說(shuō)我怎么就攤上這事∩了簦” “怎么了盅粪？”我有些...
開封第一講書人閱讀 152,543評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)悄蕾。經(jīng)常有香客問(wèn)我票顾，道長(zhǎng)，這世上最難降的妖魔是什么帆调？我笑而不...
開封第一講書人閱讀 55,221評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任奠骄，我火速辦了婚禮，結(jié)果婚禮上番刊，老公的妹妹穿的比我還像新娘含鳞。我一直安慰自己，他們只是感情好芹务，可當(dāng)我...
茶點(diǎn)故事閱讀 64,224評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布蝉绷。她就那樣靜靜地躺著，像睡著了一般枣抱。火紅的嫁衣襯著肌膚如雪熔吗。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,007評(píng)論 1贊 284
城市分裂傳說(shuō)
那天佳晶，我揣著相機(jī)與錄音桅狠，去河邊找鬼。笑死轿秧，一個(gè)胖子當(dāng)著我的面吹牛垂攘，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播淤刃，決...
沈念sama閱讀 38,313評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼晒他，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了逸贾？” 一聲冷哼從身側(cè)響起陨仅，我...
開封第一講書人閱讀 36,956評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎铝侵，沒(méi)想到半個(gè)月后灼伤，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,441評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡咪鲜，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,925評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年狐赡，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片疟丙。...
茶點(diǎn)故事閱讀 38,018評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡颖侄，死狀恐怖鸟雏，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情览祖，我是刑警寧澤孝鹊，帶...
沈念sama閱讀 33,685評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站展蒂，受9級(jí)特大地震影響又活，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜锰悼，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,234評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一柳骄、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧箕般，春花似錦耐薯、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,240評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)鸠踪。三九已至丙者，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間营密，已是汗流浹背械媒。一陣腳步聲響...
開封第一講書人閱讀 31,464評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留评汰，地道東北人纷捞。一個(gè)月前我還...
沈念sama閱讀 45,467評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像被去，于是被迫代替她去往敵國(guó)和親主儡。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,762評(píng)論 2贊 345