轉(zhuǎn)錄組分析(3) - 質(zhì)量控制

目的

現(xiàn)在的NGS測(cè)序矗烛，以illumina為首基本都是運(yùn)用邊合成邊測(cè)序的技術(shù)瞭吃。堿基的合成依靠的是化學(xué)反應(yīng)歪架，這使得堿基鏈可以不斷地從5'端一直往3'端合成并延伸下去和蚪。但在這個(gè)合成的過程中隨著合成鏈的增長(zhǎng)攒霹，DNA聚合酶的效率會(huì)不斷下降剔蹋，特異性也開始變差少梁，這就會(huì)帶來一個(gè)問題——越到后面堿基合成的錯(cuò)誤率就會(huì)越高矫付；有時(shí)候測(cè)序儀在剛開始進(jìn)行合成反應(yīng)的時(shí)候也會(huì)由于反應(yīng)還不夠穩(wěn)定买优，同樣會(huì)帶來質(zhì)量值的波動(dòng)杀赢。由于測(cè)序數(shù)據(jù)的質(zhì)量好壞會(huì)影響我們的下游分析脂崔，所以在開始進(jìn)行下游分析之前滤淳，對(duì)數(shù)據(jù)的質(zhì)量有一個(gè)準(zhǔn)確的認(rèn)知是非常有必要的。

操作

安裝

# 手動(dòng)安裝
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
unzip fastqc_v0.11.7.zip
cd FastQC 
chmod 755 fastqc
# apt-get 安裝
sudo apt-get install fastqc
# conda 安裝
conda activate py3
conda install fastqc

運(yùn)行

mkdir result
fastqc -f fastq -q -o result -t 3 sample1.fq.gz sample2.fq.gz sample3.fq.gz

命令比較簡(jiǎn)單砌左，這里唯一值得注意的地方就是 -o 參數(shù)用于指定FastQC報(bào)告的輸出目錄脖咐，這個(gè)目錄需要事先創(chuàng)建好，如果不指定特定的目錄汇歹，那么FastQC的結(jié)果會(huì)默認(rèn)輸出到文件untreated.fq的同一個(gè)目錄下屁擅。它輸出結(jié)果只有兩個(gè)，一個(gè)html和一個(gè).zip壓縮包产弹。

解讀

關(guān)于測(cè)序數(shù)據(jù)的質(zhì)量派歌，我們一般關(guān)注以下幾個(gè)方面：(1) read各個(gè)位置的堿基質(zhì)量值分布；(2) 堿基的總體質(zhì)量值分布；(3)read各個(gè)位置上堿基分布比例常挚，目的是為了分析堿基的分離程度贝或；(4) GC含量分布；(5) read各位置的N含量趟佃；(6) read是否還包含測(cè)序的接頭序列序矩；(7)read重復(fù)率，這個(gè)是實(shí)驗(yàn)的擴(kuò)增過程所引入的。其中主要指標(biāo)為堿基質(zhì)量與含量分布劲绪，如果這兩項(xiàng)不合格弟劲，其余都會(huì)受到影響。

基本信息

image.png

Filename, 質(zhì)控文件名淡溯；Encoding, 測(cè)序平臺(tái)膘侮；Total Sequences, reads數(shù)量；Sequence Length, reads長(zhǎng)度昧诱；%GC, GC含量

堿基質(zhì)量分布

image.png

此圖中的橫軸是read上堿基的位置妆丘，縱軸是質(zhì)量得分鱼填，Q = -10*log10（error P）即20表示0.01的錯(cuò)誤率赘理，30表示0.001蜘澜，圖中紅線表示中值装诡，藍(lán)色的細(xì)線是各個(gè)位置的平均值的連線赖淤。Warning 警告：如果任何堿基質(zhì)量低于10,或者是任何中位數(shù)低于25； Failure 不合格：如果任何堿基質(zhì)量低于5,或者是任何中位數(shù)低于20。
好的測(cè)序結(jié)果中，大部分質(zhì)量值的分布都在大于30的綠色背景的區(qū)域，表明質(zhì)量值很高，而且波動(dòng)很小判莉，說明質(zhì)量很穩(wěn)定渗饮。差的測(cè)序結(jié)果中踩叭，質(zhì)量值的分布都在小于20的紅色背景的區(qū)域，表明質(zhì)量值很差，有大量的質(zhì)量差的reads刻帚，并且波動(dòng)很大，對(duì)于這種結(jié)果衙吩，最好重新測(cè)序，如果實(shí)在要用于分析，應(yīng)該將這些低質(zhì)量的reads過濾掉以后進(jìn)行下游分析。

堿基總體質(zhì)量值分布

image.png

該圖橫軸Q值歪今，縱軸是每個(gè)值對(duì)應(yīng)的reads數(shù)目。reads的質(zhì)量值是指該條read每個(gè)位置Q值的平均值坡疼。只要大部分read的質(zhì)量都高于20，那么就比較正常巡语。一般來說枢赔，對(duì)于二代測(cè)序，最好是達(dá)到Q20的堿基要在95%以上（最差不低于90%）屋摔，Q30要求大于85%（最差也不要低于80%）挽鞠。

堿基分布

image.png

這個(gè)圖橫軸是read上堿基的位置油挥；縱軸是百分比深寥，圖中四條線代表A喂链、T椭微、C本慕、G在每個(gè)位置平均含量藤违。這個(gè)指標(biāo)是為了分析堿基的分離程度犹菱。理論上拂盯，假如測(cè)序過程是比較隨機(jī)佑女，A和T應(yīng)該相等，G和C應(yīng)該相等，兩者之間即使有偏差也不應(yīng)該太大团驱，最好平均在1%以內(nèi)摸吠。如果過高，除非有合理的原因嚎花，比如某些特定的捕獲測(cè)序所致寸痢，或者測(cè)序剛開始的時(shí)候測(cè)序儀狀態(tài)不穩(wěn)定，否則都需要注意是不是測(cè)序過程產(chǎn)生偏差紊选。

GC含量分布

image.png

該圖橫軸是0 - 100%啼止；縱軸是每條序列GC含量對(duì)應(yīng)的數(shù)量，藍(lán)色的線是程序根據(jù)經(jīng)驗(yàn)分布給出的理論值兵罢，紅色是真實(shí)值献烦，兩個(gè)應(yīng)該比較接近才比較好。GC含量指的是G和C這兩種堿基占總堿基的比例趣些。二代測(cè)序平臺(tái)或多或少都存在一定的測(cè)序偏向性，GC含量可以協(xié)助我們判斷測(cè)序過程是否足夠隨機(jī)贰您。一般基因組的GC含量有一個(gè)理論值坏平，例如人類基因組的GC含量一般在40%左右。因此锦亦，如果發(fā)現(xiàn)GC含量的圖譜明顯偏離理論值舶替，說明測(cè)序過程存在較高的序列偏向性，結(jié)果就是基因組中某些特定區(qū)域被反復(fù)測(cè)序的幾率變高杠园，這些區(qū)域的測(cè)序深度遠(yuǎn)高于平均測(cè)序深度顾瞪，這將會(huì)影響下游的變異檢測(cè)和CNV分析。

N含量分布

image.png

這個(gè)圖橫軸是read上堿基的位置抛蚁；縱軸是含N的比例陈醒。Warning 警告如果任意位置的N比例超過5%，Failure 不合格如果任意位置的N比例超過20%瞧甩。N在測(cè)序數(shù)據(jù)中一般是不應(yīng)該出現(xiàn)的钉跷，如果出現(xiàn)則意味著，測(cè)序的光學(xué)信號(hào)無(wú)法被清晰分辨肚逸，測(cè)序儀器不能辨別某條reads的某個(gè)位置都是ATCG哪個(gè)堿基爷辙，如果這種情況多的話，往往意味著測(cè)序系統(tǒng)或者測(cè)序試劑的錯(cuò)誤朦促。

接頭序列

image.png

這個(gè)圖橫軸是read上堿基的位置膝晾；縱軸是含各種接頭的比例。當(dāng)測(cè)序read的長(zhǎng)度大于被測(cè)序的DNA片段時(shí)务冕，就會(huì)在read的末尾測(cè)到這些接頭序列血当。由于有些RNA的序列本來就比較短，很多只有幾十bp長(zhǎng)（特別是miRNA），那么測(cè)序的時(shí)候就很容易會(huì)出現(xiàn)read測(cè)通的現(xiàn)象歹颓，這個(gè)時(shí)候就會(huì)在read的末尾測(cè)到這些接頭序列坯屿，此時(shí)，在圖中的3‘端位置巍扛，adapter的比例曲線會(huì)上升领跛。這些被測(cè)到的接頭序列在正式分析之前需要被切除。

重復(fù)序列

image.png

統(tǒng)計(jì)序列完全一樣的reads的頻率撤奸。橫坐標(biāo)是duplication的次數(shù)吠昭，縱坐標(biāo)表示各重復(fù)次數(shù)下的 reads 數(shù)占總 reads 的百分比，藍(lán)線展示所有 reads 的重復(fù)情況胧瓜，紅線表示在去掉重復(fù)以后矢棚，原重復(fù)水平下的 reads 占去重后 reads 總數(shù)的百分比；Warning 警告非 unique 的 reads 占總 reads 數(shù)的 20 % 以上府喳，Failure 不合格占總 read 數(shù)的 50 % 以上蒲肋。

整合

Fastqc每次對(duì)一個(gè)樣本進(jìn)行質(zhì)量控制并生成評(píng)估報(bào)告，當(dāng)樣本數(shù)量過多時(shí)钝满，查看報(bào)告顯然極不方便兜粘。Multiqc能將fastqc生成的多個(gè)報(bào)告整合成一個(gè)報(bào)告（HTML和PDF格式），方便的查看所有測(cè)序數(shù)據(jù)的質(zhì)量弯蚜。Multiqc支持多種分析類型的質(zhì)控結(jié)果查看孔轴，包括：RNAseq、Whole-Genome Seq碎捺、Bisulfite Seq路鹰、Hi-C等。

安裝

# conda 安裝收厨，multiqc 基于 python3
conda activate py3
conda install multiqc

運(yùn)行

# 整合包含fastqc結(jié)果的文件夾
multiqc -o multi_out fastqc_out
# 整合指定的幾個(gè)fastqc結(jié)果
multiqc -o multi_out sample1_fastqc.zip sample2_fastqc.zip sample3_fastqc.zip

最后編輯于：2021.07.27 16:01:01

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末晋柱，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子诵叁，更是在濱河造成了極大的恐慌趣斤，老刑警劉巖，帶你破解...
沈念sama閱讀 222,252評(píng)論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件黎休，死亡現(xiàn)場(chǎng)離奇詭異浓领，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)势腮，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,886評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門联贩，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人捎拯，你說我怎么就攤上這事泪幌。” “怎么了？”我有些...
開封第一講書人閱讀 168,814評(píng)論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵祸泪，是天一觀的道長(zhǎng)吗浩。經(jīng)常有香客問我，道長(zhǎng)没隘，這世上最難降的妖魔是什么懂扼？我笑而不...
開封第一講書人閱讀 59,869評(píng)論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮右蒲，結(jié)果婚禮上阀湿，老公的妹妹穿的比我還像新娘。我一直安慰自己瑰妄，他們只是感情好陷嘴，可當(dāng)我...
茶點(diǎn)故事閱讀 68,888評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著间坐，像睡著了一般灾挨。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上竹宋，一...
開封第一講書人閱讀 52,475評(píng)論 1贊 312
城市分裂傳說
那天劳澄，我揣著相機(jī)與錄音，去河邊找鬼逝撬。笑死浴骂，一個(gè)胖子當(dāng)著我的面吹牛乓土，可吹牛的內(nèi)容都是我干的宪潮。我是一名探鬼主播，決...
沈念sama閱讀 41,010評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼趣苏，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼狡相！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起食磕，我...
開封第一講書人閱讀 39,924評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤尽棕，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后彬伦，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滔悉，經(jīng)...
沈念sama閱讀 46,469評(píng)論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,552評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年单绑，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了回官。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,680評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡搂橙，死狀恐怖歉提，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤苔巨，帶...
沈念sama閱讀 36,362評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布版扩，位于F島的核電站，受9級(jí)特大地震影響侄泽，放射性物質(zhì)發(fā)生泄漏礁芦。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,037評(píng)論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一蔬顾、第九天我趴在偏房一處隱蔽的房頂上張望宴偿。院中可真熱鬧，春花似錦诀豁、人聲如沸窄刘。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,519評(píng)論 0贊 25
一樁弒父案舷胜，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)娩践。三九已至，卻和暖如春烹骨，著一層夾襖步出監(jiān)牢的瞬間翻伺，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,621評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來泰國(guó)打工沮焕，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吨岭，地道東北人。一個(gè)月前我還...
沈念sama閱讀 49,099評(píng)論 3贊 378
代替公主和親
正文我出身青樓峦树，卻偏偏與公主長(zhǎng)得像辣辫，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子魁巩，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,691評(píng)論 2贊 361

轉(zhuǎn)錄組分析(3) - 質(zhì)量控制

目的

操作

安裝

運(yùn)行

解讀

基本信息

堿基質(zhì)量分布

堿基總體質(zhì)量值分布

堿基分布

GC含量分布

N含量分布

接頭序列

重復(fù)序列

整合

安裝

運(yùn)行

推薦閱讀更多精彩內(nèi)容