轉(zhuǎn)錄組分析(3) - 質(zhì)量控制

目的

現(xiàn)在的NGS測(cè)序矗烛,以illumina為首基本都是運(yùn)用邊合成邊測(cè)序的技術(shù)瞭吃。堿基的合成依靠的是化學(xué)反應(yīng)歪架,這使得堿基鏈可以不斷地從5'端一直往3'端合成并延伸下去和蚪。但在這個(gè)合成的過程中隨著合成鏈的增長(zhǎng)攒霹,DNA聚合酶的效率會(huì)不斷下降剔蹋,特異性也開始變差少梁,這就會(huì)帶來一個(gè)問題——越到后面堿基合成的錯(cuò)誤率就會(huì)越高矫付;有時(shí)候測(cè)序儀在剛開始進(jìn)行合成反應(yīng)的時(shí)候也會(huì)由于反應(yīng)還不夠穩(wěn)定买优,同樣會(huì)帶來質(zhì)量值的波動(dòng)杀赢。由于測(cè)序數(shù)據(jù)的質(zhì)量好壞會(huì)影響我們的下游分析脂崔,所以在開始進(jìn)行下游分析之前滤淳,對(duì)數(shù)據(jù)的質(zhì)量有一個(gè)準(zhǔn)確的認(rèn)知是非常有必要的。

操作
安裝
# 手動(dòng)安裝
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
unzip fastqc_v0.11.7.zip
cd FastQC 
chmod 755 fastqc
# apt-get 安裝
sudo apt-get install fastqc
# conda 安裝
conda activate py3
conda install fastqc
運(yùn)行
mkdir result
fastqc -f fastq -q -o result -t 3 sample1.fq.gz sample2.fq.gz sample3.fq.gz

命令比較簡(jiǎn)單砌左,這里唯一值得注意的地方就是 -o 參數(shù)用于指定FastQC報(bào)告的輸出目錄脖咐,這個(gè)目錄需要事先創(chuàng)建好,如果不指定特定的目錄汇歹,那么FastQC的結(jié)果會(huì)默認(rèn)輸出到文件untreated.fq的同一個(gè)目錄下屁擅。它輸出結(jié)果只有兩個(gè),一個(gè)html和一個(gè).zip壓縮包产弹。

解讀

關(guān)于測(cè)序數(shù)據(jù)的質(zhì)量派歌,我們一般關(guān)注以下幾個(gè)方面:(1) read各個(gè)位置的堿基質(zhì)量值分布;(2) 堿基的總體質(zhì)量值分布;(3)read各個(gè)位置上堿基分布比例常挚,目的是為了分析堿基的分離程度贝或;(4) GC含量分布;(5) read各位置的N含量趟佃;(6) read是否還包含測(cè)序的接頭序列序矩;(7)read重復(fù)率,這個(gè)是實(shí)驗(yàn)的擴(kuò)增過程所引入的。其中主要指標(biāo)為堿基質(zhì)量與含量分布劲绪,如果這兩項(xiàng)不合格弟劲,其余都會(huì)受到影響。

基本信息
image.png

Filename, 質(zhì)控文件名淡溯;Encoding, 測(cè)序平臺(tái)膘侮;Total Sequences, reads數(shù)量;Sequence Length, reads長(zhǎng)度昧诱;%GC, GC含量

堿基質(zhì)量分布
image.png

此圖中的橫軸是read上堿基的位置妆丘,縱軸是質(zhì)量得分鱼填,Q = -10*log10(error P)即20表示0.01的錯(cuò)誤率赘理,30表示0.001蜘澜,圖中紅線表示中值装诡,藍(lán)色的細(xì)線是各個(gè)位置的平均值的連線赖淤。Warning 警告:如果任何堿基質(zhì)量低于10,或者是任何中位數(shù)低于25; Failure 不合格:如果任何堿基質(zhì)量低于5,或者是任何中位數(shù)低于20。
好的測(cè)序結(jié)果中,大部分質(zhì)量值的分布都在大于30的綠色背景的區(qū)域,表明質(zhì)量值很高,而且波動(dòng)很小判莉,說明質(zhì)量很穩(wěn)定渗饮。差的測(cè)序結(jié)果中踩叭,質(zhì)量值的分布都在小于20的紅色背景的區(qū)域,表明質(zhì)量值很差,有大量的質(zhì)量差的reads刻帚,并且波動(dòng)很大,對(duì)于這種結(jié)果衙吩,最好重新測(cè)序,如果實(shí)在要用于分析,應(yīng)該將這些低質(zhì)量的reads過濾掉以后進(jìn)行下游分析。

堿基總體質(zhì)量值分布
image.png

該圖橫軸Q值歪今,縱軸是每個(gè)值對(duì)應(yīng)的reads數(shù)目。reads的質(zhì)量值是指該條read每個(gè)位置Q值的平均值坡疼。只要大部分read的質(zhì)量都高于20,那么就比較正常巡语。一般來說枢赔,對(duì)于二代測(cè)序,最好是達(dá)到Q20的堿基要在95%以上(最差不低于90%)屋摔,Q30要求大于85%(最差也不要低于80%)挽鞠。

堿基分布
image.png

這個(gè)圖橫軸是read上堿基的位置油挥;縱軸是百分比深寥,圖中四條線代表A喂链、T椭微、C本慕、G在每個(gè)位置平均含量藤违。這個(gè)指標(biāo)是為了分析堿基的分離程度犹菱。理論上拂盯,假如測(cè)序過程是比較隨機(jī)佑女,A和T應(yīng)該相等,G和C應(yīng)該相等,兩者之間即使有偏差也不應(yīng)該太大团驱,最好平均在1%以內(nèi)摸吠。如果過高,除非有合理的原因嚎花,比如某些特定的捕獲測(cè)序所致寸痢,或者測(cè)序剛開始的時(shí)候測(cè)序儀狀態(tài)不穩(wěn)定,否則都需要注意是不是測(cè)序過程產(chǎn)生偏差紊选。

GC含量分布
image.png

該圖橫軸是0 - 100%啼止; 縱軸是每條序列GC含量對(duì)應(yīng)的數(shù)量,藍(lán)色的線是程序根據(jù)經(jīng)驗(yàn)分布給出的理論值兵罢,紅色是真實(shí)值献烦,兩個(gè)應(yīng)該比較接近才比較好。GC含量指的是G和C這兩種堿基占總堿基的比例趣些。二代測(cè)序平臺(tái)或多或少都存在一定的測(cè)序偏向性,GC含量可以協(xié)助我們判斷測(cè)序過程是否足夠隨機(jī)贰您。一般基因組的GC含量有一個(gè)理論值坏平,例如人類基因組的GC含量一般在40%左右。因此锦亦,如果發(fā)現(xiàn)GC含量的圖譜明顯偏離理論值舶替,說明測(cè)序過程存在較高的序列偏向性,結(jié)果就是基因組中某些特定區(qū)域被反復(fù)測(cè)序的幾率變高杠园,這些區(qū)域的測(cè)序深度遠(yuǎn)高于平均測(cè)序深度顾瞪,這將會(huì)影響下游的變異檢測(cè)和CNV分析。

N含量分布
image.png

這個(gè)圖橫軸是read上堿基的位置抛蚁;縱軸是含N的比例陈醒。Warning 警告 如果任意位置的N比例超過5%,Failure 不合格 如果任意位置的N比例超過20%瞧甩。N在測(cè)序數(shù)據(jù)中一般是不應(yīng)該出現(xiàn)的钉跷,如果出現(xiàn)則意味著,測(cè)序的光學(xué)信號(hào)無(wú)法被清晰分辨肚逸,測(cè)序儀器不能辨別某條reads的某個(gè)位置都是ATCG哪個(gè)堿基爷辙,如果這種情況多的話,往往意味著測(cè)序系統(tǒng)或者測(cè)序試劑的錯(cuò)誤朦促。

接頭序列
image.png

這個(gè)圖橫軸是read上堿基的位置膝晾;縱軸是含各種接頭的比例。當(dāng)測(cè)序read的長(zhǎng)度大于被測(cè)序的DNA片段時(shí)务冕,就會(huì)在read的末尾測(cè)到這些接頭序列血当。由于有些RNA的序列本來就比較短,很多只有幾十bp長(zhǎng)(特別是miRNA),那么測(cè)序的時(shí)候就很容易會(huì)出現(xiàn)read測(cè)通的現(xiàn)象歹颓,這個(gè)時(shí)候就會(huì)在read的末尾測(cè)到這些接頭序列坯屿,此時(shí),在圖中的3‘端位置巍扛,adapter的比例曲線會(huì)上升领跛。這些被測(cè)到的接頭序列在正式分析之前需要被切除。

重復(fù)序列
image.png

統(tǒng)計(jì)序列完全一樣的reads的頻率撤奸。橫坐標(biāo)是duplication的次數(shù)吠昭,縱坐標(biāo)表示各重復(fù)次數(shù)下的 reads 數(shù)占總 reads 的百分比,藍(lán)線展示所有 reads 的重復(fù)情況胧瓜,紅線表示在去掉重復(fù)以后矢棚,原重復(fù)水平下的 reads 占去重后 reads 總數(shù)的百分比;Warning 警告 非 unique 的 reads 占總 reads 數(shù)的 20 % 以上府喳,Failure 不合格 占總 read 數(shù)的 50 % 以上蒲肋。

整合

Fastqc每次對(duì)一個(gè)樣本進(jìn)行質(zhì)量控制并生成評(píng)估報(bào)告,當(dāng)樣本數(shù)量過多時(shí)钝满,查看報(bào)告顯然極不方便兜粘。Multiqc能將fastqc生成的多個(gè)報(bào)告整合成一個(gè)報(bào)告(HTML和PDF格式),方便的查看所有測(cè)序數(shù)據(jù)的質(zhì)量弯蚜。Multiqc支持多種分析類型的質(zhì)控結(jié)果查看孔轴,包括:RNAseq、Whole-Genome Seq碎捺、Bisulfite Seq路鹰、Hi-C等。

安裝
# conda 安裝收厨,multiqc 基于 python3
conda activate py3
conda install multiqc
運(yùn)行
# 整合包含fastqc結(jié)果的文件夾
multiqc -o multi_out fastqc_out
# 整合指定的幾個(gè)fastqc結(jié)果
multiqc -o multi_out sample1_fastqc.zip sample2_fastqc.zip sample3_fastqc.zip
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末晋柱,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子诵叁,更是在濱河造成了極大的恐慌趣斤,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,252評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件黎休,死亡現(xiàn)場(chǎng)離奇詭異浓领,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)势腮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門联贩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人捎拯,你說我怎么就攤上這事泪幌。” “怎么了?”我有些...
    開封第一講書人閱讀 168,814評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵祸泪,是天一觀的道長(zhǎng)吗浩。 經(jīng)常有香客問我,道長(zhǎng)没隘,這世上最難降的妖魔是什么懂扼? 我笑而不...
    開封第一講書人閱讀 59,869評(píng)論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮右蒲,結(jié)果婚禮上阀湿,老公的妹妹穿的比我還像新娘。我一直安慰自己瑰妄,他們只是感情好陷嘴,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著间坐,像睡著了一般灾挨。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上竹宋,一...
    開封第一講書人閱讀 52,475評(píng)論 1 312
  • 那天劳澄,我揣著相機(jī)與錄音,去河邊找鬼逝撬。 笑死浴骂,一個(gè)胖子當(dāng)著我的面吹牛乓土,可吹牛的內(nèi)容都是我干的宪潮。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼趣苏,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼狡相!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起食磕,我...
    開封第一講書人閱讀 39,924評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤尽棕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后彬伦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體滔悉,經(jīng)...
    沈念sama閱讀 46,469評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評(píng)論 3 342
  • 正文 我和宋清朗相戀三年单绑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了回官。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,680評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡搂橙,死狀恐怖歉提,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤苔巨,帶...
    沈念sama閱讀 36,362評(píng)論 5 351
  • 正文 年R本政府宣布版扩,位于F島的核電站,受9級(jí)特大地震影響侄泽,放射性物質(zhì)發(fā)生泄漏礁芦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評(píng)論 3 335
  • 文/蒙蒙 一蔬顾、第九天 我趴在偏房一處隱蔽的房頂上張望宴偿。 院中可真熱鬧,春花似錦诀豁、人聲如沸窄刘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)娩践。三九已至,卻和暖如春烹骨,著一層夾襖步出監(jiān)牢的瞬間翻伺,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工沮焕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留吨岭,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,099評(píng)論 3 378
  • 正文 我出身青樓峦树,卻偏偏與公主長(zhǎng)得像辣辫,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子魁巩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容