生信分析學(xué)習(xí)筆記 - RNAseq (三) FastQC評(píng)估

聲明:本文部分內(nèi)容和部分圖片來(lái)源于網(wǎng)絡(luò)。本文為生信小白學(xué)習(xí)筆記偶妖,不能保證專業(yè)名詞和內(nèi)容全部正確或權(quán)威甜滨。? ? ? ?

? ? ? ?下圖為某一條RNAseq從數(shù)據(jù)預(yù)處理女气,序列回帖到數(shù)據(jù)可視化的工作流程拇涤,包含了較多的軟件(Linux環(huán)境運(yùn)行)和若干個(gè)包(R語(yǔ)言環(huán)境運(yùn)行)捣作,本系列將按下圖,對(duì)每一個(gè)步驟進(jìn)行學(xué)習(xí)和理解鹅士。

某RNAseq分析流程

FastQC可以生成fastq文件的質(zhì)量報(bào)告券躁。

Basic Statistics

從read水平,概況fastq文件質(zhì)量掉盅。

可從文件中獲得文件名也拜,文件類型,測(cè)試平臺(tái)的版本(Encoding)怔接,總序列數(shù)搪泳,標(biāo)為質(zhì)量差的序列數(shù),序列長(zhǎng)度和GC占比扼脐。不同物種GC占比不同岸军,人類為42%左右。


樣品1


Per base sequence quality

? ? ? ?一種可快速分析測(cè)序質(zhì)量的方法瓦侮。綠色區(qū)域的值是完全正常艰赞,黃色區(qū)域?yàn)檩p度不正常,紅色區(qū)域?yàn)榉浅2徽肚吏!?/p>

? ? ? ?橫坐標(biāo)為讀段方妖,縱坐標(biāo)為測(cè)序質(zhì)量評(píng)估。這里的Quality score=-10*lg10(error P)罚攀,20%Q表示1%的錯(cuò)誤讀取率党觅,30%為0.1%錯(cuò)誤讀取率。黃色塊的上下線表示質(zhì)量25%和75%斋泄;藍(lán)色線杯瞻,平均數(shù);紅色線炫掐,中位數(shù)魁莉。

一般要求箱線圖10%的線大于Q=20。


樣品1-質(zhì)量好


樣品2-質(zhì)量差

Per tile sequence quality

縱坐標(biāo)為tail的index編號(hào)募胃。藍(lán)色表示質(zhì)量高旗唁,淺色或紅色表示質(zhì)量低。目的是分析是否特定tail受影響后質(zhì)量低痹束。后續(xù)可針對(duì)性去除低質(zhì)量tail检疫。

樣品2-質(zhì)量差

Per sequence quality scores

該圖表示總體read平均Q值的分布。橫坐標(biāo)為Q值参袱,縱坐標(biāo)為read數(shù)电谣。越多read的Q值集中在高分區(qū)秽梅,證明該樣品質(zhì)量越好。

樣品1-質(zhì)量好


樣品2-質(zhì)量差

Per base sequence content

四個(gè)堿基在讀段不同位置的百分比剿牺。橫坐標(biāo)是測(cè)試堿基的位置企垦,縱坐標(biāo)為堿基百分比。

理論上晒来,四種不同堿基百分比差別不大钞诡,若測(cè)試堿基前端不同堿基差別較大(AT或CG差別超過(guò)10%),此項(xiàng)檢測(cè)質(zhì)量較低湃崩∮担可能的原因是在測(cè)試前幾個(gè)堿基時(shí),儀器設(shè)備調(diào)整導(dǎo)致的偏差攒读,可在后續(xù)數(shù)據(jù)預(yù)處理中朵诫,將其剪出。后段差別較大的原因可能是測(cè)試時(shí)的adapter沒(méi)有清除干凈薄扁,可在后續(xù)清除剪返。

樣品1-質(zhì)量好


樣品2-質(zhì)量差

Per sequence GC content

該圖表示GC堿基在所有序列中的分布。紅色線表示待評(píng)估樣品中每read的GC數(shù)邓梅,越符合理論分布脱盲,表明該樣品質(zhì)量越好。如果雙峰日缨,可能混有了其他物種的DNA序列钱反。

樣品1-質(zhì)量好


樣品2-質(zhì)量差

Sequence Length Distribution

橫坐標(biāo)為序列長(zhǎng)度,縱坐標(biāo)為序列數(shù)匣距。在下圖中面哥,理論上,所有序列都應(yīng)該是40 bp毅待。

樣品1

Adapter Content

檢測(cè)樣品中adapter是否被全部去除及種類幢竹。理論上,樣品中不含有adapter恩静。從下圖中,可看出本樣品有adapter未全部去除蹲坷,且剩余的是Illumina Universal Adapter


樣品2-質(zhì)量差

MultiQC可將數(shù)個(gè)fastQC結(jié)果整合到一個(gè)文件驶乾,方便查閱分析。

Adatpter & kmer

? ? ? ?Adapter是Illumina雙端測(cè)序時(shí)循签,會(huì)在待測(cè)鏈兩端加上adapter级乐,其和flowcell上的oligo是配對(duì)的,可幫助待測(cè)序列固定在flowcell上县匠,而primer是擴(kuò)增insert部分的引物风科。

在Illumina雙端測(cè)序中撒轮,通用的Adapter是:

Top adapter:5' ACACTCTTTCCCTACACGACGCTCTTCCGATC*T 3'

Bottom adapter:5' P-GATCGGAAGAGCGGTTCAGCAGGAATGCCGAG 3'

? ? ? ?Kmer就是指 k 長(zhǎng)度的序列,比如GATTC就是5-mer贼穆。Kmer content圖(如下圖)分析不同k-mer的短序列出現(xiàn)的頻數(shù)题山。橫坐標(biāo)表示短序列的長(zhǎng)度,縱坐標(biāo)表示某長(zhǎng)度的序列在總reads中的百分比故痊。

? ? ? ?在分析Kmer問(wèn)題時(shí)顶瞳,要考慮不同序列長(zhǎng)度觀測(cè)到的出現(xiàn)頻率與預(yù)期頻率。使用圖片上端的公式計(jì)算觀測(cè)值與預(yù)測(cè)值的差異愕秫。其值高于5慨菱,會(huì)被認(rèn)為over-represented。同時(shí)戴甩,fastQC也會(huì)給出kmer的統(tǒng)計(jì)報(bào)告符喝。可得到最顯著且觀測(cè)值與預(yù)測(cè)值差異最大的kmer序列內(nèi)容甜孤。


kmer
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末协饲,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子课蔬,更是在濱河造成了極大的恐慌囱稽,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件二跋,死亡現(xiàn)場(chǎng)離奇詭異战惊,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)扎即,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門吞获,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人谚鄙,你說(shuō)我怎么就攤上這事各拷。” “怎么了闷营?”我有些...
    開(kāi)封第一講書人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵烤黍,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我傻盟,道長(zhǎng)速蕊,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任娘赴,我火速辦了婚禮规哲,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘诽表。我一直安慰自己唉锌,他們只是感情好隅肥,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著袄简,像睡著了一般腥放。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上痘番,一...
    開(kāi)封第一講書人閱讀 51,624評(píng)論 1 305
  • 那天捉片,我揣著相機(jī)與錄音,去河邊找鬼汞舱。 笑死伍纫,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的昂芜。 我是一名探鬼主播莹规,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼泌神!你這毒婦竟也來(lái)了良漱?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤欢际,失蹤者是張志新(化名)和其女友劉穎母市,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體损趋,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡患久,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了浑槽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蒋失。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖桐玻,靈堂內(nèi)的尸體忽然破棺而出篙挽,到底是詐尸還是另有隱情,我是刑警寧澤镊靴,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布铣卡,位于F島的核電站,受9級(jí)特大地震影響偏竟,放射性物質(zhì)發(fā)生泄漏算行。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一苫耸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧儡陨,春花似錦褪子、人聲如沸量淌。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)呀枢。三九已至,卻和暖如春笼痛,著一層夾襖步出監(jiān)牢的瞬間裙秋,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工缨伊, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留摘刑,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓刻坊,卻偏偏與公主長(zhǎng)得像枷恕,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子谭胚,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355