<meta charset="utf-8">
基因表達(dá)水平分析
一個(gè)基因表達(dá)水平的直接體現(xiàn)就是其轉(zhuǎn)錄本的豐度情況筒捺,轉(zhuǎn)錄本豐度越高系吭,則基因表達(dá)水平越高。在RNA-seq分析中肯尺,我們可以通過定位到基因組區(qū)域或基因外顯子區(qū)的測序序列(reads)的計(jì)數(shù)來估計(jì)基因的表達(dá)水平躯枢。Reads計(jì)數(shù)除了與基因的真實(shí)表達(dá)水平成正比外,還與基因的長度和測序深度成正相關(guān)锄蹂。為了使不同基因、不同實(shí)驗(yàn)間估計(jì)的基因表達(dá)水平具有可比性敬扛,人們引入了FPKM的概念朝抖,F(xiàn)PKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairssequenced)是每百萬fragments中來自某一基因每千堿基長度的fragments數(shù)目,其同時(shí)考慮了測序深度和基因長度對fragments計(jì)數(shù)的影響治宣,是目前最為常用的基因表達(dá)水平估算方法(Trapnell, Cole, et al., 2010)。
差異表達(dá)分析
通過所有基因的FPKM分布圖以及盒形圖對不同實(shí)驗(yàn)條件下的基因表達(dá)水平進(jìn)行比較缆巧。對于同一實(shí)驗(yàn)條件下的重復(fù)樣品陕悬,最終的FPKM為所有重復(fù)數(shù)據(jù)的平均值按傅。
基因差異表達(dá)的輸入數(shù)據(jù)為基因表達(dá)水平分析中得到的readcount數(shù)據(jù)。對于有生物學(xué)重復(fù)的樣品拼岳,我們采用DESeq(Anders et al, 2010)進(jìn)行分析:
該分析方法基于的模型是負(fù)二項(xiàng)分布,第 i 個(gè)基因在第 j 個(gè)樣本中的 read count 值為Kij惜纸,則有Kij ~ NB(μij,σij2)
對于無生物學(xué)重復(fù)的樣品,先采用TMM對read count數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理祠够,之后用DEGseq進(jìn)行差異分析。差異表達(dá)基因列表如下:
用火山圖可以推斷差異基因的整體分布情況古瓤,對于無生物學(xué)重復(fù)的實(shí)驗(yàn)落君,為消除生物學(xué)變異,從差異倍數(shù)和顯著水平兩個(gè)方面進(jìn)行評估绎速,對差異基因進(jìn)行篩選,
閾值設(shè)定一般為: |log2(FoldChange)| > 1 且 qvalue < 0.005朝氓。對于有生物學(xué)重復(fù)的實(shí)驗(yàn)主届,由于DESeq已經(jīng)進(jìn)行了生物學(xué)變異的消除,我們對差異基因篩選的標(biāo)準(zhǔn)一般為:
padj < 0.05君丁。
差異基因維恩圖
差異基因維恩圖展示了各比較組間差異基因的個(gè)數(shù),以及比較組間的重疊關(guān)系橡庞。
差異基因聚類分析
聚類分析用于判斷差異基因在不同實(shí)驗(yàn)條件下的表達(dá)模式印蔗;通過將表達(dá)模式相同或相近的基因聚集成類,從而識別未知基因的功能或已知基因的未知功能华嘹;因?yàn)檫@些同類的基因可能具有相似的功能,或是共同參與同一代謝過程或細(xì)胞通路强挫。以不同實(shí)驗(yàn)條件下的差異基因的FPKM值為表達(dá)水平,做層次聚類(hierarchical clustering)分析俯渤,不同顏色的區(qū)域代表不同的聚類分組信息,同組內(nèi)的基因表達(dá)模式相近八匠,可能具有相似的功能或參與相同的生物學(xué)過程。
作者:湖紅點(diǎn)鮭
鏈接:http://www.reibang.com/p/60332be9cef2
來源:簡書
著作權(quán)歸作者所有梨树。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處渊涝。