基因表達(dá)水平分析
一個(gè)基因表達(dá)水平的直接體現(xiàn)就是其轉(zhuǎn)錄本的豐度情況蕉斜,轉(zhuǎn)錄本豐度越高鸟辅,則基因表達(dá)水平越高茅糜。在RNA-seq分析中橄杨,我們可以通過(guò)定位到基因組區(qū)域或基因外顯子區(qū)的測(cè)序序列(reads)的計(jì)數(shù)來(lái)估計(jì)基因的表達(dá)水平秘症。Reads計(jì)數(shù)除了與基因的真實(shí)表達(dá)水平成正比外,還與基因的長(zhǎng)度和測(cè)序深度成正相關(guān)式矫。為了使不同基因乡摹、不同實(shí)驗(yàn)間估計(jì)的基因表達(dá)水平具有可比性,人們引入了FPKM的概念采转,F(xiàn)PKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairssequenced)是每百萬(wàn)fragments中來(lái)自某一基因每千堿基長(zhǎng)度的fragments數(shù)目聪廉,其同時(shí)考慮了測(cè)序深度和基因長(zhǎng)度對(duì)fragments計(jì)數(shù)的影響,是目前最為常用的基因表達(dá)水平估算方法(Trapnell, Cole, et al., 2010)故慈。
差異表達(dá)分析
通過(guò)所有基因的FPKM分布圖以及盒形圖對(duì)不同實(shí)驗(yàn)條件下的基因表達(dá)水平進(jìn)行比較板熊。對(duì)于同一實(shí)驗(yàn)條件下的重復(fù)樣品,最終的FPKM為所有重復(fù)數(shù)據(jù)的平均值察绷。
基因差異表達(dá)的輸入數(shù)據(jù)為基因表達(dá)水平分析中得到的readcount數(shù)據(jù)干签。對(duì)于有生物學(xué)重復(fù)的樣品,我們采用DESeq(Anders et al, 2010)進(jìn)行分析:
該分析方法基于的模型是負(fù)二項(xiàng)分布拆撼,第 i 個(gè)基因在第 j 個(gè)樣本中的 read count 值為Kij容劳,則有Kij ~ NB(μij,σij2)
對(duì)于無(wú)生物學(xué)重復(fù)的樣品喘沿,先采用TMM對(duì)read count數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,之后用DEGseq進(jìn)行差異分析竭贩。差異表達(dá)基因列表如下:
用火山圖可以推斷差異基因的整體分布情況蚜印,對(duì)于無(wú)生物學(xué)重復(fù)的實(shí)驗(yàn),為消除生物學(xué)變異娶视,從差異倍數(shù)和顯著水平兩個(gè)方面進(jìn)行評(píng)估,對(duì)差異基因進(jìn)行篩選睁宰,
閾值設(shè)定一般為: |log2(FoldChange)| > 1 且 qvalue < 0.005肪获。對(duì)于有生物學(xué)重復(fù)的實(shí)驗(yàn),由于DESeq已經(jīng)進(jìn)行了生物學(xué)變異的消除柒傻,我們對(duì)差異基因篩選的標(biāo)準(zhǔn)一般為:
padj < 0.05孝赫。
差異基因維恩圖
差異基因維恩圖展示了各比較組間差異基因的個(gè)數(shù),以及比較組間的重疊關(guān)系红符。
差異基因聚類(lèi)分析
聚類(lèi)分析用于判斷差異基因在不同實(shí)驗(yàn)條件下的表達(dá)模式青柄;通過(guò)將表達(dá)模式相同或相近的基因聚集成類(lèi),從而識(shí)別未知基因的功能或已知基因的未知功能预侯;因?yàn)檫@些同類(lèi)的基因可能具有相似的功能致开,或是共同參與同一代謝過(guò)程或細(xì)胞通路。以不同實(shí)驗(yàn)條件下的差異基因的FPKM值為表達(dá)水平萎馅,做層次聚類(lèi)(hierarchical clustering)分析双戳,不同顏色的區(qū)域代表不同的聚類(lèi)分組信息,同組內(nèi)的基因表達(dá)模式相近糜芳,可能具有相似的功能或參與相同的生物學(xué)過(guò)程飒货。