功能(GO)或者通路(Pathway)富集分析時,都會涉及到 Background; 做分析時格嘁,分析工具會提供一些數(shù)據(jù)供使用者選擇或者使用自定義的gene list笛求。
例如,在RNAseq或Microarray糕簿;有時候工具提供的 Background時物種所有的基因探入,現(xiàn)在也沒有同一的標(biāo)準(zhǔn)用來自己構(gòu)建Background。
# Background 構(gòu)造方法:
- 使用全基因組中所有的基因冶伞;部分軟件是這樣操作的新症。
- Background應(yīng)該包含可能是陽性結(jié)果的所有基因。
- 實驗中响禽,技術(shù)平臺能夠檢測到的基因徒爹;(e.g., microarray)
# 兩個概念+例子
Background frequency:Background 基因集包含注釋到某個GO term的基因數(shù)目。
sample frequency:需要分析的gene 集包含注釋到某個GO term的基因數(shù)目芋类。
一個例子隆嗅,現(xiàn)有S. cerevisiae(現(xiàn)注釋有6442個基因)的10個基因需要做富集分析,如果這個10基因有5個基因注釋到了GO term-DNA修復(fù)(S. cerevisiae有100個基因注釋到DNA修復(fù) )侯繁;那么現(xiàn)在DNA修復(fù)的樣本頻率(sample frequency)是5/10胖喳;背景頻率(background frequency)就是100/6442。
例子中贮竟,10個基因是確定的丽焊;使用全基因組注釋的基因是6442;若是檢測中只檢測到5000個基因咕别,那么Background gene集選用5000技健,背景頻率也會變化(100 個DNA修復(fù)相關(guān)的基因都被檢測到了),在統(tǒng)計檢驗時P值大小也會變化惰拱。除此之外雌贱,100 個DNA修復(fù)相關(guān)的基因也可能不會全部都在檢測結(jié)果中。
GO term或Pathway 是否在實驗結(jié)果的差異基因集中富集常使用的統(tǒng)計學(xué)檢驗基于超幾何偿短、卡方或二項式分布欣孤。基于基因組中基因注釋到某個GO term的概率不變昔逗,查看差異基因集有多少基因可以注釋到同一個GO term, 從而得到P值降传。
# Background 構(gòu)造方法討論
-
使用全基因組中所有的基因;部分軟件是這樣操作的勾怒。
現(xiàn)在還沒有明確的證據(jù)說明某個基因在某個組織或細(xì)胞系中不表達(dá)搬瑰;組織和細(xì)胞的狀態(tài)是動態(tài)變化的款票,基于不同的情況,基因表達(dá)模式也是不同的泽论;在某個實驗中,部分基因的表達(dá)可能會檢測不到卡乾,但是他們還是背景的一部分翼悴。
使用全基因組中所有的基因,背景頻率就會比較嗅7痢鹦赎;這種情況下得到的結(jié)果,p值也相比會小一些误堡,假陽性也會增多古话。 -
Background應(yīng)該包含可能是陽性結(jié)果的所有基因。
在芯片測序中锁施,特定的芯片也會對某一類的基因具有偏好性陪踩;Affymetrix Human Genome U133 Plus 2.0 GeneChip中包含了更多與甲基化相關(guān)的芯片。
有的實驗?zāi)康氖菫榱搜芯恳欢▽嶒灄l件下某個組織特定生物過程的富集狀況悉抵。常規(guī)的操作是比較實驗和對照組的結(jié)果肩狂,通過差異表達(dá)的方法來鑒定組特異性表達(dá)的基因。陽性結(jié)果的蛋白或基因還是很難去鑒定了姥饰。 -
實驗中傻谁,技術(shù)平臺能夠檢測到的基因;(e.g., microarray)
在microarray實驗中列粪,我們預(yù)先根據(jù)想要檢測的基因設(shè)計了芯片探針审磁,因此所能檢測的基因是已知的。但是一部分探針可能由于背景噪音的影響無法檢測到信號岂座;這部分基因可以通過查閱先前已發(fā)表的的數(shù)據(jù)進(jìn)行評估态蒂。
在RNAseq也存在各種問題會影響基因?qū)嶋H表達(dá)水平的測定,例如掺逼,PCR階段引物與序列之間的偏好性會引入不確定變化吃媒;為了避免技術(shù)和檢測上帶來的問題,人為設(shè)定基因表達(dá)的count閾值吕喘,移除低于閾值的基因或者只是丟棄在所有樣本中count都為零的基因赘那。
參考: