GO富集分析(上)

一吴裤、原理

?Gene Ontology(GO)是一個國際標準化的基因功能分類體系继蜡,提供了一套動態(tài)更新的標準詞匯表诗充,用于全面描述生物體中基因和基因產(chǎn)物的屬性苍蔬。


1)GO包含三個主要的本體(ontology),分別為:

① 分子功能(Molecular Function):描述基因產(chǎn)物的分子活動蝴蜓,例如催化作用或結(jié)合功能碟绑。

② 細胞組分(Cellular Component):描述基因產(chǎn)物在細胞中的位置,如細胞膜茎匠、細胞核等格仲。

③ 生物過程(Biological Process):描述基因產(chǎn)物參與的生物學活動或過程,如細胞分裂诵冒、信號轉(zhuǎn)導等凯肋。


2)GO分析的目標是通過將差異表達基因(DEGs)與GO數(shù)據(jù)庫中的term(詞條)進行映射,找出在差異表達基因中顯著富集的GO條目造烁。

具體步驟如下:

① 將差異表達基因映射到GO數(shù)據(jù)庫(http://www.geneontology.org/)否过,統(tǒng)計每個GO term的基因數(shù)目。

② 通過超幾何檢驗惭蟋,計算每個GO term的顯著性苗桂,找出與整個基因組背景相比,在差異表達基因中顯著富集的GO條目告组。

注意:

① GO的基本單位是term(詞條煤伟、節(jié)點),每個term都對應(yīng)一個屬性木缝。

② GO功能分析一方面給出差異表達基因的GO功能分類注釋

③ 另一方面給出差異表達基因的GO功能顯著性富集分析便锨。

P值計算公式:?

N:所有Unigene中具有GO注釋的基因數(shù)目

n:差異表達基因中具有GO注釋的基因數(shù)目

M:所有Unigene中注釋為某特定GO term的基因數(shù)目

m:差異表達基因中注釋為某特定GO term的基因數(shù)目

計算得到的P值經(jīng)過FDR校正后,若校正后的P值(corrected-pvalue)≤0.05我碟,則認為該GO term在差異表達基因中顯著富集放案。


3)GO分析可以幫助我們了解差異表達基因的功能

① 輸入基因集或差異基因集,進行GO富集分析矫俺。

② 通過可視化圖形呈現(xiàn)分析結(jié)果吱殉,輸出圖形包括富集氣泡圖掸冤、條形圖、圈圖友雳、z-score氣泡圖(需要Log2(FC)數(shù)據(jù))稿湿、網(wǎng)絡(luò)圖、二級分類圖等押赊。


4)文件類型及格式:

① 無差異基因列:包含基因ID列表饺藤。

基因ID

② 有差異基因列:包含基因ID和對應(yīng)的差異表達值。

基因ID和對應(yīng)的差異表達值

③ 背景基因文件:

兩類

一類:第一列為基因ID流礁,第二列為GO注釋涕俗。
二類:同一基因的所有GO term列在同一行。


5)參數(shù)設(shè)置:

① 選擇P值或Q值作圖:選擇P-value或Q-value作為顯著性檢驗的標準崇棠。

② 選擇前N個通路作圖:選擇繪制前15~30個GO條目咽袜。

注:

1. P-value (概率值)

1)定義:P-value 是假設(shè)檢驗中的一個統(tǒng)計量,表示在零假設(shè)(null hypothesis)成立的前提下枕稀,觀測到當前或更極端數(shù)據(jù)的概率。簡言之谜嫉,P-value 反映了結(jié)果的“偶然性”或“顯著性”萎坷。

2)計算方法:P-value 是根據(jù)實驗數(shù)據(jù)計算得到的,用于判斷實驗結(jié)果是否支持零假設(shè)(即沒有差異或關(guān)聯(lián))沐兰。小的 P-value(通常小于 0.05)意味著結(jié)果不太可能是偶然發(fā)生的哆档,因此拒絕零假設(shè),認為差異或關(guān)聯(lián)是顯著的住闯。

① P-value ≤ 0.05:一般認為差異具有統(tǒng)計學顯著性瓜浸。

② P-value > 0.05:表示結(jié)果不顯著,無法拒絕零假設(shè)比原。

3)局限性:

① P-value 只能反映一個假設(shè)檢驗的顯著性插佛,但在多次比較的情況下,可能會導致假陽性結(jié)果的增加量窘。

② 它沒有考慮多個假設(shè)檢驗時的錯誤率控制雇寇。

2. Q-value (假發(fā)現(xiàn)率,F(xiàn)DR調(diào)整后的P值)

1)定義:Q-value 是針對多重假設(shè)檢驗進行調(diào)整后的 P-value蚌铜,考慮了多個比較中的錯誤發(fā)現(xiàn)率(False Discovery Rate, FDR)锨侯。它是在 P-value 的基礎(chǔ)上,通過控制假陽性比例來調(diào)整的冬殃。

2)計算方法:Q-value 是通過多個假設(shè)檢驗中的 P-value 調(diào)整得到的囚痴,它給出的是在所有測試中拒絕零假設(shè)時,錯誤發(fā)現(xiàn)的期望比例审葬。Q-value 的計算方法通常使用 Benjamini-Hochberg (BH) 校正深滚,即通過調(diào)整每個 P-value 來控制 FDR骂束。

① Q-value ≤ 0.05:表示在多重假設(shè)檢驗中,結(jié)果是顯著的成箫,并且假陽性(錯誤發(fā)現(xiàn))的概率較低展箱。

② Q-value > 0.05:表示在多次比較中,結(jié)果并不顯著蹬昌,假陽性風險較高混驰。

3)優(yōu)勢:

① Q-value 能更好地處理多個假設(shè)檢驗帶來的問題,它通過控制假發(fā)現(xiàn)率(FDR)來減少假陽性(False Positive)的出現(xiàn)皂贩。

② 在基因富集分析栖榨、轉(zhuǎn)錄組分析等涉及多個假設(shè)檢驗的生物學研究中,Q-value 更為可靠明刷。

總結(jié):

① P-value 是單次假設(shè)檢驗的顯著性指標婴栽,表示觀察到的結(jié)果是否顯著。

② Q-value 是經(jīng)過多重比較校正后的顯著性值辈末,考慮了多個假設(shè)檢驗中的假陽性風險愚争,在多重假設(shè)檢驗中更為可靠。


6)GO分析圖形示例:

P-value 和 Q-value 是統(tǒng)計分析中常用的顯著性檢驗指標挤聘,尤其在基因富集分析等生物信息學研究中轰枝,它們用于判斷結(jié)果是否顯著,且在多重假設(shè)檢驗時有不同的作用组去。


Bai L, Wu C, Lei S, et al. Potential anti-gout properties of Wuwei Shexiang pills based on network pharmacology and pharmacological verification[J]. Journal of Ethnopharmacology, 2023, 305: 116147.


Guo H, Zhong Q, Tian F, et al. Transcriptome analysis reveals putative induction of floral initiation by old leaves in tea-oil tree (Camellia oleifera ‘changlin53’)[J]. International Journal of Molecular Sciences, 2022, 23(21): 13021.


Zhang F, Hu G, Chen X, et al. Excessive branched-chain amino acid accumulation restricts mesenchymal stem cell-based therapy efficacy in myocardial infarction[J]. Signal Transduction and Targeted Therapy, 2022, 7(1): 171-171.


等等


7)什么時候使用 P-value鞍陨,什么時候使用 Q-value?

P-value 適用于小規(guī)模富集分析从隆,樣本量較小或假設(shè)檢驗較少時诚撵,可以直接使用 P-value 來判斷顯著性。Q-value 適用于大規(guī)模富集分析键闺,特別是在涉及多個 GO term 或多個假設(shè)檢驗時寿烟,Q-value 更適合用于控制假陽性率,是推薦的顯著性標準艾杏。


1. 使用 P-value:

適用于:小樣本或少量假設(shè)檢驗韧衣。

情境:如果你進行的富集分析涉及的 GO term 數(shù)量相對較少(例如,只測試了幾十個 GO term)购桑,或者你的基因集規(guī)模較小畅铭,且假設(shè)檢驗的數(shù)量不大,這時可以使用 P-value 作為顯著性標準勃蜘。

原因:在這種情況下硕噩,多重比較的影響較小,使用 P-value 直接判斷每個 GO term 是否顯著即可缭贡,假陽性(False Positive)的風險不會顯著增加炉擅。

閾值:通常設(shè)定 P-value ≤ 0.05 作為顯著性的標準辉懒。這樣,你可以直接看哪些 GO term 的 P-value 小于 0.05谍失,認為這些 GO term 在你的基因集中富集眶俩。

例如:

假設(shè)你僅分析了 10 個 GO term,P-value 小于 0.05 時快鱼,表示該 GO term 在差異基因中顯著富集颠印。


2. 使用 Q-value(更推薦):

適用于:大樣本或大量假設(shè)檢驗。

情境:如果富集分析涉及大量 GO term(例如數(shù)百到上千個 GO term)抹竹,這種情況下必須考慮 多重比較校正 的問題线罕,因為隨著假設(shè)檢驗的數(shù)量增加,假陽性的概率也會增大窃判。

原因:多重假設(shè)檢驗(Multiple Hypothesis Testing)會增加拒絕零假設(shè)的機會钞楼,即使這些拒絕的假設(shè)可能并不顯著,這就引入了假陽性(False Positive)問題袄琳。Q-value 通過控制 假發(fā)現(xiàn)率(FDR) 來解決這個問題询件,從而避免過多的假陽性。


3. Q-value的優(yōu)點:

控制假陽性率:Q-value 校正了多個檢驗時的假陽性跨蟹,能夠在較大樣本和較多假設(shè)檢驗的情況下雳殊,可靠地控制假陽性的比例。

更適合大規(guī)模數(shù)據(jù)分析:對于高通量數(shù)據(jù)(如基因表達數(shù)據(jù))窗轩,使用 Q-value 能夠更有效地篩選顯著富集的 GO term,避免錯誤發(fā)現(xiàn)座咆。

閾值:通常設(shè)定 Q-value ≤ 0.05 作為顯著性標準痢艺。如果 Q-value 小于 0.05,表示該 GO term 在差異基因中顯著富集介陶,并且控制了假陽性率堤舒。

例如:

假設(shè)你分析了上千個 GO term,Q-value 小于 0.05 的 GO term 認為是顯著富集的哺呜,并且假陽性風險較低舌缤。


4. P-value 和 Q-value 的關(guān)系:

① P-value 是初步計算出來的原始統(tǒng)計值,表示在零假設(shè)下某残,觀察到數(shù)據(jù)的極端程度国撵。但它沒有考慮多次檢驗的影響。

② Q-value 是 P-value 在經(jīng)過多重比較校正(如 Benjamini-Hochberg 校正)后的結(jié)果玻墅,表示在進行多重檢驗時介牙,假陽性率的期望值。

③ 在多重檢驗時澳厢,Q-value 比 P-value 更加可靠环础,因此通常推薦在富集分析中使用 Q-value囚似,尤其是在涉及大量 GO term 或基因的情況下。



生物信息學領(lǐng)域非常廣泛线得,難以一次說盡饶唤。我們下次繼續(xù)更新,一起深入學習生物信息學的內(nèi)容贯钩!

喜歡的寶子們點個贊吧~碼字不易募狂,且行且珍惜~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者魏保。
  • 序言:七十年代末熬尺,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子谓罗,更是在濱河造成了極大的恐慌粱哼,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件檩咱,死亡現(xiàn)場離奇詭異揭措,居然都是意外死亡,警方通過查閱死者的電腦和手機刻蚯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進店門绊含,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人炊汹,你說我怎么就攤上這事躬充。” “怎么了讨便?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵充甚,是天一觀的道長。 經(jīng)常有香客問我霸褒,道長伴找,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任废菱,我火速辦了婚禮技矮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘殊轴。我一直安慰自己衰倦,他們只是感情好,可當我...
    茶點故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布梳凛。 她就那樣靜靜地躺著耿币,像睡著了一般。 火紅的嫁衣襯著肌膚如雪韧拒。 梳的紋絲不亂的頭發(fā)上淹接,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天十性,我揣著相機與錄音,去河邊找鬼塑悼。 笑死劲适,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的厢蒜。 我是一名探鬼主播霞势,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼斑鸦!你這毒婦竟也來了愕贡?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤巷屿,失蹤者是張志新(化名)和其女友劉穎固以,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嘱巾,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡憨琳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了旬昭。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片篙螟。...
    茶點故事閱讀 40,680評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖问拘,靈堂內(nèi)的尸體忽然破棺而出遍略,到底是詐尸還是另有隱情,我是刑警寧澤骤坐,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布墅冷,位于F島的核電站,受9級特大地震影響或油,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜驰唬,卻給世界環(huán)境...
    茶點故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一顶岸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧叫编,春花似錦辖佣、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至霞篡,卻和暖如春世蔗,著一層夾襖步出監(jiān)牢的瞬間端逼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工污淋, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留顶滩,地道東北人。 一個月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓寸爆,卻偏偏與公主長得像礁鲁,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子赁豆,可洞房花燭夜當晚...
    茶點故事閱讀 45,691評論 2 361