一吴裤、原理
?Gene Ontology(GO)是一個國際標準化的基因功能分類體系继蜡,提供了一套動態(tài)更新的標準詞匯表诗充,用于全面描述生物體中基因和基因產(chǎn)物的屬性苍蔬。
1)GO包含三個主要的本體(ontology),分別為:
① 分子功能(Molecular Function):描述基因產(chǎn)物的分子活動蝴蜓,例如催化作用或結(jié)合功能碟绑。
② 細胞組分(Cellular Component):描述基因產(chǎn)物在細胞中的位置,如細胞膜茎匠、細胞核等格仲。
③ 生物過程(Biological Process):描述基因產(chǎn)物參與的生物學活動或過程,如細胞分裂诵冒、信號轉(zhuǎn)導等凯肋。
2)GO分析的目標是通過將差異表達基因(DEGs)與GO數(shù)據(jù)庫中的term(詞條)進行映射,找出在差異表達基因中顯著富集的GO條目造烁。
具體步驟如下:
① 將差異表達基因映射到GO數(shù)據(jù)庫(http://www.geneontology.org/)否过,統(tǒng)計每個GO term的基因數(shù)目。
② 通過超幾何檢驗惭蟋,計算每個GO term的顯著性苗桂,找出與整個基因組背景相比,在差異表達基因中顯著富集的GO條目告组。
注意:
① GO的基本單位是term(詞條煤伟、節(jié)點),每個term都對應(yīng)一個屬性木缝。
② GO功能分析一方面給出差異表達基因的GO功能分類注釋
③ 另一方面給出差異表達基因的GO功能顯著性富集分析便锨。
P值計算公式:?
N:所有Unigene中具有GO注釋的基因數(shù)目
n:差異表達基因中具有GO注釋的基因數(shù)目
M:所有Unigene中注釋為某特定GO term的基因數(shù)目
m:差異表達基因中注釋為某特定GO term的基因數(shù)目
計算得到的P值經(jīng)過FDR校正后,若校正后的P值(corrected-pvalue)≤0.05我碟,則認為該GO term在差異表達基因中顯著富集放案。
3)GO分析可以幫助我們了解差異表達基因的功能
① 輸入基因集或差異基因集,進行GO富集分析矫俺。
② 通過可視化圖形呈現(xiàn)分析結(jié)果吱殉,輸出圖形包括富集氣泡圖掸冤、條形圖、圈圖友雳、z-score氣泡圖(需要Log2(FC)數(shù)據(jù))稿湿、網(wǎng)絡(luò)圖、二級分類圖等押赊。
4)文件類型及格式:
① 無差異基因列:包含基因ID列表饺藤。
② 有差異基因列:包含基因ID和對應(yīng)的差異表達值。
③ 背景基因文件:
兩類
5)參數(shù)設(shè)置:
① 選擇P值或Q值作圖:選擇P-value或Q-value作為顯著性檢驗的標準崇棠。
② 選擇前N個通路作圖:選擇繪制前15~30個GO條目咽袜。
注:
1. P-value (概率值)
1)定義:P-value 是假設(shè)檢驗中的一個統(tǒng)計量,表示在零假設(shè)(null hypothesis)成立的前提下枕稀,觀測到當前或更極端數(shù)據(jù)的概率。簡言之谜嫉,P-value 反映了結(jié)果的“偶然性”或“顯著性”萎坷。
2)計算方法:P-value 是根據(jù)實驗數(shù)據(jù)計算得到的,用于判斷實驗結(jié)果是否支持零假設(shè)(即沒有差異或關(guān)聯(lián))沐兰。小的 P-value(通常小于 0.05)意味著結(jié)果不太可能是偶然發(fā)生的哆档,因此拒絕零假設(shè),認為差異或關(guān)聯(lián)是顯著的住闯。
① P-value ≤ 0.05:一般認為差異具有統(tǒng)計學顯著性瓜浸。
② P-value > 0.05:表示結(jié)果不顯著,無法拒絕零假設(shè)比原。
3)局限性:
① P-value 只能反映一個假設(shè)檢驗的顯著性插佛,但在多次比較的情況下,可能會導致假陽性結(jié)果的增加量窘。
② 它沒有考慮多個假設(shè)檢驗時的錯誤率控制雇寇。
2. Q-value (假發(fā)現(xiàn)率,F(xiàn)DR調(diào)整后的P值)
1)定義:Q-value 是針對多重假設(shè)檢驗進行調(diào)整后的 P-value蚌铜,考慮了多個比較中的錯誤發(fā)現(xiàn)率(False Discovery Rate, FDR)锨侯。它是在 P-value 的基礎(chǔ)上,通過控制假陽性比例來調(diào)整的冬殃。
2)計算方法:Q-value 是通過多個假設(shè)檢驗中的 P-value 調(diào)整得到的囚痴,它給出的是在所有測試中拒絕零假設(shè)時,錯誤發(fā)現(xiàn)的期望比例审葬。Q-value 的計算方法通常使用 Benjamini-Hochberg (BH) 校正深滚,即通過調(diào)整每個 P-value 來控制 FDR骂束。
① Q-value ≤ 0.05:表示在多重假設(shè)檢驗中,結(jié)果是顯著的成箫,并且假陽性(錯誤發(fā)現(xiàn))的概率較低展箱。
② Q-value > 0.05:表示在多次比較中,結(jié)果并不顯著蹬昌,假陽性風險較高混驰。
3)優(yōu)勢:
① Q-value 能更好地處理多個假設(shè)檢驗帶來的問題,它通過控制假發(fā)現(xiàn)率(FDR)來減少假陽性(False Positive)的出現(xiàn)皂贩。
② 在基因富集分析栖榨、轉(zhuǎn)錄組分析等涉及多個假設(shè)檢驗的生物學研究中,Q-value 更為可靠明刷。
總結(jié):
① P-value 是單次假設(shè)檢驗的顯著性指標婴栽,表示觀察到的結(jié)果是否顯著。
② Q-value 是經(jīng)過多重比較校正后的顯著性值辈末,考慮了多個假設(shè)檢驗中的假陽性風險愚争,在多重假設(shè)檢驗中更為可靠。
6)GO分析圖形示例:
7)什么時候使用 P-value鞍陨,什么時候使用 Q-value?
1. 使用 P-value:
適用于:小樣本或少量假設(shè)檢驗韧衣。
情境:如果你進行的富集分析涉及的 GO term 數(shù)量相對較少(例如,只測試了幾十個 GO term)购桑,或者你的基因集規(guī)模較小畅铭,且假設(shè)檢驗的數(shù)量不大,這時可以使用 P-value 作為顯著性標準勃蜘。
原因:在這種情況下硕噩,多重比較的影響較小,使用 P-value 直接判斷每個 GO term 是否顯著即可缭贡,假陽性(False Positive)的風險不會顯著增加炉擅。
閾值:通常設(shè)定 P-value ≤ 0.05 作為顯著性的標準辉懒。這樣,你可以直接看哪些 GO term 的 P-value 小于 0.05谍失,認為這些 GO term 在你的基因集中富集眶俩。
例如:
假設(shè)你僅分析了 10 個 GO term,P-value 小于 0.05 時快鱼,表示該 GO term 在差異基因中顯著富集颠印。
2. 使用 Q-value(更推薦):
適用于:大樣本或大量假設(shè)檢驗。
情境:如果富集分析涉及大量 GO term(例如數(shù)百到上千個 GO term)抹竹,這種情況下必須考慮 多重比較校正 的問題线罕,因為隨著假設(shè)檢驗的數(shù)量增加,假陽性的概率也會增大窃判。
原因:多重假設(shè)檢驗(Multiple Hypothesis Testing)會增加拒絕零假設(shè)的機會钞楼,即使這些拒絕的假設(shè)可能并不顯著,這就引入了假陽性(False Positive)問題袄琳。Q-value 通過控制 假發(fā)現(xiàn)率(FDR) 來解決這個問題询件,從而避免過多的假陽性。
3. Q-value的優(yōu)點:
控制假陽性率:Q-value 校正了多個檢驗時的假陽性跨蟹,能夠在較大樣本和較多假設(shè)檢驗的情況下雳殊,可靠地控制假陽性的比例。
更適合大規(guī)模數(shù)據(jù)分析:對于高通量數(shù)據(jù)(如基因表達數(shù)據(jù))窗轩,使用 Q-value 能夠更有效地篩選顯著富集的 GO term,避免錯誤發(fā)現(xiàn)座咆。
閾值:通常設(shè)定 Q-value ≤ 0.05 作為顯著性標準痢艺。如果 Q-value 小于 0.05,表示該 GO term 在差異基因中顯著富集介陶,并且控制了假陽性率堤舒。
例如:
假設(shè)你分析了上千個 GO term,Q-value 小于 0.05 的 GO term 認為是顯著富集的哺呜,并且假陽性風險較低舌缤。
4. P-value 和 Q-value 的關(guān)系:
① P-value 是初步計算出來的原始統(tǒng)計值,表示在零假設(shè)下某残,觀察到數(shù)據(jù)的極端程度国撵。但它沒有考慮多次檢驗的影響。
② Q-value 是 P-value 在經(jīng)過多重比較校正(如 Benjamini-Hochberg 校正)后的結(jié)果玻墅,表示在進行多重檢驗時介牙,假陽性率的期望值。
③ 在多重檢驗時澳厢,Q-value 比 P-value 更加可靠环础,因此通常推薦在富集分析中使用 Q-value囚似,尤其是在涉及大量 GO term 或基因的情況下。
生物信息學領(lǐng)域非常廣泛线得,難以一次說盡饶唤。我們下次繼續(xù)更新,一起深入學習生物信息學的內(nèi)容贯钩!
喜歡的寶子們點個贊吧~碼字不易募狂,且行且珍惜~