一些GO及KEGG分析的知識(shí)

參考:https://www.omicshare.com/forum/thread-826-1-2.html
https://www.omicshare.com/forum/thread-955-1-1.html
http://www.reibang.com/p/13f46bebebd4

  • 什么是GO分析?

Gene Ontology(簡(jiǎn)稱(chēng)GO)是一個(gè)國(guó)際標(biāo)準(zhǔn)化的基因功能分類(lèi)體系衷戈,提供了一套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯表(controlled vocabulary)來(lái)全面描述生物體中基因和基因產(chǎn)物的屬性凹蜂。GO總共有三個(gè)ontology(本體),分別描述基因的分子功能(molecular function)贮庞、細(xì)胞組分(cellular component)边苹、參與的生物過(guò)程(biological process)渔彰。GO的基本單位是term(詞條笋婿、節(jié)點(diǎn))誉裆,每個(gè)term都對(duì)應(yīng)一個(gè)屬性。

  • 什么是KEGG分析缸濒?

KEGG(Kyoto Encyclopedia of Genes and Genomes)數(shù)據(jù)庫(kù)是系統(tǒng)地分析基因功能、鏈接基因組信息和功能信息的數(shù)據(jù)庫(kù)粱腻,包括代謝通路(pathway)數(shù)據(jù)庫(kù)庇配、分層分類(lèi)數(shù)據(jù)庫(kù)、基因數(shù)據(jù)庫(kù)绍些、基因組數(shù)據(jù)庫(kù)等捞慌。KEGG的pathway數(shù)據(jù)庫(kù)是應(yīng)用最廣泛的代謝通路公共數(shù)據(jù)庫(kù)。

  • 了解富集分析前柬批,一些關(guān)于基因的概念啸澡。

每個(gè)基因都會(huì)對(duì)應(yīng)一個(gè)或者多個(gè)GO term。而一般研究富集會(huì)涉及兩個(gè)概念:前景基因和背景基因氮帐。1)前景基因指研究者關(guān)注的重點(diǎn)研究的基因集嗅虏,而2)背景基因指所有的基因。比如通過(guò)實(shí)驗(yàn)比較實(shí)驗(yàn)組與對(duì)照組的轉(zhuǎn)錄組測(cè)序上沐,前景基因就是對(duì)照組vs處理組的差異基因皮服,背景基因就是這兩個(gè)樣本表達(dá)的全部基因。

  • 什么是富集参咙?

富集就是為了比較某個(gè)GO term在所關(guān)注的前景基因中的占比是否要顯著高于在所有背景基因中占有的比例龄广。而這個(gè)的證明就是通過(guò)顯著性來(lái)評(píng)判。

  • 這里作者舉了一個(gè)生動(dòng)的例子蕴侧。

比較深圳市(前景基因)與整個(gè)廣東试裢(背景基因)的大學(xué)生(某個(gè)GO term)的占比,即相比廣東省净宵,大學(xué)生的數(shù)量所占的比例敲才,在深圳市是否更多。而最終求得的占比數(shù)值塘娶,則通過(guò)比較以證明顯著性归斤。

  • 如何來(lái)計(jì)算顯著性?
    圖片來(lái)自簡(jiǎn)書(shū)用戶(hù):井底蛙蛙呱呱呱

    這個(gè)顯著性其實(shí)就是根據(jù)這個(gè)超幾何分布檢驗(yàn)公式計(jì)算獲得刁岸。

先用個(gè)形象的例子來(lái)理解超幾何分布:在超市抽獎(jiǎng)脏里,要求從商品(N)中抽取獎(jiǎng)品(n),不放回抽取虹曙,其中抽得的商品內(nèi)有指定獎(jiǎng)品(M)迫横,測(cè)定可以抽中指定獎(jiǎng)品(k)的概率番舆。

類(lèi)似的,在GO分析中:

N為數(shù)據(jù)庫(kù)中具有GO注釋的所有基因數(shù)矾踱,n為N中具有差異表達(dá)的基因數(shù)恨狈;
M為數(shù)據(jù)庫(kù)中注釋為某GO term的基因數(shù)目,k為注釋為某特定GO term 的差異基因數(shù)呛讲。

KEGG通路中對(duì)富集的計(jì)算也十分類(lèi)似禾怠。

KEGG 通路富集與GO富集類(lèi)似,分別指贝搁,差異基因(n)中注釋到某個(gè)代謝通路(pathwayX)的基因數(shù)目(k)比例與所有背景基因(N)中注釋到某個(gè)代謝通路(pathwayX)的基因數(shù)目(M)吗氏。

  • 超幾何分布的運(yùn)算式:
    ps:由于本人能力有限,不是特別理解超幾何分布的數(shù)學(xué)意義與運(yùn)算雷逆,但根據(jù)百度百科定義弦讽,可以按照古典概型的抽樣來(lái)計(jì)算。只是在超幾何分布下膀哲,M可以為任意實(shí)數(shù)往产。(不保證語(yǔ)言正確性,只是方便計(jì)算理解)



    這里再補(bǔ)充組合的計(jì)算:


因此通過(guò)上述一頓操作猛如虎后的某宪,即可得到基因n是否在M/k 類(lèi)中富集(N)的概率(P)仿村。

  • 但這樣,似乎還不夠缩抡。即便得到P的數(shù)值很大奠宜,但還需要考慮隨機(jī)情況引起的假陽(yáng)性結(jié)果。
    即若從N中提取得到了n瞻想,但由于隨機(jī)概率压真,導(dǎo)致k在M中的概率很高的話(huà),(按照之前大學(xué)生的例子可以理解為:由于隨機(jī)概率蘑险,導(dǎo)致了剛好抽到了多數(shù)的大學(xué)生)

  • 可以通過(guò)P-value 檢驗(yàn)概率的顯著性滴肿。即假設(shè)極端條件下的概率,若P值較小佃迄,則可以拒絕極端條件假設(shè)泼差,認(rèn)為極小概率事件可以等同于不能隨機(jī)出現(xiàn)。

既然P-value 針對(duì)的是極端情況呵俏,那就讓情況更極端一些好了堆缘。


圖片來(lái)自簡(jiǎn)書(shū)用戶(hù):井底蛙蛙呱呱呱

即從總的基因N(背景基因)中抽取n個(gè)基因(前景基因),其中由i個(gè)基因落在符合條件的總的M個(gè)基因里普碎。而之前的式子所討論的概率運(yùn)算吼肥,則正是i=k/m 時(shí)的情況下,求得的概率。
為了驗(yàn)證這一概率是否具備顯著性缀皱,就索性計(jì)算 (k/m ~ M)這段更加極端的概率之和斗这,最終得到的P越小,則檢驗(yàn)結(jié)果越顯著啤斗。(P<0.5, P<0.1……)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末表箭,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子钮莲,更是在濱河造成了極大的恐慌免钻,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件臂痕,死亡現(xiàn)場(chǎng)離奇詭異伯襟,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)握童,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)叛赚,“玉大人澡绩,你說(shuō)我怎么就攤上這事“掣剑” “怎么了肥卡?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)事镣。 經(jīng)常有香客問(wèn)我步鉴,道長(zhǎng),這世上最難降的妖魔是什么璃哟? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任氛琢,我火速辦了婚禮,結(jié)果婚禮上随闪,老公的妹妹穿的比我還像新娘阳似。我一直安慰自己,他們只是感情好铐伴,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布撮奏。 她就那樣靜靜地躺著,像睡著了一般当宴。 火紅的嫁衣襯著肌膚如雪畜吊。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,115評(píng)論 1 296
  • 那天户矢,我揣著相機(jī)與錄音玲献,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛青自,可吹牛的內(nèi)容都是我干的株依。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼延窜,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼恋腕!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起逆瑞,我...
    開(kāi)封第一講書(shū)人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤荠藤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后获高,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體哈肖,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年念秧,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了淤井。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡摊趾,死狀恐怖币狠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情砾层,我是刑警寧澤漩绵,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站肛炮,受9級(jí)特大地震影響止吐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜侨糟,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一碍扔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧粟害,春花似錦蕴忆、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至汰具,卻和暖如春卓鹿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背留荔。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工吟孙, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留澜倦,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓杰妓,卻偏偏與公主長(zhǎng)得像藻治,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子巷挥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353