? ??用clusterProfiler做其實夠用了,網(wǎng)頁在線做沒多大必要沮稚,能夠起起對照作用吧艺沼。網(wǎng)頁在線做,后續(xù)挑出自己想要的模塊壮虫,會方便一些澳厢,但自己用包做手動挑也還好。記錄這篇囚似,是因為網(wǎng)頁做了幾次剩拢,想記錄下來留個印象。
? ??做富集分析饶唤,對于輸出結(jié)果徐伐,不能只看前多少個有顯著富集的term,應(yīng)該要看符合自己設(shè)的padjust閾值的所有term募狂,看完再挑選自己想要展示的term成圖办素。這樣做能避免得出的結(jié)論不全面,對于事先沒有預想的term或者是事先預想的term不全面這些情況有幫助。
????clusterProfiler做富集矩动,可以對冗余 GOterm 去冗余鸿吆,如:merge_go <- clusterProfiler::simplify(go, cutoff=0.7, by="p.adjust", select_fun=min)。要不要去冗余看去冗余前后展示出的效果是不是自己想要的需曾,來決定。
????p值(pvalue)祈远,q值(qvalue呆万,F(xiàn)DR),padj(p-adjusted)
????p.adjust值和qvalue值表示的都是一個調(diào)整后的p值,但計算方法略有不同车份。?
????p.adjust表示通過一定的多重比較校正方法調(diào)整后的p值,比如BH法則(Benjamini-Hochberg)調(diào)整獲得的FDR值谋减。
????qvalue表示通過Storey及其同事提出的計算方法獲得的估計的假發(fā)現(xiàn)率(FDR)值。
????兩者都試圖通過不同的統(tǒng)計方法對原始的p值進行調(diào)整,控制假陽性率,從而產(chǎn)生一個調(diào)整后的p值用于判斷結(jié)果的顯著性扫沼。
????但計算方法不同: p.adjust值主要通過在一系列假設(shè)檢驗中對每個p值進行校正獲得,屬于傳統(tǒng)的多重比較校正方法出爹。qvalue利用原始p值的整體分布情況,以一定假設(shè)下估計假發(fā)現(xiàn)率,是一種基于假發(fā)現(xiàn)率的校正方法。
????在許多富集分析工具的結(jié)果中,這兩個值都會作為可選的調(diào)整后p值提供充甚。users可以根據(jù)需求選擇使用,但理論上qvalue方法更可靠一些以政。在判斷富集結(jié)果的顯著性時,建議以調(diào)整后的p值或q值作為標準,而不要依賴原始p值,從而避免高假陽性率。
(來自claude的回答伴找,挺不錯)
????基迪奧網(wǎng)頁做富集分析:
????動態(tài)GO富集分析:富集結(jié)果統(tǒng)計圖盈蛮、條形圖、氣泡圖技矮,可動態(tài)調(diào)整? ??
????https://www.omicshare.com/tools/home/report/goenrich.html? ?
????GO富集分析高級版:富集結(jié)果統(tǒng)計圖抖誉、條形圖殊轴、氣泡圖、富集圈圖袒炉、富集差異氣泡圖旁理、有向無環(huán)網(wǎng)絡(luò)圖,不可動態(tài)調(diào)整? ? ????https://www.omicshare.com/tools/Home/Soft/gogseasenior
????動態(tài)KEGG富集分析:富集結(jié)果統(tǒng)計圖我磁、條形圖孽文、氣泡圖,可動態(tài)調(diào)整? ??????
????https://www.omicshare.com/tools/home/report/koenrich.html
????KEGG富集分析高級版: 富集結(jié)果統(tǒng)計圖夺艰、條形圖芋哭、氣泡圖、富集圈圖郁副、富集差異氣泡圖减牺、kegg網(wǎng)絡(luò)圖,不可動態(tài)調(diào)整?? ? ????https://www.omicshare.com/tools/Home/Soft/pathwaygseasenior
? ? GO富集
????GO總共有三個ontology(本體)存谎,分別描述基因的分子功能(molecular function)拔疚、細胞組分(cellular component)、參與的生物過程(biological process)既荚。GO的基本單位是term(詞條稚失、節(jié)點),每個term都對應(yīng)一個屬性恰聘。
? ??氣泡圖
????x軸是Rich Factor墩虹,表示目的基因富集到該通路的基因數(shù)目與背景基因富集到該通路的基因數(shù)目的比值,所以比值越大憨琳,富集到該通路的基因數(shù)目越多;
????y軸是富集出來的通路名稱旬昭,一般根據(jù)P-value或Q-value從小到大排列順序(最上面是最小的)篙螟,挑選富集通路前20或30的通路來繪圖;點的大小表示Gene數(shù)目问拘,點越大遍略,表示富集到該通路的基因越多;點的顏色漸變最為重要骤坐,代表P值的高低绪杏,-log10(Pvalue)越大,P值越小纽绍,表示該通路越顯著蕾久。
????P值是在進行富集分析時利用超幾何檢驗計算出來的結(jié)果。Q值是計算得到的P值進一步經(jīng)過多重檢驗校正后的值拌夏。所以一般情況下Q值比P值的檢驗更嚴格僧著。這時候也可以分兩種情況履因,第一種是經(jīng)過Q值的檢驗篩選后得到了與實驗設(shè)計相關(guān)的通路,那此時就可以用Q值來繪圖盹愚。第二種是經(jīng)過Q值檢驗沒有得到滿意的結(jié)果栅迄,那可以換P值檢驗,得到與實驗相關(guān)的通路皆怕。
????P-value是正常數(shù)值顯示還是取10的對數(shù)的負值來顯示毅舆,主要看P-value的大小,如果P-value非常小時愈腾,就可以對數(shù)據(jù)歸一化處理憋活;如果數(shù)據(jù)較大,但又小于0.05時顶滩,可以不用對數(shù)據(jù)做處理余掖。
? ??圓圈的大小代表基因的數(shù)目,圓圈的顏色代表P-value礁鲁,也就是說 Rich Factor越大盐欺,P-value越小,gene count圈越大仅醇,這事就越可信冗美。
? ??富集結(jié)果表(out.[PFC].html )? ?? ?
三個Ontology(C, F, P)會分別展示。以生物過程(biological process)為例子析二,如下表:
第一列為GO term的ID粉洼,點擊GO ID,可顯示這個GO term包含的所有基因:
????再點擊這個GO ID叶摄,就可以鏈接到 http://amigo.geneontology.org 官網(wǎng)属韧,可以查看GO的具體信息。
????第二列為GO term的功能描述蛤吓;
GeneRatio:注釋到該通路的目的基因數(shù) / 注釋到所有通路(BP/MF/CC)中的目的基因數(shù)
BgRatio:背景基因集合中注釋到該通路的基因數(shù) / 背景基因集基因數(shù)
pvalue:富集分析統(tǒng)計學顯著水平宵喂,一般情況下, P-value < 0.05 該功能為富集項
p.adjust :矯正后的P-Value
qvalue:對p值進行統(tǒng)計學檢驗的q值
????第三列:數(shù)字為目的基因中富集到這個GO term的基因數(shù)会傲,out 括號里數(shù)字為目的基因在 BP/MF/CC 里的總數(shù)锅棕,括號內(nèi)百分比等于Generatio。
????第四列:數(shù)字為背景基因中富集到這個GO term的基因數(shù)淌山,All括號里數(shù)字為背景基因在 BP/MF/CC 里的總數(shù)裸燎,百分比為Bgratio
????第五列:P value,即第三列的百分比與第四列的百分比相比泼疑,是否有顯著差異德绿。將小于0.05的P value標紅顯示;這些GO term是按照P value從小到大排列的,方便找差異富集結(jié)果脆炎。即最上面的 term 為在目的基因中富集最顯著的GO term梅猿,說明目的基因顯著富集于這個功能。
? ??KEGG富集
? ??富集結(jié)果表(out.htm)
????包含了pathway名稱秒裕、目的基因中注釋到該pathway的基因數(shù)目以及占總目的基因數(shù)目的比例袱蚓、所有背景基因中注釋到該pathway的基因數(shù)目以及占總背景基因數(shù)目的比例、P值几蜻、Q值喇潘、pathway 的ID(ko號)。點擊pathway名稱可以查看該pathway包含的基因ID梭稚,繼續(xù)點pathway名稱可以鏈接到KEGG官網(wǎng)上pathway相應(yīng)的通路圖
? ??代謝通路文件夾包(out_map)
????存放的就是每個pathway的map圖和相應(yīng)的KEGG官網(wǎng)鏈接颖低。
? ??pathway注釋統(tǒng)計圖(outpath.png/svg)
????Pathway的B級分類基因注釋數(shù)目的統(tǒng)計圖:縱坐標黑色字體為A級分類名稱,彩色字體為B級分類名稱弧烤。橫坐標表示注釋到相應(yīng)B級pathway的基因數(shù)目忱屑。
? ??顯著性柱狀圖/氣泡圖(out.barplot/ out.gradient;pdf and png)
? ?顯著富集pathway去前多少個根據(jù) 富集結(jié)果表(out.htm)再調(diào)整暇昂,用p值比用q值條件要松莺戒,顏色代表p值,柱狀長短(氣泡大屑辈ā)代表富集到此通路基因的數(shù)量从铲,橫坐標RichFactor代表目的基因中位于該pathway條目的基因數(shù)目與背景基因中位于該pathway條目的基因總數(shù)的比值,比值越大澄暮,富集程度則越大名段。
????clusterProfiler做的GO富集結(jié)果和在線工具不一致?真的是這樣嗎(Yunze Liu)
參考:
https://www.omicshare.com/forum/thread-826-1-1.html
https://www.omicshare.com/forum/thread-6821-1-1.html
https://www.omicshare.com/forum/thread-6822-1-1.html
https://www.omicshare.com/forum/forum.php?mod=viewthread&tid=7295&highlight=KEGG