高通量功能基因組學的分析每次能得到成百上千的基因和大量的通路硝拧,要在這大量的基因和通路里分析出生物學意義上更重要的部分很依賴于個人的經驗和知識融欧,尤其是許多的基因都是多功能的同规。GeneWalk 利用深度學習從整合的數(shù)據(jù)庫分析出單個基因在特定研究條件下的功能信息
GeneWalk 分析流程如下圖争剿。輸入數(shù)據(jù)是一個基因列表(比如說差異基因)姆吭,首先基于數(shù)據(jù)庫(INDRA)構建基因及通路網(wǎng)絡(Gene Network)榛做,并且用 Pathway Commons 構建只有基因的網(wǎng)絡,然后再給網(wǎng)絡添加上 GO 節(jié)點形成 GeneWalk network(GWN). 然后是 DeepWalk 算法對 GWN 進行隨機游走(Random Walk)得到網(wǎng)絡節(jié)點的向量表示内狸,節(jié)點對的相似度等于相應節(jié)點向量之間的余弦相似度检眯。然后進行統(tǒng)計檢驗,計算基因與 GO 通路的關系顯著性昆淡,并進行多重檢驗(所有的基因與通路)的 P 值調整锰瘸。
GeneWalk 安裝和使用
GeneWalk 是 Python 模塊昂灵,使用 pip 命令直接安裝避凝。
pip install genewalk
安裝后先下載需要的資源,會下載到家目錄眨补。
python -m genewalk.resources
使用時僅需要提供一個基因列表(每個基因一行)文件管削,比如說提供差異基因列表。
GeneWalkDir=~/Examples/GeneWalk
genewalk --project GSE117765 --genes ${GeneWalkDir}/DEGsList.txt \
--id_type entrez_human --base_folder ${GeneWalkDir} --nproc 4
GeneWalk 分析結果
GeneWalk 所有的結果將輸出到 --base_folder
參數(shù)指定的目錄撑螺。最主要的結果文件是 genewalk_results.csv
里面包含了每個基因和注釋到的通路數(shù)據(jù)含思。其中 global_padj
是對所有的“基因-通路”對進行多重統(tǒng)計檢驗校正后的 P 值;而 gene_padj
是對該基因的所有“基因-通路”對進行校正的 P 值甘晤;pval
是初始的 P 值含潘。
每個基因還會生成條形圖,直觀方便线婚。
為了方便鑒定重要的轉錄調節(jié)基因(Regulator)會生成下圖所示的散點圖遏弱。每個點是一個基因,散點大小表示注釋到的 GO 通路數(shù)目酌伊,X 軸表示與其他基因連接數(shù)目腾窝,Y 軸表示注釋到的 GO 通路中顯著的通路占比,默認是一個基因調整后 P 值小于 0.1 的通路數(shù)目比該基因注釋到總基因數(shù)目居砖。
另一個散點圖用于鑒定 moonlight gene(多功能基因)虹脯。散點圖 X 軸為注釋的 GO 通路數(shù)目。散點大小為與其他基因連接數(shù)目奏候。
上面 2 個散點圖把鼠標放到點上就會顯示該基因的數(shù)據(jù)循集,同時軟件也提供了標記了基因名的 PDF 版本,結合自己的課題需要蔗草,就能更容易從眾多的基因和通路中定位到關鍵的基因和通路咒彤。
當然了疆柔,工具永遠不是目的,用 GeneWalk 得到這些結果后還是要結合課題進行分析镶柱,只是提供另一種角度旷档,還是需要多技術多角度去綜合思考。
參考文獻
Ietswaart R, Gyori BM, Bachman JA, Sorger PK, Churchman LS. GeneWalk identifies relevant gene functions for a biological context using network representation learning. Genome Biol. 2021 Feb 2;22(1):55. doi: 10.1186/s13059-021-02264-8. PMID: 33526072.