單細(xì)胞數(shù)據(jù)挖掘||DOSE:疾病本體論語義相似分析

在拿到單細(xì)胞數(shù)據(jù)之后,我們指的跑完了cellranger 、scater、singleR您机、 seurat僵朗、monocle這些培訓(xùn)班老師帶你走完的流程之后悴了,要進(jìn)一步的挖掘或者輔助挖掘往往就要和具體的生物學(xué)過程結(jié)合到一起了息罗。所謂的數(shù)據(jù)挖掘,就是帶著少量已知向未知進(jìn)軍的過程。

單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析離不開cell和gene兩個(gè)層面瞬女,那么gene除了做做pathway之外還能做什么呢压怠?當(dāng)然是看看有沒有和疾病有關(guān)的信息啊忿等。已經(jīng)有人給你貯備好了:

高清圖見原文

(A)語義相似矩陣熱圖;(B)疾病和基因關(guān)聯(lián)網(wǎng)絡(luò);(C)濃縮結(jié)果的條形圖;(D)富集分?jǐn)?shù)的累加和圖及其與表型的關(guān)系冷溶,(E)不同基因組間疾病關(guān)系的比較

描述疾病與疾病之間的關(guān)系以及挖掘基因與疾病之間的關(guān)聯(lián)為分析高通量數(shù)據(jù)以闡明復(fù)雜疾病的分子機(jī)制提供了新思路瓦堵。了解疾病之間的相似性和疾病環(huán)境中的基因之間的相似性有助于早期診斷杂穷、藥物的重新利用和新藥的開發(fā)蜗搔。通過高通量實(shí)驗(yàn)獲得的基因列表(gene list)研究基因-疾病之間的關(guān)系有助于探索疾病環(huán)境中的生物學(xué)問題并發(fā)現(xiàn)未預(yù)料到的功能叔壤。

疾病本體論(DO)從疾病的角度對(duì)基因進(jìn)行了一致的描述脚曾。DO數(shù)據(jù)庫(Schriml et al.丈探, 2012)為研究人員提供了更易于訪問的疾病知識(shí),為用戶提供了一個(gè)瀏覽DO詞匯表的web瀏覽器尊剔,而disease and gene annotations數(shù)據(jù)庫(Peng et al., 2013)提供了一個(gè)繪制基因和疾病的web界面历造。DO被組織成一個(gè)有向無環(huán)圖臣淤,為使用語義相似算法計(jì)算疾病知識(shí)奠定了基礎(chǔ)怀各。用于計(jì)算語義度量的通用質(zhì)量工具有很多,包括SML术浪、SimPack渠啤、SemMF、OWLSim和相似度庫(http://goo.gl/3xCuJ6)添吗。這些通用庫可用于分析DO語義相似性。DOSim (Li et al.份名, 2011)是專為DO設(shè)計(jì)的碟联,但作者未能維護(hù)該包。Functional DO (FunDO) (Osborne et al.僵腺, 2009)采用超幾何檢驗(yàn)評(píng)估DO與基因列表的顯著相關(guān)性鲤孵。然而,F(xiàn)unDO不允許用戶自定義背景基因辰如,因此可能會(huì)在結(jié)果中引入偏差普监。

為了解決R/Bioconductor package缺乏語義計(jì)算和基于DO的富集分析的缺點(diǎn),我們提出了DOSE琉兜,它允許使用幾種基于信息內(nèi)容和圖結(jié)構(gòu)的算法來測量DO術(shù)語和基因之間的語義相似性凯正。為了評(píng)估高通量基因組和蛋白質(zhì)組研究的基因列表的功能相關(guān)性,DOSE支持超幾何檢驗(yàn)和基因集富集分析(GSEA)豌蟋,它們結(jié)合表達(dá)水平的測量來提取生物學(xué)實(shí)驗(yàn)的疾病相關(guān)性廊散。更重要的是,DOSE提供了幾個(gè)特定于do的可視化功能梧疲,以生成高度可定制的允睹、發(fā)布質(zhì)量高的相似度和豐富度分析數(shù)據(jù),這在其他地方是不可用的幌氮。利用這些可視化工具缭受,DOSE得到的結(jié)果更具有可解釋性。

公共衛(wèi)生是生物和醫(yī)學(xué)研究的重要推動(dòng)力该互。后基因組時(shí)代的一個(gè)主要挑戰(zhàn)是彌合基礎(chǔ)生物學(xué)研究與臨床應(yīng)用之間的鴻溝米者。最近的研究越來越多地表明,許多看似不同的疾病具有共同的分子機(jī)制宇智。了解疾病艾滋病在早期診斷和新藥開發(fā)方面的相似性塘雳。

因此,需要基因-疾病關(guān)聯(lián)的正式知識(shí)表示普筹。諸如基因本體論(GO)等本體論已被成功地應(yīng)用于表達(dá)生物知識(shí)败明,許多相關(guān)技術(shù)也被用于提取信息。疾病本體論(Disease Ontology, DO)(Schriml et al. 2011)是為了從疾病的角度對(duì)基因產(chǎn)品進(jìn)行一致的描述而開發(fā)的太防,它對(duì)于理解疾病背景下的功能基因組學(xué)非常重要妻顶。準(zhǔn)確的疾病描述可以發(fā)現(xiàn)基因與疾病之間的新關(guān)系酸员,以及以前未知的基因和等位基因的新功能。

與其他臨床詞匯對(duì)疾病相關(guān)概念的定義不同讳嘱,DO被組織成一個(gè)有向無環(huán)圖幔嗦,為疾病知識(shí)的定量計(jì)算奠定了基礎(chǔ)。在此沥潭,我們提出了一個(gè)R包[Yu et al.(2015)]邀泉,用于分析DO術(shù)語與標(biāo)注DO術(shù)語的基因產(chǎn)品之間的語義相似性。

DOSE(Yu et al. 2015)支持疾病本體論(Disease Ontology钝鸽,DO)語義學(xué)(Semantic )和富集分析汇恤。enrichDO對(duì)于識(shí)別感興趣基因的疾病關(guān)聯(lián)是非常有用的,而gseDO函數(shù)是為基因集富集分析而設(shè)計(jì)的拔恰。

此外因谎,DOSE還支持Cancer Gene Network (NCG)的富集分析(A。以及疾病基因網(wǎng)絡(luò)(Janet et al. 2015)颜懊,請參閱DOSE

DO term semantic similarity measurement

Resnik(Philip 1999)财岔、Jiang(Jiang and Conrath 1997)、Lin(Lin 1998)和Schlicker(Schlicker et al. 2006)提出了四種基于共同祖先詞信息含量來確定兩個(gè)詞語義相似度的方法河爹。Wang(Wang et al. 2007)提出了一種基于圖結(jié)構(gòu)的相似性度量方法匠璧。這些方法各有其優(yōu)缺點(diǎn)。DOSE實(shí)現(xiàn)了所有這些方法來計(jì)算DO術(shù)語和基因產(chǎn)物之間的語義相似度咸这。我們開發(fā)了另一個(gè)包GOSemSim(Yu et al. 2010)患朱,從GO的角度探索功能相似性,包括分子功能(MF)炊苫、生物過程(BP)和細(xì)胞成分(CC)裁厅。

關(guān)于算法的細(xì)節(jié),請參考:GOSemSim.

doSim function

我們實(shí)現(xiàn)了doSim來計(jì)算兩個(gè)DO術(shù)語和兩個(gè)DO術(shù)語集之間的語義相似度侨艾。

> a <- c("DOID:14095", "DOID:5844", "DOID:2044", "DOID:8432", "DOID:9146",
+        "DOID:10588", "DOID:3209", "DOID:848", "DOID:3341", "DOID:252")
> b <- c("DOID:9409", "DOID:2491", "DOID:4467", "DOID:3498", "DOID:11256")
> doSim(a[1], b[1], measure="Wang")
[1] 0.07142995
> doSim(a[1], b[1], measure="Resnik")
[1] 0
> doSim(a[1], b[1], measure="Lin")
[1] 0
> s <- doSim(a, b, measure="Wang")
> s
            DOID:9409  DOID:2491  DOID:4467  DOID:3498 DOID:11256
DOID:14095 0.07142995 0.05714393 0.03676194 0.03676194 0.52749870
DOID:5844  0.14897652 0.11564838 0.02801328 0.02801328 0.06134327
DOID:2044  0.14897652 0.11564838 0.02801328 0.02801328 0.06134327
DOID:8432  0.17347273 0.13877811 0.03676194 0.03676194 0.07142995
DOID:9146  0.07142995 0.05714393 0.03676194 0.03676194 0.17347273
DOID:10588 0.13240905 0.18401515 0.02208240 0.02208240 0.05452137
DOID:3209  0.14897652 0.11564838 0.02801328 0.02801328 0.06134327
DOID:848   0.14897652 0.11564838 0.02801328 0.02801328 0.06134327
DOID:3341  0.13240905 0.09998997 0.02208240 0.02208240 0.05452137
DOID:252   0.06134327 0.04761992 0.02801328 0.02801328 0.06134327
> 

doSim函數(shù)需要三個(gè)參數(shù)DOID1执虹、DOID2和測量。DOID1和DOID2應(yīng)該是DO項(xiàng)的向量唠梨,而measure應(yīng)該是Resnik袋励、Jiang、Lin当叭、Rel和Wang中的一個(gè)茬故。

我們還實(shí)現(xiàn)了一個(gè)plot函數(shù)simplot來可視化相似結(jié)果。

simplot(s,
        color.low="white", color.high="red",
        labs=TRUE, digits=2, labs.size=5,
        font.size=14, xlab="", ylab="")
Gene semantic similarity measurement

在DO術(shù)語語義相似度的基礎(chǔ)上蚁鳖,DOSE還可以計(jì)算出基因產(chǎn)品之間的語義相似度磺芭。DOSE提供了max醉箕、avg钾腺、rcmax徙垫、BMA四種方法來結(jié)合多個(gè)DO術(shù)語的語義相似度得分。利用這些組合方法計(jì)算了多DO標(biāo)記的基因與基因簇之間的相似性放棒。計(jì)算細(xì)節(jié)請參考 GOSemSim

geneSim function

在DOSE中姻报,我們使用了geneSim來測量基因之間的語義相似性。

> g1 <- c("84842", "2524", "10590", "3070", "91746")
> g2 <- c("84289", "6045", "56999", "9869")
> geneSim(g1[1], g2[1], measure="Wang", combine="BMA")
[1] 0.051
> gs <- geneSim(g1, g2, measure="Wang", combine="BMA")
> gs
      84289  6045 56999  9869
84842 0.051 0.135 0.355 0.103
2524  0.284 0.172 0.517 0.517
10590 0.150 0.173 0.242 0.262
3070  0.573 0.517 1.000 1.000
91746 0.351 0.308 0.527 0.496
clusterSim and mclusterSim
> clusterSim(g1, g2, measure="Wang", combine="BMA")
[1] 0.549
> g3 <- c("57491", "6296", "51438", "5504", "27319", "1643")
> clusters <- list(a=g1, b=g2, c=g3)
> mclusterSim(clusters, measure="Wang", combine="BMA")
      a     b     c
a 1.000 0.549 0.425
b 0.549 1.000 0.645
c 0.425 0.645 1.000
MeSH semantic analysis

MeSH(醫(yī)學(xué)主題詞)是NLM的受控詞匯表间螟,用于為MEDLINE/PubMed手動(dòng)索引文章吴旋。meshes支持豐富(超幾何測試和GSEA)和語義相似分析超過70種。

enrichDO function

在下面的例子中厢破,我們選擇1.5以上的FC變化作為差異基因荣瑟,并分析它們的疾病關(guān)聯(lián)。

library(DOSE)
data(geneList)
gene <- names(geneList)[abs(geneList) > 1.5]
head(gene)


DOSE
DOSE: an R/Bioconductor package for disease ontology semantic and enrichment analysis

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末溉奕,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子忍啤,更是在濱河造成了極大的恐慌加勤,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件同波,死亡現(xiàn)場離奇詭異鳄梅,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)未檩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門戴尸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人冤狡,你說我怎么就攤上這事孙蒙。” “怎么了悲雳?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵挎峦,是天一觀的道長。 經(jīng)常有香客問我合瓢,道長坦胶,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任晴楔,我火速辦了婚禮顿苇,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘税弃。我一直安慰自己纪岁,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布则果。 她就那樣靜靜地躺著蜂科,像睡著了一般顽决。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上导匣,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天才菠,我揣著相機(jī)與錄音,去河邊找鬼贡定。 笑死赋访,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的缓待。 我是一名探鬼主播蚓耽,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼旋炒!你這毒婦竟也來了步悠?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤瘫镇,失蹤者是張志新(化名)和其女友劉穎鼎兽,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體铣除,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谚咬,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了尚粘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片择卦。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖郎嫁,靈堂內(nèi)的尸體忽然破棺而出秉继,到底是詐尸還是另有隱情,我是刑警寧澤泽铛,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布秕噪,位于F島的核電站,受9級(jí)特大地震影響厚宰,放射性物質(zhì)發(fā)生泄漏腌巾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一铲觉、第九天 我趴在偏房一處隱蔽的房頂上張望澈蝙。 院中可真熱鬧,春花似錦撵幽、人聲如沸灯荧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽逗载。三九已至哆窿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間厉斟,已是汗流浹背挚躯。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留擦秽,地道東北人码荔。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像感挥,于是被迫代替她去往敵國和親缩搅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容