基因-藥物 機(jī)器學(xué)習(xí)預(yù)測(cè)靶點(diǎn)

Using PharmGKB to train text mining approaches for identifying potential

gene targets for pharmacogenomic studies

利用pharmGKB訓(xùn)練文本挖掘方法識(shí)別藥物基因組研究的潛在基因靶點(diǎn)

文章

簡(jiǎn)介

文章是2012年發(fā)表于Journal of Biomedical Informatics上逼蒙,影響因子2點(diǎn)多。通訊和一作都來(lái)自于明尼蘇達(dá)大學(xué)藥學(xué)院辽故。

背景

文本挖掘資料1
文本挖掘資料2
1削咆、個(gè)體差異在藥物使用上有重要作用。藥物反應(yīng)的某些差異是由于藥物的吸收酝碳、分布伴网、代謝和排泄(ADME)基因的遺傳多態(tài)性造成的逃沿。ADME基因中的遺傳多態(tài)性可能導(dǎo)致藥物水平的個(gè)體間差異透揣,從而導(dǎo)致反應(yīng)和/或毒性济炎。研究基因與藥物反應(yīng)變異性關(guān)系的兩種主要方法是全基因組關(guān)聯(lián)研究(GWASs)和pathway驅(qū)動(dòng)方法
2、GWAS的缺點(diǎn)是假陽(yáng)性高辐真,pathway驅(qū)動(dòng)方法的缺點(diǎn)是需要已知候選基因或者pathway冻辩。pharmGKB數(shù)據(jù)庫(kù)包含大量文獻(xiàn)信息,但無(wú)法及時(shí)更新拆祈。因此需要一個(gè)方法去挖掘文獻(xiàn)數(shù)據(jù)庫(kù)信息,獲取候選基因或者pathway倘感。這里的文獻(xiàn)數(shù)據(jù)庫(kù)選取MEDILNE放坏。
3、目前已有的研究:

  • 文本挖掘和生物醫(yī)學(xué)自然語(yǔ)言處理(NLP)的大量工作致力于從藥物基因組學(xué)文獻(xiàn)中提取有用的信息(Garten Y, Coulet A, Altman R. Recent progress in automatically extracting
    information from the pharmacogenomic literature. Pharmacogenomics 2010;11:1467–89)老玛。
  • Pharmspresso:利用文本處理系統(tǒng)識(shí)別從生物醫(yī)學(xué)文章全文中提取的基因和藥物之間的藥物基因組關(guān)系淤年。然后用Pharmspresso提取的藥物-基因關(guān)系編碼在一句話的水平上,自動(dòng)生成藥物-基因相互作用的網(wǎng)絡(luò)圖蜡豹。最后麸粮,Pharmspresso的輸出被用于網(wǎng)絡(luò)分析算法PGxPipeline,該算法利用網(wǎng)絡(luò)連通性來(lái)評(píng)分基因調(diào)節(jié)藥物反應(yīng)的傾向性镜廉。
    優(yōu)點(diǎn):使用基于Pharmspresso的自動(dòng)化方法創(chuàng)建的網(wǎng)絡(luò)與手動(dòng)管理的pharmgbb數(shù)據(jù)庫(kù)創(chuàng)建的網(wǎng)絡(luò)進(jìn)行比較弄诲,發(fā)現(xiàn)大致相當(dāng)。
    缺點(diǎn):當(dāng)獨(dú)立于pgxpipline評(píng)估pharmspeso的性能時(shí),發(fā)現(xiàn)Pharmspresso鑒定出5312個(gè)藥物基因組關(guān)系齐遵,而pharmgbb包含1782個(gè)關(guān)系寂玲,兩個(gè)來(lái)源1157之間有重疊。
    結(jié)論:Pharmspresso是一種相對(duì)敏感(召回率為65%)但不具有高度特異性(精確度為22%)的用于提取單個(gè)藥物-基因關(guān)系的工具梗摇。(Garten Y, Tatonetti N, Altman R. Improving the prediction of pharmacogenes
    using text derived drug gene relationships. In: Pacific Symposium on
    Biocomputing (PSB). Honolulu, HI; 2010)
  • 利用藥物之間的結(jié)構(gòu)相似性以及藥物間相互作用的結(jié)構(gòu)化信息來(lái)訓(xùn)練自動(dòng)分類器拓哟,以預(yù)測(cè)可能與感興趣藥物相互作用的最可能的新基因。(Hansen NT, Brunak S, Altman RB. Generating genome-scale candidate gene
    lists for pharmacogenomics. Clin Pharmacol Ther 2009;86:183–9)
  • 依靠文本挖掘和自然語(yǔ)言處理技術(shù)從MEDLINE中提取藥物-基因關(guān)系信息伶授,以構(gòu)建一個(gè)本體論關(guān)系網(wǎng)絡(luò)( Coulet A, Shah NH, Garten Y, Musen M, Altman RB. Using text to build semantic
    networks for pharmacogenomics. J Biomed Inform 2009;43:1009–19)
  • 創(chuàng)新點(diǎn):
    方法與Pharmspresso的主要區(qū)別在于断序,使用了藥物-基因關(guān)系的人工整理知識(shí),并將其與包含在PharmGKB中的PubMed摘要聯(lián)系起來(lái)糜烹,以摘要文本作為訓(xùn)練特征违诗,PharmGKB定義的關(guān)系作為類別信息(相關(guān)或不相關(guān)),訓(xùn)練了一個(gè)完全監(jiān)督的機(jī)器學(xué)習(xí)分類器景图。
  • 研究目的:研究MEDLINE摘要中提到的藥物和基因是否包含詞匯和語(yǔ)義指標(biāo)较雕,說(shuō)明藥物-基因?qū)χg是否存在功能關(guān)系,這些指標(biāo)可用于識(shí)別生物上合理的基因靶點(diǎn)挚币。
  • 研究假設(shè):MEDLINE摘要中圍繞藥物和基因(詞匯上下文)的語(yǔ)言可以預(yù)測(cè)摘要作為一個(gè)整體是否在斷言藥物和基因之間的某種形式的關(guān)系亮蒋,并且可以在多種藥物中推廣。

如果上下文確實(shí)是可概括的妆毕,并且可以用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法進(jìn)行建模慎玖,那么就可以構(gòu)建一個(gè)工具來(lái)定期(或按需)檢查MEDLINE摘要,將包含藥物-基因?qū)Φ恼诸悶橄嚓P(guān)的或不相關(guān)的笛粘,以便找到可能的基因靶點(diǎn)趁怔,為pathway驅(qū)動(dòng)方法藥物基因組研究提供建議。

方法

方法預(yù)覽

1薪前、數(shù)據(jù)
pharmGKB中的822 藥物 and 2247 基因標(biāo)記為相關(guān)或不相關(guān)润努,9317個(gè)藥物基因?qū)Α?br> 2、機(jī)器學(xué)習(xí)

  • 特征提取:利用WEKA數(shù)據(jù)挖掘包中的支持向量機(jī)(SMO)探索在監(jiān)督學(xué)習(xí)方法中使用詞匯特征來(lái)標(biāo)記藥物-基因?qū)κ欠裣嚓P(guān)
  • 特征選擇:依賴于WEKA的信息增益特征選擇方法實(shí)現(xiàn)
    3示括、評(píng)估
  • 僅使用PharmGKB數(shù)據(jù)進(jìn)行一次性評(píng)估铺浇;
    所有數(shù)據(jù)分為822個(gè),分別對(duì)應(yīng)一個(gè)藥物垛膝,821個(gè)用于訓(xùn)練鳍侣,1個(gè)用來(lái)預(yù)測(cè),進(jìn)行822次吼拥。評(píng)價(jià)指標(biāo)(敏感性倚聚,特異性,陰性凿可,陽(yáng)性)取822次均值惑折。實(shí)際好像由于計(jì)算量大,只用了110種藥物進(jìn)行了實(shí)驗(yàn)。同時(shí)對(duì)包含20多個(gè)樣本的前15個(gè)藥物組的結(jié)果進(jìn)行了平均唬复。
  • 從MEDLINE中前瞻性提取藥物-基因關(guān)系矗积,并隨后進(jìn)行人工驗(yàn)證(前瞻性人工評(píng)估)
    通過(guò)應(yīng)用一個(gè)訓(xùn)練了822個(gè)藥物塊的支持向量機(jī)模型對(duì)所有可用的2010年MEDLINE Baseline2摘要進(jìn)行分類,發(fā)現(xiàn)至少有一個(gè)提到了卡馬西平敞咧、拉莫夫定或齊多夫定以及藥物中包含的2247個(gè)基因名中的任何一個(gè)棘捣。
  • 與現(xiàn)有pharmGKB比較
    選擇三種藥物,把預(yù)測(cè)結(jié)果和現(xiàn)有pharmGKB進(jìn)行比較(為啥選這個(gè)三種藥物休建,因?yàn)樽髡呤靻h)


    與pharmGKB比較

結(jié)果

  • 基于pharmGKB的評(píng)估
    使用標(biāo)準(zhǔn)的敏感性和特異性以及陽(yáng)性和陰性預(yù)測(cè)(PPV/NPV)來(lái)評(píng)估算法的性能乍恐。


    表2

表2總結(jié)了PharmGKB數(shù)據(jù)庫(kù)中至少有20個(gè)實(shí)例的前15種藥物,以及另外兩組的平均值测砂,包括110個(gè)用于比較單峰圖和雙峰圖特征提取方法的藥物塊和全部822種藥物的全套樣本茵烈。
完整結(jié)果
表2中110個(gè)藥物組的隨機(jī)樣本的結(jié)果表明,使用單字圖訓(xùn)練的分類器比用雙圖訓(xùn)練的分類器更具特異性(0.69 vs 0.46)砌些,后者更敏感(0.96比0.85)呜投。因此,在我們?cè)u(píng)估的下一步存璃,包括人類對(duì)被自動(dòng)分類器歸類為“相關(guān)”的潛在基因靶點(diǎn)進(jìn)行審查仑荐,我們考慮到了“相關(guān)”類別的流行率,并選擇了更具體的單純形分類器纵东,其PPV為0.91比0.89稍高粘招。

  • 前瞻性人工評(píng)估


    表3

    在一組更大的僅與PPV相關(guān)的藥物-基因?qū)ι蠈?duì)自動(dòng)分類器方法進(jìn)行了評(píng)估,結(jié)果如表3所示偎球。對(duì)于卡馬西平洒扎,自動(dòng)分類器標(biāo)記為“相關(guān)”的基因集與手動(dòng)管理的PharmGKB數(shù)據(jù)庫(kù)中標(biāo)記為“相關(guān)”的基因集之間的重疊包含9個(gè)基因名。如表3所示衰絮,自動(dòng)分類器“建議”該藥物的54個(gè)基因靶點(diǎn)袍冷,其中18個(gè)被至少一位專家認(rèn)為相關(guān)。
    因此猫牡,該分類器有效地“發(fā)現(xiàn)”了9個(gè)新的相關(guān)基因靶點(diǎn)(相對(duì)于PharmGKB中包含的信息增加了100%)胡诗,而錯(cuò)過(guò)了PharmGKB中的3個(gè)基因靶點(diǎn)。
    對(duì)于齊多夫定镊掖,PharmGKB僅包含一個(gè)“相關(guān)”基因靶點(diǎn),并且該基因也被自動(dòng)分類器識(shí)別為“相關(guān)”褂痰。然而亩进,分類器建議總共21個(gè)目標(biāo),其中11個(gè)被專家認(rèn)為是相關(guān)的缩歪,從而產(chǎn)生了10個(gè)新的自動(dòng)“發(fā)現(xiàn)”目標(biāo)(相對(duì)增加1000%)归薛。使用拉米夫定得到的結(jié)果稍有不同——PharmGKB包含一個(gè)相關(guān)基因,由于討論部分討論的原因,自動(dòng)分類器遺漏了該基因主籍。
    然而习贫,自動(dòng)分類器總共產(chǎn)生了16個(gè)新目標(biāo),其中6個(gè)被專家認(rèn)為是相關(guān)的千元,因此這6個(gè)目標(biāo)都是PharmGKB中不存在的新的可行目標(biāo)(相對(duì)增加600%)

  • 用作者的方法對(duì)發(fā)現(xiàn)的基因進(jìn)行定性評(píng)估


    實(shí)例結(jié)果

    對(duì)本研究中研究的兩種抗逆轉(zhuǎn)錄病毒藥物——齊多夫定和拉米夫定進(jìn)行了定性分析苫昌。算法鑒定出9個(gè)與齊多夫定有關(guān)的基因(ABCG2、ATP7A幸海、CCR5祟身、HFE、TG物独、SLC28A1和UGT1A7袜硫、UGT1A9、UGT2B7)挡篓。
    文獻(xiàn)注釋的手工評(píng)價(jià)為這些基因在齊多夫定的藥代動(dòng)力學(xué)和藥效學(xué)途徑中提供了有力的證據(jù)婉陷。如圖所示為獨(dú)立于當(dāng)前研究的齊多夫定的路徑驅(qū)動(dòng)分析示例。路徑沿線的靶點(diǎn)已被實(shí)驗(yàn)證實(shí)官研,最近已提交給PharmGKB秽澳。圖中的粗箭頭表示自動(dòng)分類方法建議的一些潛在目標(biāo)。兩種方法鑒定的重疊基因包括UGT2B7阀参、SLC28A1和ABCG2肝集。此外,我們的分析還發(fā)現(xiàn)了一些新的基因蛛壳,如HFE杏瞻、血色素沉著癥基因,這些基因與抗逆轉(zhuǎn)錄病毒治療誘導(dǎo)的神經(jīng)病變有關(guān)衙荐。人工分析以確定齊多夫定的PK/PD通路候選基因可能會(huì)遺漏該基因與藥物誘導(dǎo)的不良反應(yīng)的關(guān)聯(lián)捞挥。

討論

可以預(yù)測(cè)靶點(diǎn),可以作為驗(yàn)證忧吟,可以為網(wǎng)絡(luò)分析(如PGxPipeline)提供輸入砌函。

缺陷

完全依賴于PharmGKB和MEDLINE作為訓(xùn)練和測(cè)試數(shù)據(jù)的來(lái)源。
文獻(xiàn)只考慮摘要
縮略詞選取

總結(jié)

結(jié)果表明溜族,使用PharmGKB作為機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)源讹俊,以識(shí)別藥物基因組學(xué)中路徑驅(qū)動(dòng)方法的可能基因目標(biāo)是可行的。這種方法可以反復(fù)使用煌抒,以跟上不斷增長(zhǎng)的科學(xué)文獻(xiàn)量仍劈,并減輕手動(dòng)搜索潛在基因靶點(diǎn)的負(fù)擔(dān)。更重要的是寡壮,使用該方法贩疙,從事路徑驅(qū)動(dòng)分析的藥物基因組學(xué)研究人員也可以識(shí)別出使用其他標(biāo)準(zhǔn)搜索方法無(wú)法識(shí)別的基因靶點(diǎn)讹弯。

個(gè)人觀點(diǎn)

文章較為久遠(yuǎn),方法是文本挖掘+svm这溅,只利用利用基因和藥物關(guān)系组民,沒(méi)有考慮其他信息,文獻(xiàn)只搜集了一個(gè)數(shù)據(jù)庫(kù)悲靴,且只考慮摘要臭胜,驗(yàn)證只選了三種藥物,更多時(shí)候靠人工判斷結(jié)果对竣,可信度降低庇楞。但是告訴我們:

使用PharmGKB作為機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)源,以識(shí)別藥物基因組學(xué)中路徑驅(qū)動(dòng)方法的可能基因目標(biāo)是可行的否纬。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末吕晌,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子临燃,更是在濱河造成了極大的恐慌睛驳,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件膜廊,死亡現(xiàn)場(chǎng)離奇詭異乏沸,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)爪瓜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門蹬跃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人铆铆,你說(shuō)我怎么就攤上這事蝶缀。” “怎么了薄货?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵翁都,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我谅猾,道長(zhǎng)柄慰,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任税娜,我火速辦了婚禮坐搔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘敬矩。我一直安慰自己概行,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布谤绳。 她就那樣靜靜地躺著占锯,像睡著了一般。 火紅的嫁衣襯著肌膚如雪鞍陨。 梳的紋絲不亂的頭發(fā)上够滑,一...
    開(kāi)封第一講書(shū)人閱讀 52,246評(píng)論 1 308
  • 那天守谓,我揣著相機(jī)與錄音,去河邊找鬼艺演。 笑死,一個(gè)胖子當(dāng)著我的面吹牛桐臊,可吹牛的內(nèi)容都是我干的胎撤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼断凶,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼伤提!你這毒婦竟也來(lái)了认烁?” 一聲冷哼從身側(cè)響起却嗡,我...
    開(kāi)封第一講書(shū)人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎窗价,沒(méi)想到半個(gè)月后坪它,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體哟楷,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了断楷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冬筒。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡土榴,死狀恐怖玷禽,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情撩银,我是刑警寧澤蜒蕾,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站撤摸,受9級(jí)特大地震影響准夷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜楔绞,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一扎附、第九天 我趴在偏房一處隱蔽的房頂上張望留夜。 院中可真熱鬧鳖眼,春花似錦、人聲如沸蜂厅。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)改橘。三九已至,卻和暖如春碌识,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背魁瞪。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工惠呼, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留佩番,地道東北人趟畏。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓赋秀,卻偏偏與公主長(zhǎng)得像绍弟,于是被迫代替她去往敵國(guó)和親身笤。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容