摘要:Connectivity Map 是藥物基因組學(xué)研究領(lǐng)域的重要數(shù)據(jù)庫,是計算生物學(xué)和藥物篩選研究人員做研究時不得不重視的數(shù)據(jù)庫。它不僅提供大量寶貴的藥物處理人類細(xì)胞系前后的基因表達(dá)譜數(shù)據(jù)喇澡,而且也提供了基于模式匹配算法的在線工具,用戶提交合適的基因列表就能得到該數(shù)據(jù)庫中與之相關(guān)的藥物。
[](https://www.dazhuanlan.com/2019/12/10/5deec1f1cbce2/#Connectivity-map 的重要性及地位蹦骑、發(fā)展歷史及版本 "Connectivity map 的重要性及地位、發(fā)展歷史及版本")Connectivity map 的重要性及地位臀防、發(fā)展歷史及版本
做藥物篩選試驗的研究人員以及做計算生物學(xué)數(shù)據(jù)分析的研究人員眠菇,應(yīng)該對美國博德研究所的 Connectivity Map(CMap) 數(shù)據(jù)庫都不陌生。CMap 是藥物基因組學(xué)研究領(lǐng)域內(nèi)非常重要的數(shù)據(jù)庫袱衷,目前網(wǎng)頁版數(shù)據(jù)庫已更新至第二版捎废。該數(shù)據(jù)庫自 2006 年發(fā)布至 2019 年 9 月初已被引用超過 3000 次(數(shù)據(jù)來源于谷歌學(xué)術(shù))。Cmap 旨在通過基因表達(dá)量的變化來發(fā)現(xiàn)藥物致燥、基因和疾病之間的功能聯(lián)系登疗。最近十年來在藥物組合和藥物重定位研究中扮演著越來越重要的角色。
[](https://www.dazhuanlan.com/2019/12/10/5deec1f1cbce2/# 數(shù)據(jù)量及數(shù)據(jù)類型 "數(shù)據(jù)量及數(shù)據(jù)類型")數(shù)據(jù)量及數(shù)據(jù)類型
CMap 數(shù)據(jù)庫包含了 1309 種小分子藥物處理 5 種人類腫瘤細(xì)胞系前后的基因芯片數(shù)據(jù)篡悟。處理條件多種多樣谜叹,包括不同藥物、不同濃度搬葬、不同處理時長等等荷腊,大多數(shù)處理條件都有三個處理樣本以及對應(yīng)的三個及以上空白對照組。
[](https://www.dazhuanlan.com/2019/12/10/5deec1f1cbce2/#CMap 的結(jié)果解釋 "CMap 的結(jié)果解釋")CMap 的結(jié)果解釋
做計算生物學(xué)的用戶往往會把 CMap 所有的基因芯片數(shù)據(jù)下載下來然后做各自的后續(xù)分析急凰,而對于普通濕實驗用戶女仰,該數(shù)據(jù)庫也提供了網(wǎng)頁版分析工具猜年,只要用戶提供兩個文檔(分別包含上調(diào)基因和下調(diào)基因)就能夠得到 CMap 中與用戶提供基因列表相關(guān)(正相關(guān)和負(fù)相關(guān))的藥物列表,從而為用戶進(jìn)行藥物分析提供指導(dǎo)疾忍。用戶最感興趣應(yīng)該就是 barview 中紅綠顏色代表的藥物了乔外,也就是 connectivity score 不為零的那些 instance 代表的藥物。具體來說一罩,用戶按要求上傳自己的基因列表后會得到數(shù)據(jù)庫返回的結(jié)果杨幼,如下圖所示:
[圖片上傳失敗...(image-dcce73-1594104359326)]
針對用戶提供的兩個基因列表:
barview給出 CMap 所有 instance(一種藥物在一種濃度下處理特定時長的一種細(xì)胞系,產(chǎn)生的數(shù)據(jù)就是一個 instance)與其關(guān)聯(lián)度(connectivity score)的圖形化展示聂渊。綠色代表正相關(guān)差购,紅色代表負(fù)相關(guān),灰色代表不相關(guān)汉嗽。每個正值 connectivity score 代表正相關(guān)欲逃,背后的假設(shè)是藥物擾動的表達(dá)譜與疾病擾動的表達(dá)譜正相關(guān),可以簡單地認(rèn)為藥物可以引起或者加劇該疾病狀態(tài)饼暑;反之稳析,每個負(fù)值 connectivity score 代表負(fù)相關(guān),背后的假設(shè)是藥物擾動的表達(dá)譜與疾病擾動的表達(dá)譜負(fù)相關(guān)弓叛,可以簡單地認(rèn)為藥物能夠減輕甚至逆轉(zhuǎn)該疾病狀態(tài)彰居。
rank是所有 instance 放在一起后的 connectivity score 排名,connectivity score 越大排名越靠前邪码。
batch是 instance 產(chǎn)生的批次裕菠,7000 多個基因表達(dá)譜數(shù)據(jù)由多個不同批次產(chǎn)生咬清。
dose藥物處理細(xì)胞系時的濃度闭专。
cell line是藥物處理的細(xì)胞系類型。
score是指 connectivity score旧烧,由 up score 和 down score 計算后再經(jīng)過標(biāo)準(zhǔn)化得到影钉,是相對數(shù)值。
up/down分別指用戶上傳的上調(diào) / 下調(diào)基因列表對每個 instance 的打分掘剪,是絕對數(shù)值平委。
ATC是指該藥物的 ATC code 值,是一種國際通用的藥物分類系統(tǒng)夺谁。
instance_id是指每個 instance 的標(biāo)識 ID廉赔。