一般說明
從MSigDB 7.0開始夯尽,我們現(xiàn)在使用 Ensembl 作為平臺注釋權(quán)限童漩〗肭罚基因標識符通過從 Ensembl 的 BioMart 數(shù)據(jù)服務(wù)中提取的注釋映射到其 HGNC 批準的基因符號和 NCBI 基因 ID舌厨,并將在每個 MSigDB 版本中更新與 Ensembl 的最新可用版本泄朴。
H 集合:標志基因集
我們將此集合設(shè)想為您探索 MSigDB 資源和 GSEA 的起點怠苔『蘖铮霍爾馬克基因集總結(jié)并代表特定的明確定義的生物狀態(tài)或過程疾捍,并顯示連貫的表達胎许。這些基因集是由基于識別基因集重疊和保留顯示坐標表達的基因的計算方法生成的峻呛。這些標志可減少噪音和冗余,并為 GSEA 提供更好的生物空間辜窑。我們提到原始重疊的基因集钩述,從中得出一個標志,作為它的"創(chuàng)始人"集穆碎⊙揽保霍爾馬克基因集頁面提供鏈接到相應(yīng)的創(chuàng)始人集更深入的后續(xù)行動。
本集合是 50 個標志的初始版本所禀,這些標記濃縮了 v4.0 MSigDB 集合 C1 到 C6 中 4方面,000 多個原始重疊基因集
的信息。我們稱原始基因集為"創(chuàng)始人"集色徘。
霍爾馬克基因集頁面提供鏈接到相應(yīng)的創(chuàng)始人集更深入的
探索恭金。此外,標志基因集頁面還包括指向微陣拉數(shù)據(jù)的鏈接褂策,這些數(shù)據(jù)用于完善和驗證標志簽名横腿。
如要引用您對收藏的使用,欲了解更多信息斤寂,請參閱利伯松 A耿焊、比爾格 C、索瓦爾德斯德爾 H遍搞、甘迪 M罗侯、梅西羅夫 JP、塔馬約
P尾抑。分子簽名數(shù)據(jù)庫 (MSigDB) 標志基因集集合歇父。細胞 Syst. 2015 十二月 23:1 (6): 417-425.
C1 集合:位置基因集
本集合的基因注釋來自 Ensembl BioMart 的染色體和 Karyotype 波段軌道(參見當前版本的 MSigDB 發(fā)布注釋),并反映了原始組件上所示的基因結(jié)構(gòu)再愈。細胞遺傳帶中的分號被忽略榜苫。例如,5q31.1被視為5q31翎冲。因此垂睬,注釋為 5q31.2 的基因和注釋為 5q31.3 的基因都放在同一組 5q31 中。這些基因集可以幫助識別與染色體缺失或放大、劑量補償驹饺、表觀遺傳沉默和其他區(qū)域效應(yīng)相關(guān)的影響钳枕。
C2 集合:精心策劃的基因集
本系列中的基因集由各種來源策劃,包括在線通路數(shù)據(jù)庫和生物醫(yī)學文獻赏壹。許多集也由各個域名專家貢獻鱼炒。每個基因集的基因設(shè)置頁面列出其來源。C2 集合分為以下兩個子集合:化學和遺傳擾動 (CGP) 和規(guī)范通路 (CP)蝌借。
>C2子集合CGP:化學和遺傳擾動
代表遺傳和化學擾動的表達特征的基因集昔瞧。
大多數(shù)CGP集來自生物醫(yī)學
文獻。在過去幾年中菩佑,微陣拉研究已經(jīng)確定了幾個重要的生物和臨床狀態(tài)(如癌癥轉(zhuǎn)移自晰,干細胞特征,耐藥性)的特征稍坯。C2 系列使許多這些簽名(最初以表格身份在紙張中發(fā)布)作為基因集提供酬荞。為此,我們編制了一份帶有已發(fā)表基因表達特征的微陣列文章列表瞧哟,并從每篇文章中從主文本或補充信息表中提取一個或多個基因集混巧。其中許多基因組成對出現(xiàn):xxx_UP(和xxx_DN)基因集,代表由擾動誘導(和壓抑)的基因集绢涡。大多數(shù)CGP集是從出版物中精心策劃的牲剃。它們包括指向PubMed引文的鏈接、集的確切來源(例如表 1)雄可,以及指向GEO或陣列快遞存儲庫中任何相應(yīng)原始數(shù)據(jù)的鏈接。當基因集涉及遺傳擾動時缠犀,該集的簡要描述包括指向該基因進入NCBI(Entrez)基因數(shù)據(jù)庫的鏈接数苫。當基因集涉及化學擾動時,該集的簡要描述包括一個鏈接到該化學品進入NCBI PubChem化合物數(shù)據(jù)庫辨液。
其他 CGP 基因集
包括:
- 華盛頓大學公布的微陣列基因表達數(shù)據(jù)L2L數(shù)據(jù)庫提供的基因集虐急。見紐曼 Jc, 韋納上午滔迈。L2L:發(fā)現(xiàn)微陣列表達數(shù)據(jù)中隱藏意義的簡單工具止吁。基因組生物2005:6(9):R81燎悍。另見 http://depts.washington.edu/l2l敬惦。
- 基因集由約翰霍普金斯大學醫(yī)學院MYC目標基因數(shù)據(jù)庫的Chi Dang博士策劃。見澤勒基谈山,杰加股份公司俄删,阿羅諾BJ,奧唐納卡,當CV畴椰。響應(yīng)Myc腫瘤轉(zhuǎn)錄因子的基因綜合數(shù)據(jù)庫:直接基因組靶點的識別臊诊。基因組生物2003:4(10):R69斜脂。
- 一些人為這個集合貢獻了基因集抓艳。基因集注釋包括一個"貢獻者"字段帚戳,該字段按名稱/附屬性確認貢獻者壶硅。
> C2 子集合 CP:規(guī)范路徑
通路基因集由以下在線數(shù)據(jù)庫進行精制:
- 生物卡塔:http://cgap.nci.nih.gov/Pathways/BioCarta_Pathways。另請注意销斟,這些基因集在MSigDB許可證的特殊條款庐椒。
- 凱格:http://www.pathway.jp。另請注意蚂踊,這些基因集在MSigDB許可證的特殊條款约谈。
- 母體項目:來自麻省理工學院的海因斯實驗室http://matrisomeproject.mit.edu.另見納巴 A, 克勞瑟 Kr犁钟, 赫爾施 S棱诱, 劉 H, 卡爾薩涝动, 海因斯羅迈勋。母體:在西里科定義和體內(nèi)特征由正常和腫瘤細胞外矩陣的蛋白質(zhì)組學。熔細胞蛋白質(zhì)組學醋粟。2012年4月11日(4):M111.014647靡菇。
- 路徑交互數(shù)據(jù)庫:國家癌癥研究所(NCI)通路交互數(shù)據(jù)庫(PID)http://pid.nci.nih.gov。現(xiàn)在可通過由加州大學圣地亞哥分校Ideker實驗室托管的NDEx數(shù)據(jù)庫(http://www.ndexbio.org)獲得米愿。
- 反應(yīng):反應(yīng)基因組集來自反應(yīng)組厦凤,并已過濾以消除集間冗余(參見當前包含的反應(yīng)組版本的MSigDB 發(fā)布說明)。http://www.reactome.org
- 西格瑪·阿德里希:http://www.sigmaaldrich.com/life-science.html
- 信號網(wǎng)關(guān):信號網(wǎng)關(guān)由加州大學圣地亞哥分校的圣地亞哥超級計算機中心主辦育苟。http://www.signaling-gateway.org.
- 超級陣神:http://www.sabiosciences.com/ArrayList.php
- 維基路徑:維基路徑基因集直接從維基路徑數(shù)據(jù)庫的最新版本中檢索(參見當前包含的維基路徑版本的MSigDB 發(fā)布說明)较鼓。https://www.wikipathways.org/
C3集合:調(diào)節(jié)目標基因集
基因集代表按轉(zhuǎn)錄因子或微RNA調(diào)節(jié)的潛在目標。這些集由基因組成违柏,由它們共同的調(diào)節(jié)元素分組博烂。主題代表促銷員和 3'-UTR 中的已知或可能的 cis 監(jiān)管元素。這些基因集使表達分析實驗的變化與假定cis-調(diào)節(jié)元素聯(lián)系起來成為可能漱竖。C3 集合分為兩個子集合:微RNA靶點 (MIR) 和轉(zhuǎn)錄因子目標 (TFT)禽篱。
>C3子集合MIR:微RNA目標
-
米德布:這些集包括使用MirTarget算法(劉和王,2019年)計算預(yù)測的miRNA的人類基因目標闲孤。數(shù)據(jù)來自miRDB v6.0(mirdb.org谆级、陳和王烤礁,2020年)目標預(yù)測,MirTarget得分為80>(高信心預(yù)測)肥照。miRNA 編目在 miRDB v6.0 中來自 miRBase v22 (2018 年 3 月)脚仔。
劉偉軍、王曉偉(2019)通過微RNA綁定和目標表達數(shù)據(jù)的綜合建模預(yù)測功能微RNA目標舆绎±鹪啵基因組生物學。20 (1):18.
陳玉浩和王曉偉(2020)miRDB:功能微RNA目標預(yù)測的在線數(shù)據(jù)庫吕朵。核酸研究猎醇。48 (D1) :D 127-D131.
MIR_Legacy:( 這些是舊基因集, 以前代表 C3:MIR 子集合之前努溃, MSigDB v7.1).這些集由基因組成硫嘶,在其3'未翻譯的區(qū)域共享7核苷酸圖案。每7-mer圖案匹配(是補充)成熟人類微RNA(miRNA)的種子(基地2至8)編目在v7.1的miRBase(2005年10月)梧税。
> C3 子集合 TFT:轉(zhuǎn)錄因子目標
-
格特:預(yù)測在其促進區(qū)域(轉(zhuǎn)錄啟動站點周圍為-1000沦疾,+100 bp)中包含轉(zhuǎn)錄因子結(jié)合位點的人類基因集,用于指示轉(zhuǎn)錄因子第队∠基因集來自基因轉(zhuǎn)錄調(diào)節(jié)數(shù)據(jù)庫 (GTRD,gtrd.biouml.org)統(tǒng)一處理管道凳谦,并代表每個轉(zhuǎn)錄因子的潛在監(jiān)管目標候選列表(參見MSigDB 發(fā)布說明忆畅,當前包含 GTRD 版本)。
-
TFT_Legacy:(這些是較舊的基因集,以前代表 MSigDB v7.1 之前的 C3:TFT 子集合)橄镜。基因集共享上游cis- 監(jiān)管主題偎快,可以用作潛在的轉(zhuǎn)錄因子綁定位點。我們使用兩種方法來生成這些主題基因集洽胶。
- 基因組的"保存實例"包括推斷的目標基因晒夹,每個主題m的174個圖案高度保存在四個哺乳動物物種(人類裆馒,小鼠,老鼠和狗)的促進者丐怯。這些圖案代表潛在的轉(zhuǎn)錄因子結(jié)合點喷好,并按謝 X、Lu J读跷、庫爾博卡斯 EJ梗搅、Golub TR、Mootha V效览、林德布拉德-托克无切、蘭德 ES、凱利斯 M. 通過比較幾種哺乳動物丐枉,系統(tǒng)地發(fā)現(xiàn)人類促進者的調(diào)控主題和 3' UTR 進行編目哆键。自然界。2005年3月17日:434(7031):338-45瘦锹。每個基因集由所有人類基因組成籍嘹,其發(fā)起人包含至少一個保存的圖案m實例,其中發(fā)起人被定義為包含在轉(zhuǎn)錄啟動站點 (TSS) 中心的 4 千基窗口內(nèi)的非編碼序列沼本。
- 哺乳動物轉(zhuǎn)錄監(jiān)管主題從 v7.4 TRANSFAC 數(shù)據(jù)庫中提蓉汀(參見謝等人的補充數(shù)據(jù))。每個基因集都由所有人類基因組成抽兆,其發(fā)起人至少包含一個保存的 TRANSFAC 主題實例识补,其中發(fā)起人被定義為以轉(zhuǎn)錄開始站點 (TSS) 為中心的 4 千基窗口內(nèi)包含的非編碼序列。
C4集合:計算基因集
計算基因集由挖掘大量面向癌癥的微陣痛數(shù)據(jù)來定義辫红。本集合分為兩個子集合:癌癥基因群(CGN)和癌癥模塊(CM)凭涂。
>C4子集合CGN:癌癥基因鄰里
在我們的GSEA論文中,蘇布拉馬尼亞贴妻、塔馬約等人2005年切油、PNAS 102、15545-15550名惩,我們挖掘了4個相關(guān)基因集的表達匯編數(shù)據(jù)集澎胡,從內(nèi)部資源和布倫塔尼、卡瓦列羅等人精心策劃的380個癌癥相關(guān)基因列表開始娩鹉。人類癌癥基因組計劃測序聯(lián)合會攻谁。使用表達的序列標記生成和利用人類轉(zhuǎn)錄組的癌癥導向表示。2003年11月11日:100(23):13418-23號公告弯予。我們使用給定基因的輪廓作為模板戚宦,按 Pearson 相關(guān)系數(shù)在數(shù)據(jù)集中訂購所有其他基因。我們應(yīng)用了0.85≥R的截止锈嫩,以提取相關(guān)基因受楼。鄰里計算在每個簡編中獨立完成垦搬。這樣,根據(jù)每個簡編中的相關(guān)性艳汽,給定的異基因可能最多具有四種"類型"的鄰里猴贰。在這個閾值下,<25個基因的鄰里被省略了骚灸,最終產(chǎn)生了427組糟趾。
- GNF2:人體組織簡編(諾華)。來自諾華正常組織簡編的基因表達簡介甚牲,發(fā)表在蘇艾义郑、威爾特郡 T、巴塔洛夫 S丈钙、拉普 H非驮、清卡、D 塊雏赦、張 J劫笙、索登 R、哈亞卡瓦 M星岗、克雷曼 G填大、庫克 Mp 、沃克 JR俏橘、霍根施 JB 中允华。小鼠和人類蛋白質(zhì)編碼轉(zhuǎn)錄組的基因圖集。納塔爾·阿卡德·西·美國2004年4月20日:101(16):6062-7寥掐。
- 車:諾華致癌簡編(諾華)靴寂。諾華癌組織簡編的基因表達簡介,發(fā)表在蘇AI召耘、威爾士JB百炬、薩皮諾索LM、克恩SG污它、迪米特羅夫P剖踊、拉普H、舒爾茨PG衫贬、鮑威爾SM蜜宪、莫斯卡魯克CA、小弗里森HF祥山、漢普頓轉(zhuǎn)基因。癌癥 Res. 2001 十月 15:61 (20): 7388-93.
- GCM:全球癌癥地圖(廣泛研究所)掉伏。全球癌癥地圖中的基因表達特征缝呕,如發(fā)表在拉馬斯瓦米 S澳窑、 塔馬約 P, 里夫金 R供常, 慕克吉 S摊聋, 楊 Ch, 安杰洛 M栈暇, 拉德 C麻裁, 賴克 M, 拉圖利佩 E源祈, 梅西羅夫 Jp煎源, 波吉奧 T, 杰拉爾德 W香缺, 洛達 M手销, 蘭德 Es, Golub Tr. 多類癌癥診斷使用腫瘤基因表達簽名图张。納塔爾·阿卡德·西·美國2001年12月18日:98(26):15149-54锋拖。
- MORF:基因表達數(shù)據(jù)集的未發(fā)布簡編,包括博德研究所內(nèi)部許多癌癥項目AFFymetrix HG-U95癌癥樣本(共1祸轮,693個)兽埃,來自代表許多不同組織類型的各種癌癥項目,主要是原發(fā)性腫瘤适袜,如前列腺癌柄错、乳腺癌、肺癌痪蝇、淋巴瘤鄙陡、白血病等。
> C4 子集合 CM:癌癥模塊
由塞加爾 E躏啰、弗里德曼 N 趁矾、科勒 D 、雷格夫 A 定義的基因集给僵。顯示癌癥中表達模塊條件活動的模塊圖毫捣。納特·吉納特2004年10月36日(10):1090-8。簡言之帝际,作者從各種資源(如KEGG蔓同、GO等)編制了基因集("模塊")。通過挖掘大量與癌癥相關(guān)的微陣列數(shù)據(jù)蹲诀,他們確定了456個此類模塊斑粱,這些模塊在各種癌癥條件下發(fā)生了顯著變化。另見 http://robotics.stanford.edu/~erans/cancer脯爪。
C5 集合:本體基因集
本集合中的基因集來自本體論資源则北。分為四個子集合矿微,從本體論注釋中得出。本體論注釋是從各自當局維護的數(shù)據(jù)庫中整理的尚揣。
本體論術(shù)語非常廣泛的類別涌矢,將產(chǎn)生非常大的基因集(大于2000名成員)和本體論術(shù)語,產(chǎn)生基因集少于5名成員被省
略快骗。此外娜庇,對每個子集合中的基因集進行了過濾,以消除集間冗余方篮。(請參閱MSigDB 發(fā)布當前版本的說明名秀,以及有關(guān)特定程序的更多信息。GSEA用戶注意:基因集富集分析確定由共同調(diào)控的基因組成的基因集:
GO基因集基于本體恭取,不一定包括共同調(diào)控的基因泰偿。
> C5 子集合 GO: 基因本體論
C5:GO 子集合分為三個組合(BP、CC 和 MF)蜈垮,分別來自基因本體論 (GO)耗跛,并代表屬于三個根 GO 本體之一的 GO 術(shù)語:生物過程 (BP)、細胞組件 (CC) 或分子函數(shù) (MF)攒发。
GO 是開發(fā)和使用本體論以支持基因及其產(chǎn)品的生物學意義注釋的協(xié)作
努力调塌。GO 注釋包括一個 GO 術(shù)語,該術(shù)語與特定參考相關(guān)聯(lián)惠猿,該參考描述特定 GO 術(shù)語與基因產(chǎn)品之間的關(guān)聯(lián)所基于的工作或分析羔砾。每個注釋還包括一個證據(jù)代碼,以指示如何支持特定術(shù)語的注釋(http://geneontology.org/page/guide-go-evidence-codes)偶妖。此子集合中的基因集以"GOBP"(生物過程)姜凄、"GOMF"(分子函數(shù))或"GOCC"(細胞成分)為前綴,以指示其本體論來源趾访。
> C5 子集合 HPO: 人類表型本體論
人類表型本體論 (HPO) 提供了人類疾病(https://hpo.jax.org/)中遇到的表型異常的標準化詞匯态秧。HPO注釋由這些表型異常和異常與已知參與上述異常發(fā)展的一組基因之間的關(guān)聯(lián)組成,這些基因是利用醫(yī)學文獻扼鞋、孤兒網(wǎng)申鱼、DECIPHER和OMIM開發(fā)的。這個子卷中的基因集以"HP"為前綴云头,以指示其本體論的來源捐友。
C6集合:致癌特征基因集
基因集代表細胞通路的特征,這些通路在癌癥中經(jīng)常被解除管制溃槐。大多數(shù)特征直接來自NCBI GEO的微陣拉數(shù)據(jù)匣砖,或來自內(nèi)部未發(fā)表的分析實驗,這些實驗涉及已知癌癥基因的擾動。此外脆粥,少數(shù)原生特征是從科學出版物中精心策劃的砌溺。
C7集合:免疫特征基因集
這個集合中的基因集代表免疫系統(tǒng)內(nèi)的細胞狀態(tài)和擾動。它由兩個子集合組成:
- 免疫西格德布变隔,這是先發(fā)制人的完整的C7,代表了免疫擾動和狀態(tài)的簽名的廣泛策劃努力
- VAX蟹倾,一個有針對性的子集匣缘,專門側(cè)重于策劃人類對各種疫苗的反應(yīng)的已發(fā)表的研究。
>C7子集合免疫西格德布
免疫SigDB由基因集組成鲜棠,這些基因集代表了免疫系統(tǒng)內(nèi)細胞類型肌厨、狀態(tài)和擾動的廣泛策劃努力。這些簽名是由人類和小鼠免疫學中已發(fā)表的研究的人工策劃產(chǎn)生的豁陆。
我們首先捕獲了免疫學文獻中發(fā)表的相關(guān)微陣列數(shù)據(jù)集柑爸,這些數(shù)據(jù)已存入基因表達綜合體(GEO)。
對于每一項已發(fā)表的研究盒音,都確定了相關(guān)的比較(例如WT與KO;治療前與治療后等)表鳍,并建立了簡短的、具有生物學意義的描述祥诽。所有數(shù)據(jù)的處理和規(guī)范化方式相同譬圣,以識別基因集,這些基因集對應(yīng)于按每個分配比較的相互信息排列的上部或下層基因(FDR < 0.02 或最多 200 個基因)雄坪。
免疫簽名收集是作為我們與達納-法伯癌癥研究所海寧實驗室和人類免疫學項目聯(lián)合會(HIPC)合作的一部分而
制作的厘熟。要引用您使用的集合,并進一步了解维哈,請參閱Godec J绳姨, 譚 Y, 利伯松 A阔挠, 塔馬約 P飘庄, 巴塔查里亞 S, 布特 A谒亦, 梅西羅夫 JP竭宰, 海寧 WN, 免疫簽名簡編識別保存和物種特定生物學在炎癥的反應(yīng)份招, 2016切揭, 免疫 44 (1), 194-206.
>C7子集合VAX:疫苗反應(yīng)基因集
本集合中的免疫反應(yīng)特征來自人類免疫學項目聯(lián)合會(重債窮國)對50種疫苗順序的62份出版物的基因表達的策劃結(jié)果锁摔。最初要策劃的出版物清單是從PupMed搜索與"疫苗[和]簽名"或"疫苗[和]基因表達"等詞相匹配的論文中挑選出來的廓旬。要包含,每個基因列表都需要顯示具有統(tǒng)計學意義的差異基因表達。收集了詳細的元數(shù)據(jù)孕豹,包括疫苗涩盾、隊列、比較励背、年齡和表達方式變化春霍,如向上、向下叶眉、正相關(guān)等址儒。這些簽名受到廣泛的質(zhì)量控制和校對。一些手動基因符號更新和篩選發(fā)生后衅疙,策劃莲趣。在執(zhí)行 MSigDB 的通用符號重新標配程序之前,完全相同的響應(yīng)簽名被合并到單個基因集中饱溢。
C8集合:細胞類型簽名基因集
包含在人體組織單細胞測序研究中識別的細胞類型的簇標記基因的基因集喧伞。這些基因集是從文獻中精心策劃的,代表簽名基因和細胞類型識別绩郎,如各自的起源出版物所代表的那樣潘鲫。本集合中的基因集涵蓋了來自心臟、胃腸道嗽上、胰腺次舌、腎臟、肝臟兽愤、免疫系統(tǒng)彼念、直膜、嗅覺組織和大腦的多種細胞類型浅萧。這些基因集旨在促進細胞類型在數(shù)據(jù)集中的分配逐沙,例如那些來自開發(fā)器官模型的實驗。這些基因集的開發(fā)資金是由陳扎克伯格倡議贊助的人類細胞圖集協(xié)作計算工具計劃提供的洼畅。