近日,國際權(quán)威學(xué)術(shù)期刊《核酸研究》(Nucleic Acids Research)發(fā)表了西北工業(yè)大學(xué)光酣、西安交通大學(xué)厦瓢、哈爾濱工業(yè)大學(xué)、復(fù)旦大學(xué)溉旋、天津大學(xué)等團(tuán)隊(duì)合作開發(fā)的首個(gè)包含細(xì)胞類型特異信息的疾病基因數(shù)據(jù)庫畸冲,旨在提供病病例與健康對(duì)照之間、病例中不同細(xì)胞類型之間以及不同病理程度病例之間基因表達(dá)的差異观腊。
單細(xì)胞RNA測(cè)序(scRNA-seq)技術(shù)能夠以單個(gè)細(xì)胞分辨率研究復(fù)雜生物的轉(zhuǎn)錄組邑闲,為科學(xué)家提供了一種新的工具來研究細(xì)胞在表達(dá)模式上的異質(zhì)性,特別是疾病細(xì)胞的異質(zhì)性梧油。另一方面苫耸,scRNA-seq的快速發(fā)展為探索疾病微環(huán)境中的細(xì)胞亞群提供了新的思路,有利于研究疾病的發(fā)生儡陨、發(fā)展鲸阔、耐藥性(2)和免疫逃逸。
scRNA-seq技術(shù)已被廣泛應(yīng)用于病例對(duì)照研究中差異表達(dá)基因的識(shí)別以及細(xì)胞亞群之間差異的識(shí)別迄委。許多研究人員利用scRNA-seq鑒定了疾病中基因表達(dá)的特異性褐筛,例如識(shí)別阿爾茨海默病(老年癡呆)中多個(gè)神經(jīng)元細(xì)胞亞群的差異表達(dá)基因叙身,識(shí)別慢性髓性白血病不同階段癌癥干細(xì)胞亞群的分子特征渔扎,揭示2型糖尿病患者中細(xì)胞類型特異性基因表達(dá)的變化,等信轿。
隨著scRNA-seq在轉(zhuǎn)錄組分析中的廣泛應(yīng)用晃痴,已經(jīng)建立了多個(gè)scRNA-seq相關(guān)數(shù)據(jù)庫。盡管這些數(shù)據(jù)庫為在單細(xì)胞水平上研究不同細(xì)胞類型和組織中的基因表達(dá)提供了便利财忽,但不同疾病中基因表達(dá)特異性的數(shù)據(jù)庫仍屬空白倘核。
西北工業(yè)大學(xué)、西安交通大學(xué)與哈爾濱工業(yè)大學(xué)等團(tuán)隊(duì)合作即彪,開發(fā)了SC2disease數(shù)據(jù)庫紧唱,旨在提供病病例與健康對(duì)照之間、病例中不同細(xì)胞類型之間以及不同病理程度病例之間基因表達(dá)的差異。SC2disease數(shù)據(jù)庫提供了一個(gè)用戶友好的界面漏益,用于瀏覽各種感興趣基因的表達(dá)蛹锰,搜索細(xì)胞類型marker,以探索多種疾病的生物標(biāo)志物绰疤,比較疾病和非疾病狀態(tài)下各種細(xì)胞類型的表達(dá)譜铜犬。總的來說,SC2disease (http://easybioai.com/sc2disease/)轻庆,是用戶探索不同細(xì)胞類型癣猾、組織和疾病中細(xì)胞類型特異性基因的綜合資源。
細(xì)胞類型特異基因及其在人類疾病中的表達(dá)是從出版物中手工提取的余爆。這些出版物是在PubMed中搜索諸如‘single cell sequencing’, ‘single cell sequencing disease’, and ‘10x genomics”等關(guān)鍵詞獲得的纷宇。隨后,對(duì)其相應(yīng)的人類疾病龙屉、實(shí)驗(yàn)組織呐粘、細(xì)胞類型满俗、顯著基因及其表達(dá)進(jìn)行了提取和復(fù)驗(yàn)转捕。數(shù)據(jù)收集過程如下所示。
圖1.數(shù)據(jù)收集過程
我們選擇了使用高質(zhì)量scRNA-seq平臺(tái)研究人類疾病的文獻(xiàn)唆垃。 這些文獻(xiàn)的原始作者已經(jīng)開發(fā)了用于分析其原始數(shù)據(jù)的特定pipeline五芝,因此我們將其細(xì)胞類型特異性基因的結(jié)果手動(dòng)提取到SC2disease中。 此外辕万,為了提高不同研究之間的可比性枢步,我們?cè)O(shè)計(jì)了統(tǒng)一的pipeline重新分析每個(gè)研究的基因表達(dá)矩陣。 我們還將這些重新分析的結(jié)果也放入SC2disease中渐尿。
在當(dāng)前版本的SC2disease中收集了341種細(xì)胞類型和29種組織中與25種疾病有關(guān)的基因表達(dá)醉途。 這些疾病及其實(shí)驗(yàn)組織和細(xì)胞類型如圖2所示。
圖2. SC2disease收集了25種人類疾病的細(xì)胞類型特異性基因砖茸。從29個(gè)組織中提取細(xì)胞隘擎,共計(jì)341種細(xì)胞類型
SC2disease中總共記錄了946,481個(gè)條目。 每個(gè)條目包含10個(gè)部分凉夯,用于描述基因與相關(guān)疾病之間的關(guān)系货葬。?這10個(gè)部分包括疾病名稱,實(shí)驗(yàn)組織劲够,細(xì)胞類型震桶,基因名稱,用于描述基因表達(dá)的變量名稱(log2FC或均值)征绎,變量的值蹲姐,差異表達(dá)基因(DEG)的比較,PMID,測(cè)序平臺(tái)和詳細(xì)信息淤堵。 “詳細(xì)信息”部分包含有關(guān)細(xì)胞類型寝衫,疾病和基因的詳細(xì)信息。
綜上拐邪,SC2disease的開發(fā)為研究基于scRNA-seq的人類疾病相關(guān)細(xì)胞類型特異性基因提供了重要支撐慰毅。
Cite: SC2diseases: a manually curated database of Single-Cell Transcriptome for human diseases, Nucleic Acids Research, 2020.