算法描述篇
從這張幻燈片中可以發(fā)現(xiàn)存在有輸入和輸出集合降狠,并且最后可以計(jì)算出對(duì)應(yīng)的疾病評(píng)分和對(duì)照評(píng)分從而發(fā)現(xiàn)存在有關(guān)聯(lián)的細(xì)胞和細(xì)胞集合辟癌。
Step1:獲取候選疾病基因集合派歌,通過(guò)GWAS數(shù)據(jù)來(lái)計(jì)算MAGMA中的基因的z-score數(shù)值埃撵,這些數(shù)值可以和疾病還曾都有相關(guān)聯(lián)程度,接著選擇出來(lái)前1000個(gè)基因判斷為這些基因和疾病存在有強(qiáng)大的關(guān)聯(lián)氢拥,在每個(gè)疾病評(píng)估后面存在有對(duì)這個(gè)基因?qū)?yīng)的基因數(shù)值绑改。
Step2: 選取大約有ngene個(gè)數(shù)據(jù),從這些數(shù)據(jù)中可以發(fā)現(xiàn)對(duì)應(yīng)的z-score值兄一,在候選基因集合之外可以選擇大約有B * ngene個(gè)對(duì)照基因集合厘线,每個(gè)集合中存在有ngene個(gè)數(shù)值,從這些數(shù)值中計(jì)算對(duì)照評(píng)分和疾病評(píng)分
Step3:如果想計(jì)算出來(lái)原始對(duì)照評(píng)分和原始疾病評(píng)分出革,必須對(duì)兩個(gè)矩陣進(jìn)行標(biāo)準(zhǔn)化造壮,具體的標(biāo)準(zhǔn)化的公式為:對(duì)個(gè)體差異進(jìn)行標(biāo)準(zhǔn)化的計(jì)算公式
說(shuō)明了這些基因?qū)?yīng)的基因方差
Step4:對(duì)全局無(wú)關(guān)變量進(jìn)行標(biāo)準(zhǔn)化
對(duì)對(duì)照組計(jì)算相對(duì)應(yīng)的均值和標(biāo)準(zhǔn)方差亮隙,
Step5:再次對(duì)個(gè)體差異進(jìn)行標(biāo)準(zhǔn)化
對(duì)于所有經(jīng)過(guò)sc-RNA seq的n_cell個(gè)細(xì)胞秘蛇,我們得到了n_cell個(gè)疾病評(píng)分和n_cell×B個(gè)對(duì)照評(píng)分。
Step6:計(jì)算出疾病評(píng)分和對(duì)照評(píng)分格郁,得到對(duì)應(yīng)的p-value
不妨設(shè)B = n_cell= 1000展箱, 在n_cell×B個(gè)對(duì)照評(píng)分中旨枯,考慮第c個(gè)細(xì)胞的疾病評(píng)分s_c:
當(dāng)所有對(duì)照評(píng)分都小于s_c ,分子為1混驰,分母接近10^6攀隔, p_c ≈ 10^?6?0.01皂贩,細(xì)胞c與疾病的相關(guān)性顯著;
當(dāng)所有對(duì)照評(píng)分都大于s_c 昆汹,分子為1+n_cellB 明刷,與分母相等, p_c=1满粗,細(xì)胞c與疾病基本不相關(guān)辈末;
當(dāng)有9.5 ×10^5個(gè)對(duì)照評(píng)分小于s_c,分子接近 5×104映皆,分母接近106挤聘, p_c ≈ 0.05,達(dá)到95%置信水平
Step7:scDRS, cell type-diseases associations were computed using the MC test
上面一步驟獲取數(shù)據(jù)有細(xì)胞水平P值pc捅彻,標(biāo)準(zhǔn)化疾病評(píng)分sc檬洞,和標(biāo)準(zhǔn)化對(duì)照評(píng)分s ctrl c1,...沟饥,sctrl cB,怎么知道那些細(xì)胞具有和疾病關(guān)聯(lián)性強(qiáng)弱湾戳,可以通過(guò)計(jì)算pvalue值贤旷,具體公式看第一個(gè)可以看出來(lái),對(duì)同一細(xì)胞類(lèi)型中的基因查看對(duì)應(yīng)和對(duì)照組中t分?jǐn)?shù)砾脑,如果大于得到的值為1幼驶,否則得到的值為0,從而計(jì)算pvalue韧衣,不同細(xì)胞類(lèi)型存在有不同的pvalue盅藻,對(duì)pvalue進(jìn)行排序,拿top5-10的細(xì)胞類(lèi)型數(shù)據(jù)用于后續(xù)分析
Step8: Assessing within-cell-type heterogeneity in association with disease
在相同的細(xì)胞類(lèi)型中畅铭,接著想知道相同細(xì)胞類(lèi)型中是否存在異質(zhì)性氏淑,異質(zhì)的一方面理解為同一細(xì)胞的不同階段,而引起的細(xì)胞異質(zhì)硕噩。Geary’s C是一種統(tǒng)計(jì)度量假残,用于量化屬于同一細(xì)胞類(lèi)型或細(xì)胞簇的一組細(xì)胞之間疾病評(píng)分的空間自相關(guān)性。最高分位數(shù)是指疾病評(píng)分最高的細(xì)胞子集(例如炉擅,前5%的細(xì)胞)辉懒,選擇最上面的分位數(shù),該方法專(zhuān)注于最相關(guān)的單元格谍失,同時(shí)對(duì)潛在的注釋錯(cuò)誤或錯(cuò)誤標(biāo)記具有魯棒性眶俩,然后將這些高度顯著的細(xì)胞用作檢驗(yàn)統(tǒng)計(jì)量,以評(píng)估細(xì)胞類(lèi)型與疾病之間的關(guān)聯(lián)快鱼。
值顯著低于1表明在給定集合內(nèi)的細(xì)胞之間疾病關(guān)聯(lián)的異質(zhì)性很高颠印。換句話說(shuō)纲岭,如果相鄰細(xì)胞的疾病評(píng)分不同,則表明疾病與給定細(xì)胞組之間存在高度的異質(zhì)性嗽仪。
程序模擬篇
PartI: 從網(wǎng)上加載所需要的數(shù)據(jù)荒勇,具體加載的數(shù)據(jù)集合有
SCZ: 從GWAS匯總統(tǒng)計(jì)中獲得的精神分裂癥(SCZ)基因集,這是本演示中感興趣的疾病闻坚。
Dorsal: 從Cembrowski等人的2016年研究中獲得的背側(cè)CA1錐體細(xì)胞中差異表達(dá)的基因沽翔,我們將使用這些基因構(gòu)建背側(cè)得分,以指示與背側(cè)CA1的接近程度窿凤,我們認(rèn)為這對(duì)于了解SCZ疾病富集的空間分布很有用仅偎。
Height: 從GWAS匯總統(tǒng)計(jì)中獲得的身高基因集,我們將其作為負(fù)控制性狀雳殊。
PartII:
1橘沥、加載單細(xì)胞數(shù)據(jù)集,data/expr.h5ad
2夯秃、子集化基因集合座咆,將數(shù)據(jù)拆分為三個(gè)部分,SCZ仓洼、Dorsal介陶、Height并將數(shù)據(jù)進(jìn)行存儲(chǔ)為csv format
PartIII:
1、對(duì)單個(gè)細(xì)胞進(jìn)行疾病富集的scDRS分析
2色建、代碼解釋為用scDRS計(jì)算得分哺呜,需要的數(shù)據(jù)有單細(xì)胞數(shù)據(jù).h5ad,并添加對(duì)應(yīng)的物種箕戳,前面數(shù)據(jù)拆分的三個(gè)數(shù)據(jù)集合某残,數(shù)據(jù)協(xié)變量信息,別的參數(shù)為查看是否需要過(guò)濾數(shù)據(jù)陵吸,查看是否為原始count數(shù)玻墅,是否需要返回原始ctrl-raw-score和ctrl-norm-score,并指定數(shù)據(jù)輸出文件夾名稱(chēng)為data
PartIV: 用上面代碼獲取的數(shù)據(jù)用圖畫(huà)出來(lái)
首先壮虫,執(zhí)行細(xì)胞類(lèi)型級(jí)別分析, 可視化了幾個(gè)可視化觀察(從最上面的UMAP圖可以看出來(lái)不同顏色說(shuō)明了什么細(xì)胞),(三張圖中的第一張圖)SCZ組CA1錐體神經(jīng)元呈病變富集椭豫。其次,在Dorsal panel中旨指,在CA錐體神經(jīng)元內(nèi)赏酥,我們觀察到(三張圖中的第二張圖)Dorsal評(píng)分從左到右的梯度,這表明UMAP右側(cè)的細(xì)胞富集于CA1的背側(cè)區(qū)域谆构。第三裸扶,結(jié)合SCZ和Dorsal區(qū),我們可以推測(cè)SCZ富集于CA1背側(cè)區(qū)搬素。身高作為一種負(fù)調(diào)控呵晨,展示了很少的信號(hào)魏保。
代碼部分得分計(jì)算幾個(gè)不同特征(SCZ, Dorsal, Height)的應(yīng)對(duì)不同疾病的細(xì)胞相對(duì)應(yīng)響應(yīng)程度(本質(zhì)上來(lái)說(shuō):對(duì)應(yīng)細(xì)胞類(lèi)型中marker基因的表達(dá)強(qiáng)弱,反應(yīng)了這些細(xì)胞類(lèi)型的顏色深淺)摸屠,計(jì)算出得分之后谓罗,用參數(shù)sc.pl.umap進(jìn)行相對(duì)應(yīng)的繪圖設(shè)置。
PartV: 對(duì)群體值進(jìn)行計(jì)算
Scdrs perform downstream這個(gè)參數(shù)可以獲取群體水平的統(tǒng)計(jì)值
Group說(shuō)明了不同類(lèi)型的細(xì)胞季二,
列assoc_mcp說(shuō)明了不同類(lèi)型疾病關(guān)聯(lián)的得分值檩咱;
列chetero_mcp 在一個(gè)細(xì)胞類(lèi)型中是否存在與疾病相關(guān)聯(lián)的異質(zhì)性細(xì)胞;
列n_fdr_0.1說(shuō)明了顯著關(guān)聯(lián)的細(xì)胞數(shù)目到底有多少
PartVI: 代碼解讀:將細(xì)胞類(lèi)型和兩大性狀進(jìn)行關(guān)聯(lián)代碼胯舷,并且可以呈現(xiàn)出對(duì)應(yīng)圖
圖:
1刻蚯、熱圖顏色反應(yīng)了每個(gè)細(xì)胞類(lèi)型,每種細(xì)胞類(lèi)型-疾病對(duì)的熱圖顏色表示顯著相關(guān)細(xì)胞的比例桑嘶。SCZ和Astrocyte炊汹、pyramidal CA1 和 pyramidal SS存在相關(guān)的細(xì)胞數(shù)目的多少
2、方形表示細(xì)胞類(lèi)型與疾病的顯著關(guān)聯(lián)(FDR)所有細(xì)胞類(lèi)型對(duì)和疾病/性狀對(duì)均為0.05逃顶,說(shuō)明相對(duì)應(yīng)Height和細(xì)胞Astrocyte存在顯著相關(guān)性讨便,SCZ和 Astrocyte、pyramidal CA1 和 pyramidal SS存在顯著相關(guān)
3以政、交叉符號(hào)表示在給定細(xì)胞類(lèi)型中與疾病相關(guān)的單個(gè)細(xì)胞的顯著異質(zhì)性霸褒。
PartVII:
代碼:將感興趣的細(xì)胞類(lèi)型單獨(dú)畫(huà)圖,看在這幾種SCZ, Dorsal 和 Height中細(xì)胞存在的異質(zhì)性的源泉
圖:看到在SCZ中相關(guān)性最強(qiáng)的細(xì)胞分布妙蔗;Dorsal中可以看出來(lái)對(duì)應(yīng)的相關(guān)性細(xì)胞分布位置和強(qiáng)弱;Height變化對(duì)細(xì)胞中基因影響沒(méi)有那么大
PartVIII:
代碼:將相同細(xì)胞區(qū)域區(qū)分為五個(gè)部分疆瑰,看各個(gè)部分和SCZ和height的相關(guān)性大小-評(píng)分
圖:與之前的觀察結(jié)果一致眉反,SCZ似乎富集于CA1的背側(cè)。當(dāng)我們將SCZ平均疾病評(píng)分與Height評(píng)分進(jìn)行對(duì)比時(shí)穆役,這一點(diǎn)更為明顯寸五。
PartVIIII: 代碼:執(zhí)行嚴(yán)格的統(tǒng)計(jì)檢驗(yàn),量化趨勢(shì)的p值(偶然發(fā)生的概率)耿币。
SCZ v.s. Dorsal, Pearson's r=0.43 (p=0.001)
Height v.s. Dorsal, Pearson's r=0.04 (p=0.37)
計(jì)算出的數(shù)值:我們可以將疾病評(píng)分(SCZ)和背側(cè)評(píng)分(Dorsal)的Pearson相關(guān)性與對(duì)照評(píng)分(Height)和背側(cè)評(píng)分(Dorsal)的Pearson相關(guān)性進(jìn)行比較梳杏,得出p值。
結(jié)論:事實(shí)上淹接,SCZ與背側(cè)(Dorsal)之間的關(guān)聯(lián)非常顯著十性。
拓展:除了評(píng)估相關(guān)性的顯著性外,控制分?jǐn)?shù)還可以幫助評(píng)估任何統(tǒng)計(jì)數(shù)據(jù)的顯著性塑悼。
python版本的代碼