文章梳理:文獻(xiàn)閱讀 | GAM:基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part I:文章梳理)
原文鏈接:
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411
概述
GAM 的直接測(cè)量量的是基因組上任意兩個(gè)位點(diǎn)出現(xiàn)在同一切片(co-segregation)的頻率港粱。
作者指出剂跟,GAM數(shù)據(jù)與Hi-C等數(shù)據(jù)不同的地方在于琅翻,GAM數(shù)據(jù)本身就同時(shí)包含了“信號(hào)”和“背景”捆愁。即GAM不僅測(cè)量interacting locus pair 的 co-segragation頻率,同時(shí)也測(cè)量了 non-interacting locus pair的頻率向楼。因此,可以通過(guò)單純的統(tǒng)計(jì)學(xué)檢驗(yàn)從隨機(jī)背景中識(shí)別出significant interactions。為此鼻忠,作者開(kāi)發(fā)了SLICE模型,目的是給出當(dāng)基因組上有兩個(gè)位點(diǎn)以(正文中的
)的頻率互作時(shí)杈绸,在同一個(gè)切片中能同是觀察到兩位點(diǎn)的概率
所服從的分布以及期望粥烁。
模型推導(dǎo)
假設(shè)共有個(gè)細(xì)胞核,每個(gè)細(xì)胞在被激光隨機(jī)切割蝇棉,產(chǎn)生一個(gè)厚度為
切片,測(cè)序后得到對(duì)應(yīng)的一個(gè) nuclear profile(
)芥永。
(作者在之后的模型中使用切片厚度 , 總細(xì)胞核數(shù)
)
Part I: 單位點(diǎn)模型
定義
考慮基因組的任意一個(gè)位點(diǎn)
假設(shè)在一個(gè)切片中
- 包含
(或
)的概率為==
==
- 不包含
(或
)的概率為==
==
顯然有篡殷,
注意:在切片中包含
不代表的在最終的
中能檢測(cè)到A,因?yàn)檫€有DNA檢出效率的問(wèn)題埋涧。這部分作者會(huì)在之后考慮板辽。
推導(dǎo)
如果該位點(diǎn)在細(xì)胞核中的位置是隨機(jī)分布的。
當(dāng)假設(shè)位點(diǎn)是一個(gè)沒(méi)有體積的質(zhì)點(diǎn)時(shí)棘催,在切片中的概率為
其中
-
是細(xì)胞核的平均體積劲弦,假設(shè)所有檢測(cè)的細(xì)胞核都是一個(gè)半徑為
的球體,則
- 其中
是切片的平均體積醇坝,可首先計(jì)算出切片距離細(xì)胞核中心為
時(shí)的切片體積邑跪,然后沿
進(jìn)行平均。
綜上可解得
但事實(shí)上呼猪,一定長(zhǎng)度的DNA在空間中占有一定體積画畅。
假設(shè)長(zhǎng)度為 的一段DNA在空間中的占位是一個(gè)半徑為
的球。則當(dāng)
時(shí)宋距,可以使用
替代原公式中的
以上的 改寫為
最終得到
Part II:兩位點(diǎn)模型
定義:
設(shè)兩位點(diǎn)間互作的概率為
- 當(dāng)
在某個(gè)細(xì)胞中發(fā)生互作時(shí),取來(lái)自該細(xì)胞的切片谚赎,設(shè)該切片 中
- 同時(shí)包含
的概率為
- 僅包含
(或
) 的概率為
- 既不包含
也不包含
的概率為
- 同時(shí)包含
- 當(dāng)
在某個(gè)細(xì)胞中未發(fā)生互作時(shí)淫僻,取來(lái)自該細(xì)胞的切片诱篷,設(shè)該切片中
- 同時(shí)包含
的概率為
- 僅包含
(或
) 的概率為
- 既不包含
也不包含
的概率為
- 同時(shí)包含
顯然有
推導(dǎo):
根據(jù)全概率公式,在任意一個(gè)切片中雳灵,
- 同時(shí)包含
的概率
- 僅包含
(或
)的概率
- 既不包含
也不包含
的概率為
容易推得
Part III:模型修正(I)棕所,二倍體生物情況
設(shè)個(gè)細(xì)胞核的切片中,包含
個(gè)
细办,
個(gè)
的細(xì)胞核個(gè)數(shù)為:
橙凳。
對(duì)于二倍體生物,能檢測(cè)到的參考基因組上的位點(diǎn) 實(shí)際上對(duì)應(yīng)同源染色體上的一對(duì)等位位點(diǎn)
笑撞,檢測(cè)的
對(duì)應(yīng)同源染色體上的一對(duì)等位位點(diǎn)
岛啸,因此
,即
假設(shè):
- 與同一染色體的兩位點(diǎn)互作的概率相比茴肥,位于不同染色體上的位點(diǎn)間的互作概率可以忽略不計(jì)坚踩。即考慮發(fā)生在
和
的間的互作
- 發(fā)生在
的互作與發(fā)生在
間的互作是相互獨(dú)立的
綜上可推出
Part IV:修正(II)檢出效率
在實(shí)際的實(shí)驗(yàn)中,并不是一個(gè)切片中的所有DNA都能被檢出(都能出現(xiàn)在中)
假設(shè)檢出效率為 瓤狐,此時(shí)在一個(gè)
中檢測(cè)到
個(gè)
,
個(gè)
的概率為
則
以上可簡(jiǎn)寫為
其中是Kronecker indicator-function瞬铸,即
時(shí)
,否則
Part V 最終模型
記在 中同時(shí)檢測(cè)到
础锐,僅檢測(cè)到
(或
)嗓节, 沒(méi)有檢測(cè)到
的概率依次為:
則
consegregation ratio
參數(shù)估計(jì)
Detection rate
從數(shù)據(jù)中計(jì)算得到,根據(jù)
計(jì)算公式皆警,反解得到
interacting pairs co-segregation
認(rèn)為當(dāng)兩位點(diǎn)互作時(shí)的間距 時(shí)拦宣,
non-interacting pairs co-segeregation
將所有l(wèi)ocus pair按所在染色體及在染色體上的距離進(jìn)行分組
將 代入公式計(jì)算得到co-segregation ratio的期望值
,并與每組的檢測(cè)值進(jìn)行擬合
解得位于第條染色體上距離為
的locus pair所對(duì)應(yīng)的
interaction probability
當(dāng) 均為已知時(shí)信姓,
是關(guān)于
的函數(shù)