文獻(xiàn)閱讀 | GAM：基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part III：SLICE model）

文章梳理：文獻(xiàn)閱讀 | GAM：基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part I：文章梳理）

原文鏈接：
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411

概述

GAM 的直接測(cè)量量的是基因組上任意兩個(gè)位點(diǎn)出現(xiàn)在同一切片（co-segregation）的頻率港粱。
作者指出剂跟，GAM數(shù)據(jù)與Hi-C等數(shù)據(jù)不同的地方在于琅翻，GAM數(shù)據(jù)本身就同時(shí)包含了“信號(hào)”和“背景”捆愁。即GAM不僅測(cè)量interacting locus pair 的 co-segragation頻率，同時(shí)也測(cè)量了 non-interacting locus pair的頻率向楼。因此，可以通過(guò)單純的統(tǒng)計(jì)學(xué)檢驗(yàn)從隨機(jī)背景中識(shí)別出significant interactions。為此鼻忠，作者開(kāi)發(fā)了SLICE模型，目的是給出當(dāng)基因組上有兩個(gè)位點(diǎn)以 $\pi$ （正文中的 $P_i$ ）的頻率互作時(shí)杈绸，在同一個(gè)切片中能同是觀察到兩位點(diǎn)的概率 $P$ 所服從的分布以及期望粥烁。

模型推導(dǎo)

假設(shè)共有 $N$ 個(gè)細(xì)胞核，每個(gè)細(xì)胞在被激光隨機(jī)切割蝇棉，產(chǎn)生一個(gè)厚度為 $h$ 切片，測(cè)序后得到對(duì)應(yīng)的一個(gè) nuclear profile（ $NP$ ）芥永。
（作者在之后的模型中使用切片厚度 $h =0.22μm$ , 總細(xì)胞核數(shù) $N = 408$ ）

Part I：單位點(diǎn)模型

Figure S1.2 (a)

定義

考慮基因組的任意一個(gè)位點(diǎn) $A$
假設(shè)在一個(gè)切片中

包含 $A$ （或 $B$ )的概率為== $v_1$ ==
不包含 $A$ （或 $B$ )的概率為== $v_0$ ==

顯然有篡殷， $v_0+v_1=1$

注意：在切片中包含 $A$ 不代表的在最終的 $NP$ 中能檢測(cè)到A，因?yàn)檫€有DNA檢出效率的問(wèn)題埋涧。這部分作者會(huì)在之后考慮板辽。

推導(dǎo)

如果該位點(diǎn)在細(xì)胞核中的位置是隨機(jī)分布的。
當(dāng)假設(shè)位點(diǎn)是一個(gè)沒(méi)有體積的質(zhì)點(diǎn)時(shí)棘催， $A$ 在切片中的概率為
$\langle v_1 \rangle = \frac{ V_{NP} }{ V_{Nucleus} }$
其中

$V_{nucleus}$ 是細(xì)胞核的平均體積劲弦，假設(shè)所有檢測(cè)的細(xì)胞核都是一個(gè)半徑為 $R$ 的球體，則 $V_{nucleus}= {4 \over 3} \pi R^3$
其中 $V_{NP}$ 是切片的平均體積醇坝，可首先計(jì)算出切片距離細(xì)胞核中心為 $z$ 時(shí)的切片體積邑跪，然后沿 $z$ 進(jìn)行平均。

綜上可解得
$\langle v_1 \rangle = \frac{h}{h+2R}, \qquad \langle v_0 \rangle = \frac{2R}{h+2R}$

但事實(shí)上呼猪，一定長(zhǎng)度的DNA在空間中占有一定體積画畅。
假設(shè)長(zhǎng)度為 $b$ 的一段DNA在空間中的占位是一個(gè)半徑為 $r_b$ 的球。則當(dāng) $r_b \ll R$ 時(shí)宋距，可以使用 $h_{eff}=h+2r_b$ 替代原公式中的 $h$
以上的 $\langle v_0 \rangle轴踱， \langle v_1 \rangle$ 改寫為

Figure S1.8

最終得到
$\langle v_1 \rangle = \frac{h_{eff}}{h_{eff}+2R} \qquad \langle v_0 \rangle = \frac{2(R-r_b)}{h_{eff}+2R} \tag 1$

Part II：兩位點(diǎn)模型

定義：

設(shè)兩位點(diǎn)間互作的概率為 $\pi$

當(dāng) 在某個(gè)細(xì)胞中發(fā)生互作時(shí)，取來(lái)自該細(xì)胞的切片谚赎，設(shè)該切片中
- 同時(shí)包含 $AB$ 的概率為 $t_2$
- 僅包含 $A$ （或 $B$ ）的概率為 $t_1$
- 既不包含 $A$ 也不包含 $B$ 的概率為 $t_0$
當(dāng) 在某個(gè)細(xì)胞中未發(fā)生互作時(shí)淫僻，取來(lái)自該細(xì)胞的切片诱篷，設(shè)該切片中
- 同時(shí)包含 $AB$ 的概率為 $u_2$
- 僅包含 $A$ （或 $B$ ）的概率為 $u_1$
- 既不包含 $A$ 也不包含 $B$ 的概率為 $u_0$

顯然有 $t_0+2t_1+t_2=1, \quad u_0+2u_1+u_2=1$

推導(dǎo)：

根據(jù)全概率公式，在任意一個(gè)切片中雳灵，

同時(shí)包含 $A,B$ 的概率 $c_2=\pi t_2 + (1-\pi) u_2$
僅包含 $A$ （或 $B$ )的概率 $c_1=\pi t_1 + (1-\pi) u_1$
既不包含 $A$ 也不包含 $B$ 的概率為 $c_0=\pi_0 t_0 + (1-\pi) u_0$

容易推得
$\begin{cases} c_0 + 2c_1 + c_2 = 1 \\ c_0 + c_1 = v_0 \\ \end{cases} \qquad \Rightarrow \qquad \begin{cases} c_1 = v_0 - c_0 \\ c_2 = 1 -2v_0 + c_0 \end{cases}$

Part III：模型修正（I）棕所，二倍體生物情況

設(shè) $N$ 個(gè)細(xì)胞核的切片中，包含 $i$ 個(gè) $A$ 细办， $j$ 個(gè) $B$ 的細(xì)胞核個(gè)數(shù)為： $N_{i,j}$ 橙凳。

對(duì)于二倍體生物，能檢測(cè)到的參考基因組上的位點(diǎn) $A$ 實(shí)際上對(duì)應(yīng)同源染色體上的一對(duì)等位位點(diǎn) $A_1,A_2$ 笑撞，檢測(cè)的 $B$ 對(duì)應(yīng)同源染色體上的一對(duì)等位位點(diǎn) $B_1,B_2$ 岛啸，因此 $i,j \in\{0,1,2\}$ ，即
$\begin{matrix} \hline & A_1 & B_1 & A_2 & B_2 \\ N_{0,0} & - & - & - & - \\ \hline N_{1,0} & + & - & - & - \\ & - & - & + & - \\ \hline N_{0,1} & - & + & - & - \\ & - & - & - & + \\ \hline N_{1,1} & + & + & - & - \\ & + & - & - & + \\ & - & + & + & - \\ & - & - & + & + \\ \hline N_{2,0} & + & - & + & - \\ \hline N_{2,1} & + & + & + & - \\ & + & - & + & + \\ \hline N_{2,2} & + & + & + & + \\ \hline N_{0,2} & - & + & - & + \\ \hline N_{1,2} & + & + & - & + \\ & - & + & + & + \\ \hline \end{matrix}$

假設(shè)：

與同一染色體的兩位點(diǎn)互作的概率相比茴肥，位于不同染色體上的位點(diǎn)間的互作概率可以忽略不計(jì)坚踩。即考慮發(fā)生在 $(A_1,B_1)$ 和 $(A_2,B_2)$ 的間的互作

發(fā)生在 $(A_1,B_1)$ 的互作與發(fā)生在 $(A_2,B_2)$ 間的互作是相互獨(dú)立的

綜上可推出

$\left\{\begin{align} \frac{N_{0,0}}{N} &= c_0^2 \\ \frac{N_{0,1}}{N} &= \frac{N_{1,0}}{N} = 2c_0c_1 = 2c_0(v_0-c_0) \\ \frac{N_{1,1}}{N} &= 2c_1^2 + 2c_0c_2 = 2[(v_0-c_0)^2+c_0(1-2v_0+c_0)] \\ \frac{N_{0,2}}{N} &= \frac{N_{2,0}}{N} = c_1^2 = (v_0-c_0)^2 \\ \frac{N_{1,2}}{N} &= \frac{N_{2,1}}{N} = 2c_1c_2 = 2(v_0-c_0)(1-2v_0+c_0) \\ \frac{N_{2,2}}{N} &= c_2^2 = (1-2v_0+c_0)^2 \\ \end{align}\right.$

Part IV：修正（II）檢出效率

在實(shí)際的實(shí)驗(yàn)中，并不是一個(gè)切片中的所有DNA都能被檢出（都能出現(xiàn)在 $NP$ 中）
假設(shè)檢出效率為 $\epsilon$ 瓤狐，此時(shí)在一個(gè) $NP$ 中檢測(cè)到 $\alpha$ 個(gè) $A$ , $\beta$ 個(gè) $B$ 的概率為 $N_{\alpha,\beta}^{\epsilon}$
則
$\begin{split} N^{\epsilon}_{2,2} &= \epsilon^4 N_{2,2} \\ N^{\epsilon}_{2,1} &= \epsilon^3N_{2,1} + 2\epsilon^3 (1-\epsilon) N_{2,2} \\ N^{\epsilon}_{1,1} &= \epsilon^2N_{1,1} + 2\epsilon^2(1-\epsilon)(N_{1,2} + N_{2,1})+ 4\epsilon^2(1-\epsilon)^2N_{2,2}\\ N^{\epsilon}_{1,0} &= \epsilon N_{1,0}+ \epsilon(1-\epsilon)N_{1,1} + 2\epsilon(1-\epsilon)^2N_{2,1} + \epsilon(1-\epsilon)^2N_{1,2}+ 2\epsilon(1-\epsilon)^3N_{2,2}\\ N^{\epsilon}_{0,0} &= N_{0,0}+ (1-\epsilon)(N_{1,0} + N_{0,1}) + (1-\epsilon)^2N_{1,1} + (1-\epsilon)^3(N_{2,1} + N_{1,2})+ (1-\epsilon)^4N_{2,2} \end{split}$
以上可簡(jiǎn)寫為
$N_{\alpha,\beta}^{\epsilon} = \epsilon^{\alpha+\beta} \sum_{i=\alpha, j=\beta}^{2}(1-\epsilon)^{(i+j)-(\alpha+\beta)}(\delta_{\alpha,1}\delta_{i,2}+1)(\delta_{\beta,1}\delta_{j,2}+1)N_{ij}$
其中 $\delta$ 是Kronecker indicator-function瞬铸，即 $i==j$ 時(shí) $\delta_{i,j}=1$ ，否則 $\delta_{i,j}=0$

Part V 最終模型

記在 $NP$ 中同時(shí)檢測(cè)到 $AB$ 础锐，僅檢測(cè)到 $A$ （或 $B$ ）嗓节，沒(méi)有檢測(cè)到 $AB$ 的概率依次為： $m_2,m_1,m_0$

則

$\begin{split} \frac{m_0}{m} &= \frac{N^{\epsilon}_{0,0}}{N} \\ \frac{m_1}{m} &= \frac{ 2(N^{\epsilon}_{1,0} + N^{\epsilon}_{2,0}) }{N} \\ \frac{m_2}{m} &= 1 - \frac{N^{\epsilon}_{0,0}}{N} - \frac{ 2(N^{\epsilon}_{1,0} + N^{\epsilon}_{2,0}) }{N} \end{split}$

consegregation ratio
$f = \frac{m2}{m1+m2} = -\epsilon^2(1-v_0)^2+2\epsilon(1-v_0)$

參數(shù)估計(jì)

Detection rate $\epsilon$

從數(shù)據(jù)中計(jì)算得到 $f$ ，根據(jù) $f$ 計(jì)算公式皆警，反解得到
$\epsilon = \frac{1-\sqrt{1-f}}{1-v_0}$

Figure S1.9

interacting pairs co-segregation $t_i$

認(rèn)為當(dāng)兩位點(diǎn)互作時(shí)的間距 $d_I \lesssim h$ 時(shí)拦宣， $t_2=v_1$

non-interacting pairs co-segeregation $u_i$

將所有l(wèi)ocus pair按所在染色體及在染色體上的距離進(jìn)行分組

將 $\pi=0$ 代入公式計(jì)算得到co-segregation ratio的期望值 $m_2/(m_1+m_2)$ ，并與每組的檢測(cè)值進(jìn)行擬合

解得位于第 $i$ 條染色體上距離為 $g$ 的locus pair所對(duì)應(yīng)的 $u_2$

interaction probability $\pi$

當(dāng) $v_i,u_i,t_i$ 均為已知時(shí)信姓， $f$ 是關(guān)于 $\pi$ 的函數(shù)

截屏2021-08-18 上午11.24.34.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末鸵隧，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子意推，更是在濱河造成了極大的恐慌豆瘫，老刑警劉巖，帶你破解...
沈念sama閱讀 217,185評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件菊值，死亡現(xiàn)場(chǎng)離奇詭異外驱，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)俊性，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門略步，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人定页，你說(shuō)我怎么就攤上這事趟薄。” “怎么了典徊？”我有些...
開(kāi)封第一講書人閱讀 163,524評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵杭煎，是天一觀的道長(zhǎng)恩够。經(jīng)常有香客問(wèn)我，道長(zhǎng)羡铲，這世上最難降的妖魔是什么蜂桶？我笑而不...
開(kāi)封第一講書人閱讀 58,339評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮也切，結(jié)果婚禮上扑媚，老公的妹妹穿的比我還像新娘。我一直安慰自己雷恃，他們只是感情好疆股，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評(píng)論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著倒槐，像睡著了一般旬痹。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上讨越，一...
開(kāi)封第一講書人閱讀 51,287評(píng)論 1贊 301
城市分裂傳說(shuō)
那天两残，我揣著相機(jī)與錄音，去河邊找鬼把跨。笑死人弓，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的着逐。我是一名探鬼主播票从，決...
沈念sama閱讀 40,130評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼滨嘱！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起浸间，我...
開(kāi)封第一講書人閱讀 38,985評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤太雨，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后魁蒜，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體囊扳，經(jīng)...
沈念sama閱讀 45,420評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年兜看，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了锥咸。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,779評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡细移，死狀恐怖搏予，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情弧轧，我是刑警寧澤雪侥，帶...
沈念sama閱讀 35,477評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布碗殷，位于F島的核電站，受9級(jí)特大地震影響速缨，放射性物質(zhì)發(fā)生泄漏锌妻。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一旬牲、第九天我趴在偏房一處隱蔽的房頂上張望仿粹。院中可真熱鬧，春花似錦原茅、人聲如沸吭历。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,716評(píng)論 0贊 22
一樁弒父案员咽，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)毒涧。三九已至，卻和暖如春贝室，著一層夾襖步出監(jiān)牢的瞬間契讲，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書人閱讀 32,857評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工滑频，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留捡偏，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,876評(píng)論 2贊 370
代替公主和親
正文我出身青樓峡迷，卻偏偏與公主長(zhǎng)得像银伟，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子绘搞，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評(píng)論 2贊 354