文獻(xiàn)閱讀 | GAM：基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part II：數(shù)據(jù)分析）

上一篇：《文獻(xiàn)閱讀 | GAM：基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part I：文章梳理）》

原文鏈接：
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411

數(shù)據(jù)預(yù)處理

I. Alignment

使用Bowtie2（默認(rèn)參數(shù)）將read mapped 到 mm9 參考基因組
僅保留MAPQ>=20 read
去除PCR duplicates

II. Calling positive windows

首先带射，將全基因組分為一系列連續(xù)bins（i.e. equal-sized windows）

III. Exclude low-quality datasets

作者共產(chǎn)生了471個nuclear profiles + 5 negative control 共477個樣本
作者考察了以下質(zhì)量指標(biāo)：

% of mapped reads
% of non-PCR duplicate reads
average sequencing quality
Mononucleotide repeat score
Dinucleotide repeat score
total number of windows scored positive
number of positive windows immediately adjacent to another positive window
number of positive chromosome for each sample

使用以上所有質(zhì)量指標(biāo)作為特征同规，對所有477個樣本進(jìn)行主成分分析，發(fā)現(xiàn) % of mapped read 指標(biāo)是區(qū)分 nuclear profile 和 negative control 最有效的特征。

negative controls 中 % of mapped reads 最高為2%券勺。嚴(yán)格起見绪钥，作者將 % of mapped reads 小于 15% 的細(xì)胞全部過濾掉，共過濾掉63個細(xì)胞朱灿，剩余408個高質(zhì)量細(xì)胞昧识。

Calculation of linkage matrices

假設(shè)：
（1）位點(diǎn) $A$ 被檢測到的頻率為 $f_A$ ，位點(diǎn) $B$ 被檢測到的頻率為 $f_B$
（2） $f_{AB}$ 是位點(diǎn) $A$ 和 $B$ 同時被檢測到的頻率

定義Linkage disequilibrium
$D = f_{AB}-f_Af_B$
使用 linkage $D$ 的理論最大值 $D_{max}$ 對 $D$ 進(jìn)行歸一化盗扒，得到Normalized Linkage disequilibrium
$D' = \frac{D}{D_{\max}}$
其中 $D_{max}$ 的計算方法為：
$D_{\max} = \begin{cases} min(f_af_b, (1-f_a)(1-f_b)) & D<0 \\ min(f_b(1-f_a),f_a(1-f_b)) & D \geq0 \end{cases}$

染色質(zhì)三維結(jié)構(gòu)識別

compartment A/B

GAM識別compartment A/B的方法與Hi-C基本相同跪楞，具體過程如下：

使用normalized linkage matrices 替代 normalized contact matrices，記為原始矩陣為 $O$ 侣灶。
對 $O$ 按距離進(jìn)行切片甸祭，定義片內(nèi)所有l(wèi)ocus pair的均值為該片的期望，即
$E(i,j) = average\{ O(i', j') | dist(i,j)=dist(i',j') \}$
定義 $K(i,j) = O(i,j) / E(i,j)$
計算 $K$ 的 Pearson 相關(guān)系數(shù)矩陣為 $C$ 褥影，即
$C(i,j) = corr(K_i, K_j)$
以 $C$ 為特征矩陣池户，進(jìn)行主成分分析（PCA），提取前3個主成分
選擇與GC含量相關(guān)最高的主成分凡怎，用于定義compartment A/B

TAD

TAD的計算參考了 2015 Crane et al. [1] 提出的用于Hi-C數(shù)據(jù)的 insulation score方法校焦。
使用 3 x 3 window box 沿對角線滑動，計算每個window box內(nèi)的normalized LD的平均值统倒。

使用SLICE識別 prominent interacting locus

interacting locus pairs

Figure 3a

核心思想：
假設(shè)基因組中的兩個位點(diǎn) $A$ , $B$ 在 $m$ 個NP中：
- $m_0$ 個既沒有檢測到A寨典，也沒有檢測到B
- $m_1$ 個檢測到 $A$ 或 $B$ 中的一個
- $m_2$ 個同時檢測到 $A$ 或 $B$

定義 $A,B$ 的共出現(xiàn)（co-segregation）頻率為
$m_2 / (m_1 + m_2）$

則當(dāng) $A$ 與 $B$ 的互作頻率為 $\pi$ 時，根據(jù)SLICE model（詳見《文獻(xiàn)閱讀 | GAM：基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part III：SLICE 統(tǒng)計學(xué)模型）》可以計算得到co-segregation ratio服從的分布房匆，并進(jìn)行統(tǒng)計學(xué)檢驗： $H_0:\{ \pi =0 \}$ v.s $H_1: \{ \pi > 0 \}$ 耸成。
具體而言，計算 $\pi=0$ 時的分布的95%分位值 $t$ 浴鸿，當(dāng) $\frac{m_2}{m_1+m_2}>t$ 時井氢，即認(rèn)為 $A,B$ 間存在顯著互作。

此外岳链，對于prominent interacting pairs花竞，SLICE model還可對 $\pi$ 進(jìn)行估計（即Figure 3)

Interacting locus triplets

類似地，定義triplet co-segregation ratio 為
$m_3 / (m_3 + m_2 + m_1)$

參考文獻(xiàn)

[1] Crane, E., Bian, Q., McCord, R. et al. Condensin-driven remodelling of X chromosome topology during dosage compensation. Nature 523, 240–244 (2015). https://doi.org/10.1038/nature14450

最后編輯于：2021.08.18 10:36:45

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末掸哑，一起剝皮案震驚了整個濱河市左胞，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌举户，老刑警劉巖烤宙，帶你破解...
沈念sama閱讀 217,185評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異俭嘁，居然都是意外死亡躺枕，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來拐云，“玉大人罢猪，你說我怎么就攤上這事〔娲瘢” “怎么了膳帕？”我有些...
開封第一講書人閱讀 163,524評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長薇缅。經(jīng)常有香客問我危彩，道長，這世上最難降的妖魔是什么泳桦？我笑而不...
開封第一講書人閱讀 58,339評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任汤徽，我火速辦了婚禮，結(jié)果婚禮上灸撰，老公的妹妹穿的比我還像新娘谒府。我一直安慰自己，他們只是感情好浮毯，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布完疫。她就那樣靜靜地躺著，像睡著了一般债蓝。火紅的嫁衣襯著肌膚如雪壳鹤。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,287評論 1贊 301
城市分裂傳說
那天惦蚊，我揣著相機(jī)與錄音，去河邊找鬼讯嫂。笑死蹦锋，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的欧芽。我是一名探鬼主播莉掂，決...
沈念sama閱讀 40,130評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼千扔！你這毒婦竟也來了憎妙？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,985評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤曲楚，失蹤者是張志新（化名）和其女友劉穎厘唾，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體龙誊，經(jīng)...
沈念sama閱讀 45,420評論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡抚垃，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鹤树。...
茶點(diǎn)故事閱讀 39,779評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡铣焊，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出罕伯，到底是詐尸還是另有隱情曲伊，我是刑警寧澤，帶...
沈念sama閱讀 35,477評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布追他，位于F島的核電站坟募，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏湿酸。R本人自食惡果不足惜婿屹，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望推溃。院中可真熱鬧昂利，春花似錦、人聲如沸铁坎。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,716評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽硬萍。三九已至扩所，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間朴乖，已是汗流浹背祖屏。一陣腳步聲響...
開封第一講書人閱讀 32,857評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留买羞，地道東北人袁勺。一個月前我還...
沈念sama閱讀 47,876評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像畜普，于是被迫代替她去往敵國和親期丰。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評論 2贊 354