上一篇:《文獻(xiàn)閱讀 | GAM:基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part I:文章梳理)》
原文鏈接:
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411
數(shù)據(jù)預(yù)處理
I. Alignment
- 使用Bowtie2(默認(rèn)參數(shù))將read mapped 到 mm9 參考基因組
- 僅保留MAPQ>=20 read
- 去除PCR duplicates
II. Calling positive windows
首先带射,將全基因組分為一系列連續(xù)bins(i.e. equal-sized windows)
III. Exclude low-quality datasets
作者共產(chǎn)生了471個nuclear profiles + 5 negative control 共477個樣本
作者考察了以下質(zhì)量指標(biāo):
- % of mapped reads
- % of non-PCR duplicate reads
- average sequencing quality
- Mononucleotide repeat score
- Dinucleotide repeat score
- total number of windows scored positive
- number of positive windows immediately adjacent to another positive window
- number of positive chromosome for each sample
使用以上所有質(zhì)量指標(biāo)作為特征同规,對所有477個樣本進(jìn)行主成分分析,發(fā)現(xiàn) % of mapped read 指標(biāo)是區(qū)分 nuclear profile 和 negative control 最有效的特征。
negative controls 中 % of mapped reads 最高為2%券勺。嚴(yán)格起見绪钥,作者將 % of mapped reads 小于 15% 的細(xì)胞全部過濾掉,共過濾掉63個細(xì)胞朱灿,剩余408個高質(zhì)量細(xì)胞昧识。
Calculation of linkage matrices
假設(shè):
(1)位點(diǎn)被檢測到的頻率為
,位點(diǎn)
被檢測到的頻率為
(2) 是位點(diǎn)
和
同時被檢測到的頻率
定義Linkage disequilibrium
使用 linkage 的理論最大值
對
進(jìn)行歸一化盗扒,得到Normalized Linkage disequilibrium
其中 的計算方法為:
染色質(zhì)三維結(jié)構(gòu)識別
compartment A/B
GAM識別compartment A/B的方法與Hi-C基本相同跪楞,具體過程如下:
使用normalized linkage matrices 替代 normalized contact matrices,記為原始矩陣為
侣灶。
對
按距離進(jìn)行切片甸祭,定義片內(nèi)所有l(wèi)ocus pair的均值為該片的期望,即
定義
計算
的 Pearson 相關(guān)系數(shù)矩陣為
褥影,即
以
為特征矩陣池户,進(jìn)行主成分分析(PCA),提取前3個主成分
選擇與GC含量相關(guān)最高的主成分凡怎,用于定義compartment A/B
TAD
TAD的計算參考了 2015 Crane et al. [1] 提出的用于Hi-C數(shù)據(jù)的 insulation score方法校焦。
使用 3 x 3 window box 沿對角線滑動,計算每個window box內(nèi)的normalized LD的平均值统倒。
使用SLICE識別 prominent interacting locus
interacting locus pairs
核心思想:
假設(shè)基因組中的兩個位點(diǎn),
在
個NP中:
- 個既沒有檢測到A寨典,也沒有檢測到B
- 個檢測到
或
中的一個
- 個同時檢測到
或
定義的共出現(xiàn)(co-segregation)頻率為
則當(dāng)與
的互作頻率為
時,根據(jù)SLICE model(詳見《文獻(xiàn)閱讀 | GAM:基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part III:SLICE 統(tǒng)計學(xué)模型)》可以計算得到co-segregation ratio服從的分布房匆,并進(jìn)行統(tǒng)計學(xué)檢驗:
v.s
耸成。
具體而言,計算 時的分布的95%分位值
浴鸿,當(dāng)
時井氢,即認(rèn)為
間存在顯著互作。
此外岳链,對于prominent interacting pairs花竞,SLICE model還可對進(jìn)行估計(即Figure 3)
Interacting locus triplets
類似地,定義triplet co-segregation ratio 為
參考文獻(xiàn)
[1] Crane, E., Bian, Q., McCord, R. et al. Condensin-driven remodelling of X chromosome topology during dosage compensation. Nature 523, 240–244 (2015). https://doi.org/10.1038/nature14450