文獻(xiàn)閱讀 | GAM:基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part II:數(shù)據(jù)分析)

上一篇:《文獻(xiàn)閱讀 | GAM:基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part I:文章梳理)》

原文鏈接
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411

數(shù)據(jù)預(yù)處理

I. Alignment

  • 使用Bowtie2(默認(rèn)參數(shù))將read mapped 到 mm9 參考基因組
  • 僅保留MAPQ>=20 read
  • 去除PCR duplicates

II. Calling positive windows

首先带射,將全基因組分為一系列連續(xù)bins(i.e. equal-sized windows)

III. Exclude low-quality datasets

作者共產(chǎn)生了471個nuclear profiles + 5 negative control 共477個樣本
作者考察了以下質(zhì)量指標(biāo):

  • % of mapped reads
  • % of non-PCR duplicate reads
  • average sequencing quality
  • Mononucleotide repeat score
  • Dinucleotide repeat score
  • total number of windows scored positive
  • number of positive windows immediately adjacent to another positive window
  • number of positive chromosome for each sample

使用以上所有質(zhì)量指標(biāo)作為特征同规,對所有477個樣本進(jìn)行主成分分析,發(fā)現(xiàn) % of mapped read 指標(biāo)是區(qū)分 nuclear profile 和 negative control 最有效的特征。

negative controls 中 % of mapped reads 最高為2%券勺。嚴(yán)格起見绪钥,作者將 % of mapped reads 小于 15% 的細(xì)胞全部過濾掉,共過濾掉63個細(xì)胞朱灿,剩余408個高質(zhì)量細(xì)胞昧识。

Calculation of linkage matrices

假設(shè):
(1)位點(diǎn)A被檢測到的頻率為 f_A,位點(diǎn)B 被檢測到的頻率為f_B
(2)f_{AB} 是位點(diǎn)AB同時被檢測到的頻率

定義Linkage disequilibrium
D = f_{AB}-f_Af_B
使用 linkage D 的理論最大值D_{max}D進(jìn)行歸一化盗扒,得到Normalized Linkage disequilibrium
D' = \frac{D}{D_{\max}}
其中 D_{max} 的計算方法為:
D_{\max} = \begin{cases} min(f_af_b, (1-f_a)(1-f_b)) & D<0 \\ min(f_b(1-f_a),f_a(1-f_b)) & D \geq0 \end{cases}

染色質(zhì)三維結(jié)構(gòu)識別

compartment A/B

GAM識別compartment A/B的方法與Hi-C基本相同跪楞,具體過程如下:

  1. 使用normalized linkage matrices 替代 normalized contact matrices,記為原始矩陣為O侣灶。

  2. O按距離進(jìn)行切片甸祭,定義片內(nèi)所有l(wèi)ocus pair的均值為該片的期望,即
    E(i,j) = average\{ O(i', j') | dist(i,j)=dist(i',j') \}

  3. 定義 K(i,j) = O(i,j) / E(i,j)

  4. 計算 K 的 Pearson 相關(guān)系數(shù)矩陣為 C褥影,即
    C(i,j) = corr(K_i, K_j)

  5. C為特征矩陣池户,進(jìn)行主成分分析(PCA),提取前3個主成分

  6. 選擇與GC含量相關(guān)最高的主成分凡怎,用于定義compartment A/B

TAD

TAD的計算參考了 2015 Crane et al. [1] 提出的用于Hi-C數(shù)據(jù)的 insulation score方法校焦。
使用 3 x 3 window box 沿對角線滑動,計算每個window box內(nèi)的normalized LD的平均值统倒。

使用SLICE識別 prominent interacting locus

interacting locus pairs

Figure 3a

核心思想:
假設(shè)基因組中的兩個位點(diǎn)A,Bm個NP中:
- m_0個既沒有檢測到A寨典,也沒有檢測到B
- m_1個檢測到AB中的一個
- m_2個同時檢測到AB

定義A,B的共出現(xiàn)(co-segregation)頻率為
m_2 / (m_1 + m_2)

則當(dāng)AB的互作頻率為\pi時,根據(jù)SLICE model(詳見《文獻(xiàn)閱讀 | GAM:基于ligation-free方法捕獲基因組中增強(qiáng)子間的復(fù)雜互作 (Part III:SLICE 統(tǒng)計學(xué)模型)》可以計算得到co-segregation ratio服從的分布房匆,并進(jìn)行統(tǒng)計學(xué)檢驗:H_0:\{ \pi =0 \} v.s H_1: \{ \pi > 0 \}耸成。
具體而言,計算 \pi=0時的分布的95%分位值t浴鸿,當(dāng)\frac{m_2}{m_1+m_2}>t時井氢,即認(rèn)為A,B間存在顯著互作。

此外岳链,對于prominent interacting pairs花竞,SLICE model還可對\pi進(jìn)行估計(即Figure 3)

Interacting locus triplets

類似地,定義triplet co-segregation ratio 為
m_3 / (m_3 + m_2 + m_1)

參考文獻(xiàn)

[1] Crane, E., Bian, Q., McCord, R. et al. Condensin-driven remodelling of X chromosome topology during dosage compensation. Nature 523, 240–244 (2015). https://doi.org/10.1038/nature14450

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末掸哑,一起剝皮案震驚了整個濱河市左胞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌举户,老刑警劉巖烤宙,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異俭嘁,居然都是意外死亡躺枕,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拐云,“玉大人罢猪,你說我怎么就攤上這事〔娲瘢” “怎么了膳帕?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長薇缅。 經(jīng)常有香客問我危彩,道長,這世上最難降的妖魔是什么泳桦? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任汤徽,我火速辦了婚禮,結(jié)果婚禮上灸撰,老公的妹妹穿的比我還像新娘谒府。我一直安慰自己,他們只是感情好浮毯,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布完疫。 她就那樣靜靜地躺著,像睡著了一般债蓝。 火紅的嫁衣襯著肌膚如雪壳鹤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天惦蚊,我揣著相機(jī)與錄音,去河邊找鬼讯嫂。 笑死蹦锋,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的欧芽。 我是一名探鬼主播莉掂,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼千扔!你這毒婦竟也來了憎妙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤曲楚,失蹤者是張志新(化名)和其女友劉穎厘唾,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體龙誊,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡抚垃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鹤树。...
    茶點(diǎn)故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡铣焊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出罕伯,到底是詐尸還是另有隱情曲伊,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布追他,位于F島的核電站坟募,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏湿酸。R本人自食惡果不足惜婿屹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望推溃。 院中可真熱鬧昂利,春花似錦、人聲如沸铁坎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽硬萍。三九已至扩所,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間朴乖,已是汗流浹背祖屏。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留买羞,地道東北人袁勺。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像畜普,于是被迫代替她去往敵國和親期丰。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容