了解scATAC-seq 背景知識(shí)(youtube Shirley)
1.2020 STAT115 Lect16.1 Intro to Single-Cell ATAC-seq
- 我們通過Tn5 酶進(jìn)行反應(yīng),切割開放染色質(zhì)區(qū)域瘸味,同時(shí)我們選擇相對(duì)短的片段進(jìn)行建庫(kù)測(cè)序赠法。當(dāng)我們比對(duì)到基因組就會(huì)看到peak 峰靶草,標(biāo)示出染色質(zhì)所有的開放染色質(zhì)區(qū)域.也是所有轉(zhuǎn)錄因子結(jié)合區(qū)域
- atac-seq,相比其他技術(shù)需要更少的起始細(xì)胞量,大約幾千個(gè)有時(shí)候幾百個(gè)細(xì)胞手動(dòng)了解scATAC-seq技術(shù)舌涨,人們可以用于研究發(fā)育組織及其癌癥組織,這些情況有時(shí)候用ChIP-seq 或者Dnase-seq沒法研究.
近些年技術(shù)進(jìn)一步發(fā)展. 單細(xì)胞ATAC-seq實(shí)驗(yàn)方法已經(jīng)開發(fā)出來了. 斯坦福大學(xué)研究團(tuán)隊(duì)與10x genomic 進(jìn)行合作,拖動(dòng)scATAC-seq 商業(yè)化.
-
10x 商業(yè)平臺(tái)原理姚炕,首先紙杯GEL breds ,獲取單細(xì)胞懸液,或者單個(gè)的細(xì)胞核,并用Tn5 進(jìn)行酶切. 進(jìn)入機(jī)器形成1個(gè)gel beads 1個(gè)單細(xì)胞液滴. 每一個(gè)細(xì)胞擁有一個(gè)標(biāo)簽.同時(shí)進(jìn)行短的片段進(jìn)行PCR擴(kuò)增反應(yīng). 最后去除油滴丢烘,所有的序列混合在一起柱宦,進(jìn)行上機(jī)測(cè)序,用barcode 來區(qū)分reads來自哪個(gè)細(xì)胞.
提問:在上機(jī)之前播瞳,就進(jìn)行了Tn5 反應(yīng)掸刊,將adapter 插入兩端.
- 剛剛我們講述Droplet-based 系統(tǒng)的單細(xì)胞技術(shù).其他技術(shù)包括Plate 或者array : 大約有384 個(gè)well.每一個(gè)細(xì)胞有唯一的標(biāo)簽. 另一個(gè)技術(shù)是split-pool 和單細(xì)胞RNA-seq 技術(shù)類似,進(jìn)行兩次的標(biāo)簽化組合赢乓,進(jìn)行標(biāo)示所有的細(xì)胞. 但是也存在問題忧侧,多次的操作細(xì)胞可能會(huì)丟失,也逐漸商業(yè)化目前最主流是x genomic ,得到較好的質(zhì)量
更多人希望得到scRNA-seq+ scATAC-seq 數(shù)據(jù).目前也存在困難.可以先對(duì)細(xì)胞分成兩管牌芋,分別進(jìn)行scRNA_seq和scATAC-seq. 雖然來自同一個(gè)組織蚓炬,但是不是同一個(gè)細(xì)胞. 所有scRNA-seq 和scATAC-seq 的barcode 不是一對(duì)一匹配.
10x 公司正在為之努力,單細(xì)胞細(xì)胞測(cè)量RNA-seq和ATC-seq躺屁,使得兩者的barcode 有一個(gè)一一對(duì)應(yīng)的關(guān)系.
提問:短的片段更容易得到擴(kuò)增.
2.STATi15 Lect16.2 Preprocessing and QC scATAC-seq
Cell Ranger 是10 x genomic 開放的工具包. 它有自己的比對(duì)方法肯夏,當(dāng)然目前也有很好的其他工具,比如RNA_seq z中STAR, 可以使用STAR solo (STAR 基礎(chǔ)上進(jìn)行提升) 比對(duì)速度提升10倍.
ATAC-seq 可以使用BWA進(jìn)行比對(duì). 最近有團(tuán)隊(duì)開發(fā)了Minimap2 ,和cellRange 快15 倍. 對(duì)于CHIP-seq 來說驯击,不太關(guān)注高度重復(fù)的區(qū)域烁兰,當(dāng)你發(fā)現(xiàn)這個(gè)區(qū)域沒有read,不要擔(dān)心,我們忽略了它.
10x 公司知道他們的barcode 數(shù)目及其信息余耽,我們需要保證傳染性結(jié)果的barcode沒有測(cè)錯(cuò). 如何你發(fā)現(xiàn)你的barcode 序列和所有的都不一樣缚柏,但是和有一個(gè)很相近,你可以將這些reads 分配給這個(gè)細(xì)胞.所有這是一個(gè)標(biāo)準(zhǔn)的預(yù)處理過程.
- 人們會(huì)將所有的reads 進(jìn)行合并碟贾,用macs2 進(jìn)行call peak. 結(jié)果和bulk 幾乎一樣. 圖C 中 每一個(gè)細(xì)胞都是一行币喧,每一個(gè)位置有1 or 2 reads.
圖d, 兩類細(xì)胞GM12878(人類),A20(小鼠)將不同重復(fù)進(jìn)行normalize ,比較兩者相關(guān)系數(shù). 每一個(gè)點(diǎn)就是peak.
圖e 左,將兩個(gè)物種read 結(jié)果混合起來,用來檢測(cè)一個(gè)barcode 多少比例存在多個(gè)細(xì)胞袱耽,我們可以看到有幾個(gè)點(diǎn)在對(duì)稱軸上.
圖e 右杀餐,顯示細(xì)胞濃度與一個(gè)barcode 對(duì)應(yīng)多個(gè)細(xì)胞的比例,可以看到細(xì)胞濃度越高朱巨,這種情況越明顯.
-
啟動(dòng)子區(qū)域很大程度都是開放的史翘,所有查看多少比例比對(duì)到啟動(dòng)子可以反映出實(shí)驗(yàn)效果.
也可以檢測(cè)多少reads 比對(duì)到線粒體,當(dāng)然比例很高不太好. 圖b 左邊兩圖 冀续,橫坐標(biāo)是細(xì)胞測(cè)到的reads 數(shù)目琼讽,總坐標(biāo)是多少比例比對(duì)到TSS區(qū)域.(1kb 區(qū)域).
-
圖b 右圖展示類似效果,x 為通過標(biāo)準(zhǔn)的reads,y 軸是Frip比例. 也可以設(shè)定閾值進(jìn)行過濾細(xì)胞
我們通過Frip 0.25 / reads count> 10^3 進(jìn)行過濾洪唐,將剩下的藍(lán)色細(xì)胞進(jìn)行macs2 call peak 應(yīng)該更好.
- 當(dāng)過濾掉大部分低質(zhì)量細(xì)胞钻蹬,進(jìn)行macs2 callpeak. 我們可以通過統(tǒng)計(jì)每個(gè)peak 區(qū)域的reads 數(shù)目得到peak-count matrix, 非常稀疏.大多是count 情況 都是0,1 偶爾出現(xiàn)2 ,這和單細(xì)胞RNA-seq不太一樣凭需。 有時(shí)候我們可以將2轉(zhuǎn)換成1 问欠,因?yàn)? 非常少,
轉(zhuǎn)換成binary matrix
.
提問
:為什么count 數(shù)目只能是0,1,2 粒蜈?
總體read 有成千上萬個(gè)reads,平均到每一個(gè)細(xì)胞顺献,只有幾千個(gè)reads .DNA序列大多數(shù)只有2倍拷貝, 對(duì)于癌癥細(xì)胞來說枯怖,可能存在很少的3,4 拷貝注整。
3.2020 STAT115 Lect16.3 Analysis of scATAC-seq
當(dāng)我們得到peak_by_cell matrix. 需要進(jìn)行下游分析.
- 我們可以使用PCA進(jìn)行降維, 或者新的機(jī)器學(xué)習(xí)算法度硝,LSL可能效果比PCA好一些. 降維只有可以計(jì)算兩個(gè)細(xì)胞之間的距離.(LSI 思路:TF-IDF -->term-document-->SVD-->demension accor)
- 降維后坐標(biāo)可以直接用scRNA_seq的方法设捐,進(jìn)行聚類(cluster--Seurat V3)
- T-SNE/uMAP 可視化
- 我們可以想象原始矩陣是非常稀疏,成千上萬行peak 區(qū)域. 只有幾千行有數(shù)據(jù)(0 或者1 ) .
- 我們將細(xì)胞進(jìn)行聚類塘淑,可以將每一類細(xì)胞重新進(jìn)行call peaks.
- 比如cluster16 ,是一個(gè)小的cluster, 可能cluster16 部分的peak 由于agg atac-seq 時(shí)候reads 很少,無法進(jìn)行檢測(cè)到存捺。當(dāng)我們單獨(dú)進(jìn)行cluster16 macs2 call peak 更加容易發(fā)現(xiàn)它.
下面兩個(gè)slide 將從motif/TF ChIP-seq 數(shù)據(jù)檢測(cè)那個(gè)TF明顯富集某個(gè)細(xì)胞.
接下來槐沼,我們就需要進(jìn)行差異peak. (tips: 需要將細(xì)胞reads 進(jìn)行歸一化曙蒸,10k/cell) 再進(jìn)行M-W test(幾萬次)
- scRNA-seq 方法,M-W test /Wilcoxon rank-sum等等.
- 但是scATAC-seq 大多數(shù)情況都是0,1. 需要將每一列(細(xì)胞) 進(jìn)行normalize . 放縮到10k (reads/cell) . 我們前面已經(jīng)將reads 數(shù)目很少的細(xì)胞進(jìn)行了過濾岗钩。 歸一化后纽窟,可以進(jìn)行比較每一行是否是差異基因.
- Presto : 是Wilcoxon test 的改進(jìn),但是速度快很多.
scRNA-seq 判斷不同cluster每一個(gè)gene 顯著性. scATAC-seq判斷不同的cluster每一個(gè)peak 顯著性.一般需要6小時(shí)的兼吓,Presto 只需要15 秒就完成.
- ChromVar 是很早一個(gè)算法臂港,哪些TF特異富集到某個(gè)cell/cluster。
tips: 類似計(jì)算GO富集一樣视搏,進(jìn)行超幾何計(jì)算审孽,看這個(gè)細(xì)胞的peak里面對(duì)于某個(gè)TF的富集情況.ChromVar 對(duì)所有的TF進(jìn)行類似操作
比如CEBPA 在某些cluster 檢測(cè)到很多位點(diǎn),在其他一些cluster 很少檢測(cè)到. 對(duì)每一個(gè)細(xì)胞的開放區(qū)域進(jìn)行TF (CEBPA)富集分析浑娜,就可以得到如圖所示結(jié)果. 一樣的佑力,可以看ZEB1 轉(zhuǎn)錄因子在每一個(gè)細(xì)胞中富集情況.
當(dāng)然在人類基因組中通過motif 預(yù)測(cè)TF結(jié)合還存在很多影響因素. 所有通過證實(shí)的轉(zhuǎn)錄因子數(shù)據(jù)效果更好.
用TF ChIP-seq peak 和單細(xì)胞peak區(qū)域進(jìn)行overlap 來衡量
- 我們可以利用另一個(gè)項(xiàng)目,cistrome數(shù)據(jù). 收集了60000 ChIP-seq(human/mouse) .
1.假如研究某一個(gè)基因筋遭,檢測(cè)哪一個(gè)轉(zhuǎn)錄因子調(diào)控這個(gè)基因. 結(jié)果會(huì)給出哪些TF 更可能結(jié)合在這里.
2.想研究一個(gè)區(qū)間哪些轉(zhuǎn)錄因子結(jié)合(比如說SNP發(fā)生位點(diǎn))
3.對(duì)很多區(qū)間打颤,用已有的ChIP-seq 數(shù)據(jù),檢測(cè)哪些轉(zhuǎn)錄因子ChIP-seq 更加和這些區(qū)域重疊漓滔。比之前直接用motif 進(jìn)行富集更加有效.
- 可以用差異peak 區(qū)域進(jìn)行富集编饺,看哪些TF-ChIP-seq更加重疊. 一個(gè)TF有很多數(shù)據(jù)(比如不同組織的ChIP-seq),圖里面出現(xiàn)很多顏色相同的點(diǎn).按照每一個(gè)TF最佳重疊得分進(jìn)行排序. 所有看到PLAS1 中有一個(gè)ChIP-seq 數(shù)據(jù)和輸入?yún)^(qū)間有很高的的重疊.
- 同時(shí)同一個(gè)
轉(zhuǎn)錄因子家族
响驴,可能結(jié)合區(qū)域很相近透且,比如FOXA1 ,FOXA2 .
4.2020 STAT115 Lect16.4 Integrating scATAC-seq with scRNA-seq
幾十萬行的peak-cell matrix 轉(zhuǎn)換成2萬行 gene-cell matrix;MAESTRO采用基于距離的算法對(duì)peak 加上權(quán)重踏施,越靠近乘以1,越遠(yuǎn)(100kb)乘以很小的值 來表示此基因是否表達(dá)
- 一個(gè)基因附近可能有很多atac-seq peak 罕邀,每一個(gè)peak計(jì)算距離TSS 距離畅形,賦予不同的權(quán)重 進(jìn)而轉(zhuǎn)換成gene-cell-countmatrix ,比如MAESTRO (未發(fā)表)
- 將peak-cell 矩陣轉(zhuǎn)換成gene-cell 表達(dá)矩陣后,類似于scRNA-seq結(jié)果. 相當(dāng)于將一個(gè)細(xì)胞诉探,分別進(jìn)行了scRNA-seq,scATAC-seq.
左圖兩種顏色分別表示scRNA-seq日熬,scATAC-seq.
這部分不太懂
,大概說scATAC-seq 轉(zhuǎn)換成的gene_cell_matrix和scRNA-seq matrix 相關(guān)系數(shù)類似. 不像scRNA-seq 重復(fù)之間那么高肾胯。
嶺回歸和lasso回歸
可以進(jìn)行特征選擇竖席,我們?cè)谏锝y(tǒng)計(jì)學(xué)課程了解到
可以獲得幾千個(gè)差異基因,需要用lasso進(jìn)一步對(duì)gene 添加權(quán)重
- 通過LASSO選擇這些差異基因敬肚,和那些信號(hào)關(guān)系更大毕荐。比如已經(jīng)發(fā)表的H3K27ac peak 或者DNase peak .
反思:
水平有限,好多slide 沒聽懂講什么內(nèi)容 φ(* ̄0 ̄)