2020 scATAC-seq Harward Liu

了解scATAC-seq 背景知識(shí)(youtube Shirley)

1.2020 STAT115 Lect16.1 Intro to Single-Cell ATAC-seq

image.png
image.png
  • 我們通過Tn5 酶進(jìn)行反應(yīng),切割開放染色質(zhì)區(qū)域瘸味,同時(shí)我們選擇相對(duì)短的片段進(jìn)行建庫(kù)測(cè)序赠法。當(dāng)我們比對(duì)到基因組就會(huì)看到peak 峰靶草,標(biāo)示出染色質(zhì)所有的開放染色質(zhì)區(qū)域.也是所有轉(zhuǎn)錄因子結(jié)合區(qū)域
  • atac-seq,相比其他技術(shù)需要更少的起始細(xì)胞量,大約幾千個(gè)有時(shí)候幾百個(gè)細(xì)胞手動(dòng)了解scATAC-seq技術(shù)舌涨,人們可以用于研究發(fā)育組織及其癌癥組織,這些情況有時(shí)候用ChIP-seq 或者Dnase-seq沒法研究.
image.png
  • 近些年技術(shù)進(jìn)一步發(fā)展. 單細(xì)胞ATAC-seq實(shí)驗(yàn)方法已經(jīng)開發(fā)出來了. 斯坦福大學(xué)研究團(tuán)隊(duì)與10x genomic 進(jìn)行合作,拖動(dòng)scATAC-seq 商業(yè)化.

  • 10x 商業(yè)平臺(tái)原理姚炕,首先紙杯GEL breds ,獲取單細(xì)胞懸液,或者單個(gè)的細(xì)胞核,并用Tn5 進(jìn)行酶切. 進(jìn)入機(jī)器形成1個(gè)gel beads 1個(gè)單細(xì)胞液滴. 每一個(gè)細(xì)胞擁有一個(gè)標(biāo)簽.同時(shí)進(jìn)行短的片段進(jìn)行PCR擴(kuò)增反應(yīng). 最后去除油滴丢烘,所有的序列混合在一起柱宦,進(jìn)行上機(jī)測(cè)序,用barcode 來區(qū)分reads來自哪個(gè)細(xì)胞.

    提問:在上機(jī)之前播瞳,就進(jìn)行了Tn5 反應(yīng)掸刊,將adapter 插入兩端.

image.png
  • 剛剛我們講述Droplet-based 系統(tǒng)的單細(xì)胞技術(shù).其他技術(shù)包括Plate 或者array : 大約有384 個(gè)well.每一個(gè)細(xì)胞有唯一的標(biāo)簽. 另一個(gè)技術(shù)是split-pool 和單細(xì)胞RNA-seq 技術(shù)類似,進(jìn)行兩次的標(biāo)簽化組合赢乓,進(jìn)行標(biāo)示所有的細(xì)胞. 但是也存在問題忧侧,多次的操作細(xì)胞可能會(huì)丟失,也逐漸商業(yè)化目前最主流是x genomic ,得到較好的質(zhì)量
image.png
  • 更多人希望得到scRNA-seq+ scATAC-seq 數(shù)據(jù).目前也存在困難.可以先對(duì)細(xì)胞分成兩管牌芋,分別進(jìn)行scRNA_seq和scATAC-seq. 雖然來自同一個(gè)組織蚓炬,但是不是同一個(gè)細(xì)胞. 所有scRNA-seq 和scATAC-seq 的barcode 不是一對(duì)一匹配.

  • 10x 公司正在為之努力,單細(xì)胞細(xì)胞測(cè)量RNA-seq和ATC-seq躺屁,使得兩者的barcode 有一個(gè)一一對(duì)應(yīng)的關(guān)系.

提問:短的片段更容易得到擴(kuò)增.




2.STATi15 Lect16.2 Preprocessing and QC scATAC-seq

image.png
  • Cell Ranger 是10 x genomic 開放的工具包. 它有自己的比對(duì)方法肯夏,當(dāng)然目前也有很好的其他工具,比如RNA_seq z中STAR, 可以使用STAR solo (STAR 基礎(chǔ)上進(jìn)行提升) 比對(duì)速度提升10倍.

  • ATAC-seq 可以使用BWA進(jìn)行比對(duì). 最近有團(tuán)隊(duì)開發(fā)了Minimap2 ,和cellRange 快15 倍. 對(duì)于CHIP-seq 來說驯击,不太關(guān)注高度重復(fù)的區(qū)域烁兰,當(dāng)你發(fā)現(xiàn)這個(gè)區(qū)域沒有read,不要擔(dān)心,我們忽略了它.

  • 10x 公司知道他們的barcode 數(shù)目及其信息余耽,我們需要保證傳染性結(jié)果的barcode沒有測(cè)錯(cuò). 如何你發(fā)現(xiàn)你的barcode 序列和所有的都不一樣缚柏,但是和有一個(gè)很相近,你可以將這些reads 分配給這個(gè)細(xì)胞.所有這是一個(gè)標(biāo)準(zhǔn)的預(yù)處理過程.

image.png
  • 人們會(huì)將所有的reads 進(jìn)行合并碟贾,用macs2 進(jìn)行call peak. 結(jié)果和bulk 幾乎一樣. 圖C 中 每一個(gè)細(xì)胞都是一行币喧,每一個(gè)位置有1 or 2 reads.
image.png
  • 圖d, 兩類細(xì)胞GM12878(人類),A20(小鼠)將不同重復(fù)進(jìn)行normalize ,比較兩者相關(guān)系數(shù). 每一個(gè)點(diǎn)就是peak.

  • 圖e 左,將兩個(gè)物種read 結(jié)果混合起來,用來檢測(cè)一個(gè)barcode 多少比例存在多個(gè)細(xì)胞袱耽,我們可以看到有幾個(gè)點(diǎn)在對(duì)稱軸上.

  • 圖e 右杀餐,顯示細(xì)胞濃度與一個(gè)barcode 對(duì)應(yīng)多個(gè)細(xì)胞的比例,可以看到細(xì)胞濃度越高朱巨,這種情況越明顯.

image.png
  • 啟動(dòng)子區(qū)域很大程度都是開放的史翘,所有查看多少比例比對(duì)到啟動(dòng)子可以反映出實(shí)驗(yàn)效果.

    也可以檢測(cè)多少reads 比對(duì)到線粒體,當(dāng)然比例很高不太好. 圖b 左邊兩圖 冀续,橫坐標(biāo)是細(xì)胞測(cè)到的reads 數(shù)目琼讽,總坐標(biāo)是多少比例比對(duì)到TSS區(qū)域.(1kb 區(qū)域).

  • 圖b 右圖展示類似效果,x 為通過標(biāo)準(zhǔn)的reads,y 軸是Frip比例. 也可以設(shè)定閾值進(jìn)行過濾細(xì)胞

    我們通過Frip 0.25 / reads count> 10^3 進(jìn)行過濾洪唐,將剩下的藍(lán)色細(xì)胞進(jìn)行macs2 call peak 應(yīng)該更好.

image.png
  • 當(dāng)過濾掉大部分低質(zhì)量細(xì)胞钻蹬,進(jìn)行macs2 callpeak. 我們可以通過統(tǒng)計(jì)每個(gè)peak 區(qū)域的reads 數(shù)目得到peak-count matrix, 非常稀疏.大多是count 情況 都是0,1 偶爾出現(xiàn)2 ,這和單細(xì)胞RNA-seq不太一樣凭需。 有時(shí)候我們可以將2轉(zhuǎn)換成1 问欠,因?yàn)? 非常少,轉(zhuǎn)換成binary matrix.

提問:為什么count 數(shù)目只能是0,1,2 粒蜈?
總體read 有成千上萬個(gè)reads,平均到每一個(gè)細(xì)胞顺献,只有幾千個(gè)reads .DNA序列大多數(shù)只有2倍拷貝, 對(duì)于癌癥細(xì)胞來說枯怖,可能存在很少的3,4 拷貝注整。




3.2020 STAT115 Lect16.3 Analysis of scATAC-seq

當(dāng)我們得到peak_by_cell matrix. 需要進(jìn)行下游分析.


2020年5月25日17:17:31
  • 我們可以使用PCA進(jìn)行降維, 或者新的機(jī)器學(xué)習(xí)算法度硝,LSL可能效果比PCA好一些. 降維只有可以計(jì)算兩個(gè)細(xì)胞之間的距離.(LSI 思路:TF-IDF -->term-document-->SVD-->demension accor)
  • 降維后坐標(biāo)可以直接用scRNA_seq的方法设捐,進(jìn)行聚類(cluster--Seurat V3)
  • T-SNE/uMAP 可視化
  • 我們可以想象原始矩陣是非常稀疏,成千上萬行peak 區(qū)域. 只有幾千行有數(shù)據(jù)(0 或者1 ) .
image.png
  • 我們將細(xì)胞進(jìn)行聚類塘淑,可以將每一類細(xì)胞重新進(jìn)行call peaks.
  • 比如cluster16 ,是一個(gè)小的cluster, 可能cluster16 部分的peak 由于agg atac-seq 時(shí)候reads 很少,無法進(jìn)行檢測(cè)到存捺。當(dāng)我們單獨(dú)進(jìn)行cluster16 macs2 call peak 更加容易發(fā)現(xiàn)它.





下面兩個(gè)slide 將從motif/TF ChIP-seq 數(shù)據(jù)檢測(cè)那個(gè)TF明顯富集某個(gè)細(xì)胞.

Annotation Relevant TFs with Motif

接下來槐沼,我們就需要進(jìn)行差異peak. (tips: 需要將細(xì)胞reads 進(jìn)行歸一化曙蒸,10k/cell) 再進(jìn)行M-W test(幾萬次)

  • scRNA-seq 方法,M-W test /Wilcoxon rank-sum等等.
  • 但是scATAC-seq 大多數(shù)情況都是0,1. 需要將每一列(細(xì)胞) 進(jìn)行normalize . 放縮到10k (reads/cell) . 我們前面已經(jīng)將reads 數(shù)目很少的細(xì)胞進(jìn)行了過濾岗钩。 歸一化后纽窟,可以進(jìn)行比較每一行是否是差異基因.
  • Presto : 是Wilcoxon test 的改進(jìn),但是速度快很多.

scRNA-seq 判斷不同cluster每一個(gè)gene 顯著性. scATAC-seq判斷不同的cluster每一個(gè)peak 顯著性.一般需要6小時(shí)的兼吓,Presto 只需要15 秒就完成.

image.png
  • ChromVar 是很早一個(gè)算法臂港,哪些TF特異富集到某個(gè)cell/cluster。
    tips: 類似計(jì)算GO富集一樣视搏,進(jìn)行超幾何計(jì)算审孽,看這個(gè)細(xì)胞的peak里面對(duì)于某個(gè)TF的富集情況.ChromVar 對(duì)所有的TF進(jìn)行類似操作
    比如CEBPA 在某些cluster 檢測(cè)到很多位點(diǎn),在其他一些cluster 很少檢測(cè)到. 對(duì)每一個(gè)細(xì)胞的開放區(qū)域進(jìn)行TF (CEBPA)富集分析浑娜,就可以得到如圖所示結(jié)果. 一樣的佑力,可以看ZEB1 轉(zhuǎn)錄因子在每一個(gè)細(xì)胞中富集情況.

當(dāng)然在人類基因組中通過motif 預(yù)測(cè)TF結(jié)合還存在很多影響因素. 所有通過證實(shí)的轉(zhuǎn)錄因子數(shù)據(jù)效果更好.

image.png

用TF ChIP-seq peak 和單細(xì)胞peak區(qū)域進(jìn)行overlap 來衡量

  • 我們可以利用另一個(gè)項(xiàng)目,cistrome數(shù)據(jù). 收集了60000 ChIP-seq(human/mouse) .
    1.假如研究某一個(gè)基因筋遭,檢測(cè)哪一個(gè)轉(zhuǎn)錄因子調(diào)控這個(gè)基因. 結(jié)果會(huì)給出哪些TF 更可能結(jié)合在這里.
    2.想研究一個(gè)區(qū)間哪些轉(zhuǎn)錄因子結(jié)合(比如說SNP發(fā)生位點(diǎn))
    3.對(duì)很多區(qū)間打颤,用已有的ChIP-seq 數(shù)據(jù),檢測(cè)哪些轉(zhuǎn)錄因子ChIP-seq 更加和這些區(qū)域重疊漓滔。比之前直接用motif 進(jìn)行富集更加有效.
image.png
  • 可以用差異peak 區(qū)域進(jìn)行富集编饺,看哪些TF-ChIP-seq更加重疊. 一個(gè)TF有很多數(shù)據(jù)(比如不同組織的ChIP-seq),圖里面出現(xiàn)很多顏色相同的點(diǎn).按照每一個(gè)TF最佳重疊得分進(jìn)行排序. 所有看到PLAS1 中有一個(gè)ChIP-seq 數(shù)據(jù)和輸入?yún)^(qū)間有很高的的重疊.
  • 同時(shí)同一個(gè)轉(zhuǎn)錄因子家族响驴,可能結(jié)合區(qū)域很相近透且,比如FOXA1 ,FOXA2 .




4.2020 STAT115 Lect16.4 Integrating scATAC-seq with scRNA-seq

image.png

幾十萬行的peak-cell matrix 轉(zhuǎn)換成2萬行 gene-cell matrix;MAESTRO采用基于距離的算法對(duì)peak 加上權(quán)重踏施,越靠近乘以1,越遠(yuǎn)(100kb)乘以很小的值 來表示此基因是否表達(dá)

  • 一個(gè)基因附近可能有很多atac-seq peak 罕邀,每一個(gè)peak計(jì)算距離TSS 距離畅形,賦予不同的權(quán)重 進(jìn)而轉(zhuǎn)換成gene-cell-countmatrix ,比如MAESTRO (未發(fā)表)
image.png
  • 將peak-cell 矩陣轉(zhuǎn)換成gene-cell 表達(dá)矩陣后,類似于scRNA-seq結(jié)果. 相當(dāng)于將一個(gè)細(xì)胞诉探,分別進(jìn)行了scRNA-seq,scATAC-seq.
    左圖兩種顏色分別表示scRNA-seq日熬,scATAC-seq.

image.png

這部分不太懂,大概說scATAC-seq 轉(zhuǎn)換成的gene_cell_matrix和scRNA-seq matrix 相關(guān)系數(shù)類似. 不像scRNA-seq 重復(fù)之間那么高肾胯。

image.png

image.png

嶺回歸和lasso回歸 可以進(jìn)行特征選擇竖席,我們?cè)谏锝y(tǒng)計(jì)學(xué)課程了解到
可以獲得幾千個(gè)差異基因,需要用lasso進(jìn)一步對(duì)gene 添加權(quán)重

  • 通過LASSO選擇這些差異基因敬肚,和那些信號(hào)關(guān)系更大毕荐。比如已經(jīng)發(fā)表的H3K27ac peak 或者DNase peak .
image.png
image.png

反思:

水平有限,好多slide 沒聽懂講什么內(nèi)容 φ(* ̄0 ̄)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末艳馒,一起剝皮案震驚了整個(gè)濱河市憎亚,隨后出現(xiàn)的幾起案子员寇,更是在濱河造成了極大的恐慌,老刑警劉巖第美,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蝶锋,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡什往,警方通過查閱死者的電腦和手機(jī)扳缕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來别威,“玉大人躯舔,你說我怎么就攤上這事⊥酶郏” “怎么了庸毫?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)衫樊。 經(jīng)常有香客問我飒赃,道長(zhǎng),這世上最難降的妖魔是什么科侈? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任载佳,我火速辦了婚禮,結(jié)果婚禮上臀栈,老公的妹妹穿的比我還像新娘蔫慧。我一直安慰自己,他們只是感情好权薯,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布姑躲。 她就那樣靜靜地躺著,像睡著了一般盟蚣。 火紅的嫁衣襯著肌膚如雪黍析。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天屎开,我揣著相機(jī)與錄音阐枣,去河邊找鬼。 笑死奄抽,一個(gè)胖子當(dāng)著我的面吹牛蔼两,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播逞度,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼额划,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了档泽?” 一聲冷哼從身側(cè)響起锁孟,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤彬祖,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后品抽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體储笑,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年圆恤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了突倍。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡盆昙,死狀恐怖羽历,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情淡喜,我是刑警寧澤秕磷,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站炼团,受9級(jí)特大地震影響澎嚣,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瘟芝,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一易桃、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧锌俱,春花似錦晤郑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至吭练,卻和暖如春诫龙,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背线脚。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工赐稽, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留叫榕,地道東北人浑侥。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像晰绎,于是被迫代替她去往敵國(guó)和親寓落。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 作者 | Arno審稿 | 童蒙編輯 | amethyst 上一期我們介紹了ATAC-seq相關(guān)的背景知識(shí)荞下。ATA...
    生信阿拉丁閱讀 17,515評(píng)論 5 40
  • 背景: 染色質(zhì)和染色體的結(jié)構(gòu)和功能 每一條染色單體由單個(gè)線性DNA分子組成伶选。細(xì)胞核中的DNA是經(jīng)過高度有序的包裝史飞,...
    xuzhougeng閱讀 35,857評(píng)論 10 93
  • 作者 | Arno審稿 | 童蒙編輯 | amethyst ATAC-seq技術(shù)由于其要求細(xì)胞量少,實(shí)驗(yàn)簡(jiǎn)單仰税、快速...
    生信阿拉丁閱讀 4,422評(píng)論 0 11
  • 知識(shí)的學(xué)習(xí)沒有一蹴而就构资,沒有捷近,扎實(shí)的學(xué)習(xí)是唯一的捷近陨簇。 一篇RNA-seq分析流程的綜述吐绵,全面而詳細(xì)!深度好文...
    dandanwu90閱讀 48,132評(píng)論 5 152
  • 大年初四河绽,已經(jīng)在家連續(xù)蝸居了四天己单。 忍受不了,還是戴上口罩來到了體育館跑步耙饰。 昨天跑步纹笼,保安開始測(cè)體溫,不戴口罩的...
    夏日不夏閱讀 237評(píng)論 2 2