單細胞ATAC亞群分析

上一期敛助,跟大家簡單介紹了下單細胞ATAC的背景知識點及其10x ATAC基礎數(shù)據(jù)的獲取方式萌业。接下來就帶大家從fragment.csv核偿、singlecell.csv晋修、peaks matrix等數(shù)據(jù)出發(fā)恒界,做單細胞ATAC的亞群分析喂柒。

與單細胞轉(zhuǎn)錄組類似踩蔚,單細胞ATAC的分析流程也主要包括細胞質(zhì)控棚放、peaks標準化及其降維分群、marker基因的鑒定等幾個步驟馅闽。常用的單細胞ATAC分析流程軟件包含 cell-ranger-atac飘蚯、Signac和ArchR等馍迄。

一、細胞質(zhì)控

單細胞ATAC的質(zhì)控點一般包含以下幾個方面:樣本重復(biological replicates)局骤,bulkATAC vs scATAC的相關性攀圈、fragment length distribution、per nucleus read-depth峦甩、transcription start site (TSS) enrichment赘来、雙細胞比例等。


圖1:單細胞ATAC質(zhì)控點

1.1 低質(zhì)量細胞的過濾

前面提到的樣本相關性和fragments的長度分布主要是從整體水平上檢查我們的單個樣本數(shù)據(jù)的可靠性凯傲。
而要去掉不符合質(zhì)控的細胞犬辰,我們主要從fragments 數(shù)目TSS enrichment score這兩點出發(fā)。

?? fragments 數(shù)目:一般指單個細胞(barcode)所屬的total fragments數(shù)目冰单。這個不同的軟件具體的定義不同忧风,比如cell-ranger-atac和Signac指peaks所屬區(qū)域的fragments 數(shù)目,其中singlecell.csv文件中peak_region_fragments列便是指fragments 數(shù)目球凰,而ArchR是指全基因組所有的fragments 數(shù)(這個跟該軟件的分析策略有關,后面會提到)腿宰。


?? TSS enrichment score:相當于計算每個細胞的信噪比(signal-to-background ratio)呕诉,ENCODE項目已經(jīng)定義了一個ATAC-seq目標評分,該評分基于TSS中心的片段與TSS側(cè)翼區(qū)域的片段的比例(見https://www.encodeproject.org/data-standards/terms/)吃度。較差的ATAC-seq實驗通常會有較低的TSS濃縮分數(shù)甩挫。Signac軟件可以用TSSEnrichment()函數(shù)為每個細胞計算TSS enrichment score,而ArchR包也是利用類似的原理createArrowFiles()函數(shù)在讀取基礎數(shù)據(jù)時就為每個細胞計算了該指標椿每。

備注:fragments 數(shù)目&TSS enrichment score的閾值不僅與所用軟件具體的計算公式有關(不同的軟件具體的參數(shù)可能不同)伊者,也與自己數(shù)據(jù)的實際情況有關。比如哺乳動物和植物的單細胞ATAC數(shù)據(jù)TSS enrichment score就不能用相同的指標cutoff來衡量间护,一般來說哺乳動物的TSS enrichment score值要整體偏高些亦渗。

1.2 雙細胞的去除

雙細胞預測幾乎是所有單細胞測序技術都得考慮的一個問題,從原理來說汁尺,我們每個barcode就是一個細胞法精,但是因為所有的實驗技術都不是100%完美的,因此往往會有一個barcode所包裹的油滴進來2個細胞痴突。
對于10x數(shù)據(jù)來說搂蜓,即使在使用標準試劑盒時,也可能有超過5%的細胞屬于雙細胞辽装,這對聚類產(chǎn)生了重大影響帮碰。特別是在發(fā)育/軌跡分析中十分受影響,因為doublets看起來像是兩種細胞類型的混合物拾积,這可能與中間細胞類型或細胞狀態(tài)混淆殉挽。

為了預測哪些“細胞”實際上是雙細胞的丰涉,ArchR會從我們真實的數(shù)據(jù)中隨機模擬產(chǎn)生混合的“雙細胞”數(shù)據(jù),這些“雙細胞”數(shù)據(jù)與我們所有細胞一起做降維并UMAP可視化("雙細胞"會投影到UMAP中此再,并識別它們鄰近的細胞)昔搂,在這個過程中,ArchR會計算每個細胞的Doublet Enrichment输拇,值越大摘符,表示該細胞是雙細胞的可能性越大。

圖2:ArchR包雙細胞預測原理

二策吠、降維分群

與單細胞RNA(scRNA-seq)相比逛裤,scATAC-seq數(shù)據(jù)由于其高維度和稀疏性而更具計算分析挑戰(zhàn)性。主要體現(xiàn)在標準化和降維猴抹,這兩大步驟跟單細胞轉(zhuǎn)錄組分析所用的統(tǒng)計學原理完全不同带族,以下為歸納總結(jié)的具體內(nèi)容,如下表所示:



備注:TF-IDF & LSI都是自然語言常用的統(tǒng)計學方法蟀给。

2.1 peaks標準化

獲得peak matrix后蝙砌,跟基因類似,我們必須對其標準化跋理。因為單細胞ATAC測的是DNA序列择克,對于二倍體物種來說,同一個位置最多有2套DNA序列前普,這便是單細胞ATAC peak matrix稀疏性的最大根源(單細胞轉(zhuǎn)錄組因測的是RNA肚邢,高表達的基因往往有多個轉(zhuǎn)錄分子)。因此拭卿,從數(shù)據(jù)實際情況出發(fā)骡湖,單細胞ATAC采取的是log(TF-IDF)( Term frequency-inverse document frequency) 標準化,簡稱文檔頻率法峻厚。

  • TF-IDF:是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權技術响蕴。TF是詞頻(Term Frequency),IDF是逆文本頻率指數(shù)(Inverse Document Frequency)惠桃。單個詞匯在一篇文章中出現(xiàn)的次數(shù)越多换途,越重要。但是在語料庫多次出現(xiàn)刽射,重要性越來越低军拟。IDF : 計算A term 出現(xiàn)稀少度。越稀少誓禁,越重要懈息。

2.2 peaks降維

所有高維數(shù)據(jù)的分析都是采取降維的方式從多維到低緯的策略,之后還可以再次降維成2個維度并可視化(比如TSNE和UMAP)摹恰。我們對peaks是采取LSI降維的方式辫继。

  • LSI:潛在語義索引(Latent Semantic Indexing,以下簡稱LSI)怒见,有的文章也叫Latent Semantic Analysis(LSA)。其實是一個東西姑宽,后面我們統(tǒng)稱LSI遣耍,它是一種簡單實用的主題模型。LSI是基于奇異值分解(SVD)的方法來得到文本的主題的炮车。

2.3 細胞分群

與單細胞轉(zhuǎn)錄組類似舵变,降維后的單細胞ATAC數(shù)據(jù)也同樣可以采取graph-based clustering的分群方法。Graph-based圖聚類算法包括兩步:首先用降維(PCA或者LSI)的數(shù)據(jù)構建一個細胞間的k近鄰稀疏矩陣瘦穆,即將一個細胞與其歐式距離上最近的k個細胞聚為一類纪隙,然后在此基礎上用Louvain算法進行模塊優(yōu)化(Blondel, Guillaume, Lambiotte, & Lefebvre, 2008),旨在找到圖中高度連接的模塊扛或。最后通過層次聚類將位于同一區(qū)域內(nèi)沒有差異表達基因(B-H adjusted p-value 低于0.05)的cluster進一步融合绵咱,重復該過程直到?jīng)]有clusters可以合并。
備注:Signac和ArchR都是直接調(diào)用Seurat包的FindClusters()函數(shù)用不同分辨率來分群的熙兔。

三悲伶、marker基因的鑒定

細胞分群后,我們需要知道每個cluster屬于什么細胞類型住涉,也就是細胞命名麸锉。我們知道,單細胞轉(zhuǎn)錄組主要是依據(jù)每個cluster的marker基因來判斷細胞類型的秆吵。那么對于單細胞ATAC,是不是也可以定義出每個cluster的特異高表達的基因集呢五慈?
答案是肯定的纳寂,一般來說,我們是通過基因body區(qū)域加上一定范圍內(nèi)的上下游區(qū)域的整體ATAC信號來計算每個細胞每個基因的genescore值泻拦。

3.1 Genescore的計算

1)Signac是通過GeneActivity()函數(shù)https://satijalab.org/signac/reference/geneactivit來實現(xiàn)的毙芜,默認參數(shù)是基因上游2kb到TES區(qū)域。
2)而ArchR是通過addGeneScoreMatrix()函數(shù)https://www.archrproject.com/reference/addGeneScoreMatrix.html來實現(xiàn)的(createArrowFiles函數(shù)也會用默認參數(shù)得到genescore matrix矩陣)争拐,注意其計算原理稍微復雜腋粥,ArchR考慮到遠端調(diào)控元件對基因活性的影響,因此默認的upstream和downstream范圍更廣架曹。

在ArchR作者的發(fā)表文章中隘冲,他們測試了50多個不同的基因評分模型,并確定了一類在各種測試條件下表現(xiàn)始終優(yōu)于其他模型的模型绑雄。這個模型類展辞,在ArchR中作為默認實現(xiàn),有三個主要組件:

  • a.整個基因體內(nèi)的可及性有助于基因得分万牺。
  • b.一種指數(shù)加權函數(shù)罗珍,以一種距離依賴的方式來解釋假定的遠端調(diào)節(jié)元件的活動洽腺。
  • c.施加基因邊界,使不相關的調(diào)控元素對基因得分的貢獻最小化覆旱。


    圖3:ArchR包Gene Scores計算原理

3.2 marker基因的可視化

marker 基因的ATAC信號(genescore值)同樣可以在umap展示蘸朋,也可以用小提琴圖(VlnPlot),點狀圖(DotPlot)展示扣唱。與單細胞轉(zhuǎn)錄組相比藕坯,單細胞ATAC還多了基因區(qū)域的track的可視化展示。

  • 1)以下為Signac包里單細胞ATAC marker 基因的ATAC信號(genescore值)結(jié)果展示圖画舌,Signac包與Seurat包一樣堕担,都是satijalab實驗室團隊開發(fā)的,因此該包繼承了很多我們熟悉的Seurat包的方法函數(shù)曲聂。以下為例圖舉例霹购。


    圖4:Signac包單細胞ATAC可視化展示例圖
  • 2)ArchR包同樣也可以做很多可視化的圖。左邊是CD14基因genescore值umap可視化展示朋腋,右邊是track可視化圖齐疙。


    圖5:ArchR包單細胞ATAC可視化展示例圖

單細胞ATAC的亞群分析介紹就到這里,下一篇會給大家介紹單細胞ATAC的高級分析內(nèi)容旭咽,比如motifdeviation贞奋、 擬時間分析、 單細胞RNA與單細胞ATAC的整合分析等穷绵。
本分享更多是從知識點和分析原理來講解和歸納總結(jié)轿塔,具體實現(xiàn)方法和流程腳本可以查看下面參考資料軟件的官方文檔,里面都寫得都很詳細清楚仲墨。

四勾缭、參考資料

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末俩由,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子癌蚁,更是在濱河造成了極大的恐慌幻梯,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件努释,死亡現(xiàn)場離奇詭異碘梢,居然都是意外死亡,警方通過查閱死者的電腦和手機伐蒂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門痘系,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人饿自,你說我怎么就攤上這事汰翠×淦海” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵复唤,是天一觀的道長健田。 經(jīng)常有香客問我,道長佛纫,這世上最難降的妖魔是什么妓局? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮呈宇,結(jié)果婚禮上好爬,老公的妹妹穿的比我還像新娘。我一直安慰自己甥啄,他們只是感情好存炮,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蜈漓,像睡著了一般穆桂。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上融虽,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天享完,我揣著相機與錄音,去河邊找鬼有额。 笑死般又,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的巍佑。 我是一名探鬼主播茴迁,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼句狼!你這毒婦竟也來了笋熬?” 一聲冷哼從身側(cè)響起热某,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤腻菇,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后昔馋,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體筹吐,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年秘遏,在試婚紗的時候發(fā)現(xiàn)自己被綠了丘薛。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡邦危,死狀恐怖洋侨,靈堂內(nèi)的尸體忽然破棺而出舍扰,到底是詐尸還是另有隱情,我是刑警寧澤希坚,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布边苹,位于F島的核電站,受9級特大地震影響裁僧,放射性物質(zhì)發(fā)生泄漏个束。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一聊疲、第九天 我趴在偏房一處隱蔽的房頂上張望茬底。 院中可真熱鬧,春花似錦获洲、人聲如沸阱表。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽捶枢。三九已至,卻和暖如春飞崖,著一層夾襖步出監(jiān)牢的瞬間烂叔,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工固歪, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蒜鸡,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓牢裳,卻偏偏與公主長得像逢防,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子蒲讯,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容