單細胞轉(zhuǎn)錄組高級分析一:多樣本合并與批次校正

本文是參考學習單細胞轉(zhuǎn)錄組高級分析一:多樣本合并與批次校正的學習筆記晚胡〉课玻可能根據(jù)學習情況有所改動案腺。
前言實際的科研項目中不可能只有一個樣本,多樣本的單細胞數(shù)據(jù)如何合并在一起,是否需要校正批次效應(yīng)呢衬潦?先上一張圖說明多樣本scRNA數(shù)據(jù)的批次效應(yīng):

圖片

左邊的圖簡單地把多個單細胞的數(shù)據(jù)合并在一起,不考慮去除批次效應(yīng),樣本之間有明顯的分離現(xiàn)象沾歪。右邊的圖是使用算法校正批次效應(yīng),不同的樣本基本融和在一起了雾消。scRNA數(shù)據(jù)校正批次效應(yīng)的算法有很多:MNN, CCA+MNN, Harmony, Scanorama, scMerge等灾搏,本文推薦發(fā)表在Cell上的CCA+MNN方法挫望,通過Seurat包就可以實現(xiàn)。Seurat數(shù)據(jù)整合功能簡介Seurat早期版本整合數(shù)據(jù)的核心算法是CCA狂窑,文章發(fā)表在2018年的nature biotechnology媳板,作者是Seurat的開發(fā)者Andrew Butler。同年Haghverdi等人開發(fā)了MNN算法校正批次效應(yīng)泉哈,文章也發(fā)表在了nature biotechnology蛉幸。2019年Andrew等人將CCA與MNN算法結(jié)合起來,并參考SNN算法的理念設(shè)計了“錨點”評分體系丛晦,使Seurat整合數(shù)據(jù)更強大更穩(wěn)健奕纫。它不僅可以校正實驗的批次效應(yīng),還能跨平臺整合數(shù)據(jù)烫沙,例如將10x單細胞數(shù)據(jù)匹层、BD單細胞數(shù)據(jù)和SMART單細胞數(shù)據(jù)整合在一起;也能整合單細胞多組學數(shù)據(jù),例如將單細胞ATAC天揖、空間轉(zhuǎn)錄組與單細胞轉(zhuǎn)錄組數(shù)據(jù)整合在一起觉阅。本文只討論多樣本數(shù)據(jù)的合并與校正批次效應(yīng),多組學數(shù)據(jù)的整合以后專門寫篇文章介紹仰冠。Seurat整合流程與原理

1、使用CCA分析將兩個數(shù)據(jù)集降維到同一個低維空間蝶糯,因為CCA降維之后的空間距離不是相似性而是相關(guān)性洋只,所以相同類型與狀態(tài)的細胞可以克服技術(shù)偏倚重疊在一起。CCA分析效果見下圖:

圖片

左圖使用PCA降維昼捍,細胞之間的距離體現(xiàn)的是轉(zhuǎn)錄特征相似性识虚,批次效應(yīng)引入的系統(tǒng)誤差會使樣本分離。右圖使用CCA降維妒茬,細胞之間的距離體現(xiàn)的是轉(zhuǎn)錄特征相關(guān)性担锤,因此同類型且同狀態(tài)的細胞可以跨越技術(shù)差異重疊在一起。

2乍钻、CCA降維之后細胞在低維空間有了可以度量的“距離”肛循,MNN(mutual nearest neighbor)算法以此找到兩個數(shù)據(jù)集之間互相“距離”最近的細胞,Seurat將這些相互最近鄰細胞稱為“錨點細胞”银择。我們用兩個數(shù)據(jù)集A和B來說明錨點多糠,假設(shè):

  • A樣本中的細胞A3與B樣本中距離最近的細胞有3個(B1,B2,B3)

  • B樣本中的細胞B1與A樣本中距離最近的細胞有4個(A1,A2,A3,A4)

  • B樣本中的細胞B2與A樣本中距離最近的細胞有2個(A5,A6)

  • B樣本中的細胞B3與A樣本中距離最近的細胞有3個(A1,A2,A7)

那么A3與B1是相互最近鄰細胞,A3與B2浩考、B3不是相互最近鄰細胞夹孔,A3+B1就是A、B兩個數(shù)據(jù)集中的錨點之一。實際數(shù)據(jù)中搭伤,兩個數(shù)據(jù)集之間的錨點可能有幾百上千個只怎,如下圖所示:

圖片

圖中每條線段連接的都是相互最近鄰細胞

3、理想情況下相同類型和狀態(tài)的細胞才能構(gòu)成配對錨點細胞怜俐,但是異常的情況也會出現(xiàn)身堡,如上圖中query數(shù)據(jù)集中黑色的細胞團。它在reference數(shù)據(jù)集沒有相同類型的細胞佑菩,但是它也找到了錨點配對細胞(紅色連線)盾沫。Seurat會通過兩步過濾這些不正確的錨點:

  1. 在CCA低維空間找到的錨點,返回到基因表達數(shù)據(jù)構(gòu)建的高維空間中驗證殿漠,如果它們的轉(zhuǎn)錄特征相似性高則保留赴精,否則過濾此錨點。

  2. 檢查錨點細胞所在數(shù)據(jù)集最鄰近的30個細胞绞幌,查看它們重疊的錨點配對細胞的數(shù)量蕾哟,重疊越多分值越高,代表錨點可靠性更高莲蜘。原理見下圖:

圖片

左邊query數(shù)據(jù)集的一個錨點細胞能在reference數(shù)據(jù)集鄰近區(qū)域找到多個配對錨點細胞谭确,可以得到更高的錨點可靠性評分;右邊一個錨點細胞只能在reference數(shù)據(jù)集鄰近區(qū)域找到一個配對錨點細胞票渠,錨點可靠性評分則較低逐哈。

4、經(jīng)過層層過濾剩下的錨點細胞對问顷,可以認為它們是相同類型和狀態(tài)的細胞昂秃,它們之間的基因表達差異是技術(shù)偏倚引起的。Seurat計算它們的差異向量杜窄,然后用此向量校正這個錨點錨定的細胞子集的基因表達值肠骆。校正后的基因表達值即消除了技術(shù)偏倚,實現(xiàn)了兩個單細胞數(shù)據(jù)集的整合塞耕。

深究技術(shù)細節(jié)的朋友可以參閱原文:Tim S, Andrew Butler, Paul Hoffman , et al. Comprehensive integration of single cell data[J].Cell,2019.獲取數(shù)據(jù)集
本專題的數(shù)據(jù)來自Immune Landscape of Viral- and Carcinogen-Driven Head and Neck Cancer蚀腿,數(shù)據(jù)集GEO編號:GSE139324。建議大家練習自己下載扫外,也可以加Kinesin微信獲取數(shù)據(jù)的百度云鏈接莉钙。

后續(xù)我會摸索之后寫一篇下載數(shù)據(jù)的教程。

原數(shù)據(jù)集有63個scRNA的數(shù)據(jù)筛谚,都是分選的CD45+免疫細胞磁玉。考慮到計算資源問題刻获,挑選了10個樣本用于此次演示。

圖片

數(shù)據(jù)集合并前面講了很多數(shù)據(jù)整合的原理,大家是不是很心動呢蝎毡?所有類型的單細胞數(shù)據(jù)都要進行整合嗎厚柳,數(shù)據(jù)整合算法真的像開發(fā)者說的只消除技術(shù)偏倚不掩蓋細胞之間真實的基因表達差異嗎?如果你掌握了本文介紹的內(nèi)容沐兵,建議你整合與不整合的數(shù)據(jù)都分析試試别垮,實踐出真知!回到本節(jié)數(shù)據(jù)集合并的話題上扎谎,介紹兩種方法合并多個樣本的數(shù)據(jù):

library(Seurat)

通過最后的dim和table函數(shù)查看數(shù)據(jù)碳想,可以發(fā)現(xiàn)兩種方法得到的基因數(shù)和細胞數(shù)完全一樣。下面我們降維聚類看看有沒有差異:

scRNA1 <- NormalizeData(scRNA1)

第一種方法合并數(shù)據(jù)的結(jié)果:

圖片

第二種方法合并數(shù)據(jù)的結(jié)果:

圖片

通過降維圖可以看出兩種方法的結(jié)果完全一致毁靶。這兩種方法真的沒有一點差異嗎胧奔,有興趣的朋友可以用GSE125449的數(shù)據(jù)集試試。

數(shù)據(jù)集整合

#scRNAlist是之前代碼運行保存好的seurat對象列表预吆,保存了10個樣本的獨立數(shù)據(jù)

與合并樣本的降維結(jié)果對比如下圖:

圖片
圖片

數(shù)據(jù)質(zhì)控

##==數(shù)據(jù)質(zhì)控==#

質(zhì)控后的數(shù)據(jù)

圖片

細胞類型鑒定

為了后續(xù)分析的方便龙填,我們先用SingleR預(yù)測每個cluster的細胞類型。

##==鑒定細胞類型==##

用兩個參考數(shù)據(jù)庫分別運行SingleR拐叉,結(jié)果有一定差異岩遗,由此可見SingleR+Marker基因人工鑒定才是可靠的細胞鑒定的方法。

圖片

我們后續(xù)分析采用左圖鑒定的結(jié)果

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末凤瘦,一起剝皮案震驚了整個濱河市宿礁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蔬芥,老刑警劉巖梆靖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異坝茎,居然都是意外死亡涤姊,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門嗤放,熙熙樓的掌柜王于貴愁眉苦臉地迎上來思喊,“玉大人,你說我怎么就攤上這事次酌『蘅危” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵岳服,是天一觀的道長剂公。 經(jīng)常有香客問我,道長吊宋,這世上最難降的妖魔是什么纲辽? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上拖吼,老公的妹妹穿的比我還像新娘鳞上。我一直安慰自己,他們只是感情好吊档,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布篙议。 她就那樣靜靜地躺著,像睡著了一般怠硼。 火紅的嫁衣襯著肌膚如雪鬼贱。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天香璃,我揣著相機與錄音这难,去河邊找鬼。 笑死增显,一個胖子當著我的面吹牛雁佳,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播同云,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼糖权,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了炸站?” 一聲冷哼從身側(cè)響起星澳,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎旱易,沒想到半個月后禁偎,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡阀坏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年如暖,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片忌堂。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡盒至,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出士修,到底是詐尸還是另有隱情枷遂,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布棋嘲,位于F島的核電站酒唉,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏沸移。R本人自食惡果不足惜痪伦,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一侄榴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧网沾,春花似錦牲蜀、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽在辆。三九已至证薇,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間匆篓,已是汗流浹背浑度。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鸦概,地道東北人箩张。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像窗市,于是被迫代替她去往敵國和親先慷。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容