跟著運(yùn)來兄搭建自己的生物信息小書房。趁年輕衙傀,讀幾本硬書抵窒,到老了慢慢反芻。
如果讓我推薦一本比較全面的單細(xì)胞數(shù)據(jù)分析教材轰坊,我想會(huì)是《Computational-method-for-single-cell-data-analysis》抖誉。在2019年剛出版沒多久的時(shí)候,就有趁著一次在中科院的生物信息會(huì)議之后衰倦,打印了這本書(僅作個(gè)人學(xué)習(xí)之用)袒炉。
本書談及單細(xì)胞數(shù)據(jù)分析深入淺出樊零,一大特色是實(shí)操性很強(qiáng)我磁,每一節(jié)都有代碼示例。現(xiàn)在再翻看這本書驻襟,一個(gè)體會(huì)是:很多分析工具其實(shí)早就為我們做好了夺艰,不必為工具的不斷迭代而糾結(jié)。身處哪個(gè)時(shí)代沉衣,我們就用那個(gè)時(shí)代的工具來分析我們的數(shù)據(jù)郁副。另一個(gè)體會(huì)是:雖然工具不斷迭代,但是生物學(xué)問題是不變的豌习,比如如今我們還是會(huì)問:細(xì)胞類型和細(xì)胞狀態(tài)的區(qū)別到底是什么存谎?連續(xù)中包含著離散嗎拔疚?
全書以單細(xì)胞數(shù)據(jù)質(zhì)控開始,以空間數(shù)據(jù)分析結(jié)束既荚。完整介紹了單細(xì)胞數(shù)據(jù)分析的流程:
- 質(zhì)控
- 均一化
- 高變異基因
- 細(xì)胞類型鑒定
- 稀有細(xì)胞類型
- 小鼠細(xì)胞圖譜
- 通路分析
- 擬時(shí)序分析
- 基因共表達(dá)網(wǎng)絡(luò)
- 單細(xì)胞等位基因
- 單細(xì)胞可變剪切
- 單細(xì)胞表觀
- 單細(xì)胞抗體
- 空間轉(zhuǎn)錄組
借題發(fā)揮一下稚失,這里分享一番讀者本人對(duì)單細(xì)胞數(shù)據(jù)分析中的數(shù)據(jù)質(zhì)控的基本看法。這一部分是大部分入門單細(xì)胞數(shù)據(jù)分析第一個(gè)要面臨的困惑:nFeature/mt 的閾值到底設(shè)置多少是合適的恰聘,5%句各,15%還是25%?單細(xì)胞的數(shù)據(jù)質(zhì)控到底有沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)?
答案是還沒有晴叨。
為啥呢凿宾?
這就要回到單細(xì)胞這項(xiàng)技術(shù)解決的基本生物學(xué)問題上來:他回答的就是組織內(nèi)細(xì)胞的異質(zhì)性,什么叫異質(zhì)性兼蕊?另一個(gè)名字叫:不一樣初厚。
以線粒體基因的表達(dá)為例,一開始人們認(rèn)為線粒體基因表達(dá)量高的細(xì)胞狀態(tài)不好遍略,可能瀕臨死亡惧所,這些細(xì)胞需要去除骤坐。隨著研究的深入绪杏,我們發(fā)現(xiàn)有些細(xì)胞類型線粒體基因表達(dá)量確實(shí)比一般的細(xì)胞高,比如神經(jīng)細(xì)胞纽绍。退一步講蕾久,瀕臨死亡的細(xì)胞就不值得被研究了嗎?一些腫瘤組織的線粒體基因確實(shí)較高呀拌夏,你按照5%的閾值去卡僧著,10000個(gè)細(xì)胞還剩下200個(gè)。
再以細(xì)胞周期為例障簿,在一些單細(xì)胞數(shù)據(jù)分析教程里演示了如何回歸掉細(xì)胞周期對(duì)分群的影響盹愚,得出的結(jié)論是:你看我對(duì)細(xì)胞周期進(jìn)行了回歸,這樣細(xì)胞圖普就正常多了站故。然而皆怕,當(dāng)我們研究的是腫瘤細(xì)胞的話,這樣的回歸是否有必要呢西篓?腫瘤的一個(gè)特色就是細(xì)胞周期失控愈腾,一些細(xì)胞周期調(diào)控基因表達(dá)量很高。
另一方面岂津,在數(shù)據(jù)分析的實(shí)踐中虱黄,我們從一個(gè)表達(dá)矩陣中刪除細(xì)胞、亞群吮成、基因是一件很好操作的事情橱乱。但是如果在條件還不是那么明朗的情況下就貿(mào)然刪除掉某些細(xì)胞辜梳,再想把他們加回來就不好操作了:很多分析需要重新做。更重要的是:很多事仅醇,一旦錯(cuò)過了冗美,就不再。
所以單細(xì)胞數(shù)據(jù)質(zhì)控的一個(gè)基本原則是什么:
You cannot stop it if you cannot see it
特別在剛讀入數(shù)據(jù)的那個(gè)晚上析二,對(duì)手里的數(shù)據(jù)局勢(shì)還不是很明朗粉洼,不能以莫須有的名義刪除我們花了大貴價(jià)錢測(cè)來的細(xì)胞或者基因。說人話就是:在最開始的數(shù)據(jù)質(zhì)控中叶摄,我們可以把質(zhì)控條件設(shè)置的寬一些属韧。然后再根據(jù)數(shù)據(jù)分布特征(如小提琴圖)或者基因通路來判斷某些亞群的去留「蛳牛總結(jié)起來就是:
- 具體問題具體分析
- 數(shù)據(jù)質(zhì)控有理有據(jù)
回到咱們這本書上來宵喂,印象最深的內(nèi)容有郭老師參與寫作的scMCA: A Tool to Define Mouse Cell Types Based
on Single-Cell Digital Expression這一章,介紹了小鼠細(xì)胞圖譜以及如何利用它來做細(xì)胞類型的鑒定会傲,也是在那個(gè)時(shí)候開始follow這個(gè)團(tuán)隊(duì)锅棕。
直到現(xiàn)在,我還在是不是翻看這本書淌山,每有會(huì)意往往有得裸燎。
這幾年單細(xì)胞數(shù)據(jù)朝著多組學(xué)、高通量的方向發(fā)展泼疑,單細(xì)胞數(shù)據(jù)分析也沉淀一些經(jīng)典的分析工具德绿,同時(shí)也出現(xiàn)一些新興的實(shí)踐。不變的是我們不斷對(duì)生物學(xué)問題的探索和追問退渗,讓我們一起在這個(gè)快速發(fā)展的領(lǐng)域:荷道以躬移稳,輿之以言。