時間序列單細胞轉(zhuǎn)錄組數(shù)據(jù)分析
文章是: Reconstruction of developmental landscapes by optimal-transport analysis of single-cell gene expression sheds light on cellular reprogramming. 雖然于2017年9月公布在了bioRxiv上面秸妥,但是至今仍然沒正式發(fā)表手趣,包含了六萬多個單細胞轉(zhuǎn)錄組數(shù)據(jù)皂甘,持續(xù)追蹤了MEF細胞系誘導(dǎo)為IPSC細胞的動態(tài)變化過程峦椰,并且從發(fā)育的角度分析了這些數(shù)據(jù)
We demonstrate the power of WADDINGTON-OT by applying the approach to study 65,781 scRNA-seq profiles collected at 10 time points over 16 days during reprogramming of fibroblasts to iPSCs.
背景介紹
Waddington提出的發(fā)育景觀
上世紀50年代奄毡,胚胎發(fā)育生物學(xué)家Conrad Hal Waddington提出的發(fā)育景觀假說認為,分化成熟的細胞變回多能干細胞是個不可能發(fā)生的事件负敏。但是日本京都大學(xué)教授山中伸彌于2006年卻發(fā)現(xiàn)并驗證,這種細胞可以發(fā)育成為身體各種組織細胞秘蛇。iPS細胞的發(fā)現(xiàn)成就了目前轟轟烈烈的干細胞研究領(lǐng)域其做,山中伸彌教授也因此獲得2012年諾貝爾生理或醫(yī)學(xué)獎。
iPS (誘導(dǎo)多潛能干細胞)重編程實驗的涌現(xiàn)使人們重新重視了上個世紀50年代胚胎發(fā)育生物學(xué)家Waddington提出的發(fā)育景觀赁还。雖然它只是一個隱喻,但其形象地描述了細胞的自發(fā)的層次分叉過程并隱含了細胞類型之間轉(zhuǎn)換的可能性,從而作為一個整體框架最近被廣泛應(yīng)用來解釋細胞發(fā)育和重編程妖泄。
詳見:https://zhuanlan.zhihu.com/p/25333058
Waddington 在兩個時期提出的假說:
- initially (1936) illustrated by railroad cars on switching tracks (A)
- later (1957) by marbles rolling in a landscape (B), with trajectories shaped by hills and valleys.
如圖:
最優(yōu)傳輸理論
最優(yōu)傳輸理論(Optimal Transport),也叫Monge-Kantorovich Problem秽浇。最早由法國數(shù)學(xué)家Monge提出浮庐,二戰(zhàn)期間由俄國數(shù)學(xué)家Kantorovich推廣后開始迅速發(fā)展,Kantorovich也因他在這個領(lǐng)域做出的貢獻得了1975年的經(jīng)濟學(xué)諾貝爾獎柬焕。
Monge最早提出的問題可以理解為,有一堆土在地點A梭域,現(xiàn)在我們要將這堆土轉(zhuǎn)移到地點B斑举,但是我們運土是要費體力的,怎么搬這些土可以讓我們的體力消耗降到最小病涨。現(xiàn)在我們量化這個問題富玷,將土在地點A的分布稱之為"Initial Distribution",在地點B的分布稱為"Final Distribution"既穆,我們稱消費的體力為Cost赎懦,通過一個"Cost Function"計算得出,每種搬運方案為一個"Mapping"幻工。我們現(xiàn)在要在所有Mapping中尋找Cost最低的那一個励两,這就是最優(yōu)傳輸理論要解決的問題。
可能看完這些囊颅,有的小伙伴還是不太懂搬運方案和Mapping是怎樣一回事当悔。這里解釋一下傅瞻,比如在地點A和地點B的時候,土堆的形狀都要形成一個標準正態(tài)分布 N(0, 1)盲憎,我們"將A土堆中間的土先搬過去形成B土堆的尾巴"和"將A土堆的土直接放到B土堆對應(yīng)位置"所消耗的體力大部分情況下是不一樣的嗅骄,這就是兩種不同的方案對應(yīng)著不同的Cost。
這幾年饼疙,由最優(yōu)傳輸理論衍生出來的"Martingale Optimal Transport"在金融數(shù)學(xué)有不少應(yīng)用溺森,有不少人在研究。簡單的說就是給這些"Mapping"加了個限制窑眯,要求他們必須是"Martingale"屏积。
如圖:
發(fā)育生物學(xué)家感興趣的基本問題
如下:
- What classes of cells are present at each stage?
- For the cells in each class, what was their origin at earlier stages, what are their potential fates at later stages, and what is the actual outcome of a given cell?
- To what extent are events along a path synchronous or asynchronous?
- What are the genetic regulatory programs that control each path?
- What are the intercellular interactions between classes of cells?
- How deterministic or stochastic is the process—that is: if, and how early, does it become determined that a particular cell or an entire cell class is destined to a specific fate?
- For a given origin and target fate, is there only a single path to the target, or are there multiple developmental paths?
- To what extent is the process cell-intrinsic, driven by intracellular mechanisms that do not require ongoing external inputs, or externally regulated, being affected by other contemporaneous cells?
- For artificial processes such as induced reprogramming, there are additional questions: What off-target cell classes arise?
- To what extent do cells activate normal developmental programs vs. unnatural hybrid programs?
- How can the efficiency of reprogramming be improved?
示意圖如下;
然后列舉一些前人在探索這些問題方面的研究成果伸但,指出他們做的還不夠檬某。而單細胞轉(zhuǎn)錄組測序技術(shù)非常強大获列,適合解決這個問題。
單細胞轉(zhuǎn)錄組在探索發(fā)育軌跡這方面也有過一些應(yīng)用了,主要的算法集中于3個:
- k-nearest neighbor graphs
- binary trees
- diffusion maps
他們的缺陷很明顯登颓,有3個:
- 首先為那些穩(wěn)定的生物學(xué)過程設(shè)計的,比如cell cycle or adult stem cell differentiation
- 其次哑梳,單細胞本身也是多種生物學(xué)狀態(tài)的疊加盯质,比如cell proliferation and death就會影響那些算法的表現(xiàn)。
- 最后彪标,大部分模型的假設(shè)限制很大倍权,比如one-dimensional trajectories and zero-dimensional branch points
所以作者把Optimal Transport (OT)的算法,應(yīng)用到了時間序列的單細胞轉(zhuǎn)錄組數(shù)據(jù)來探索發(fā)育的過程捞烟。當然薄声,表現(xiàn)很好的啦,揭示了重編程的分子機理题画。
幾大發(fā)現(xiàn)如下:
- (1) identifying alternative cell fates, including senescence, apoptosis, neural identity, and placental identity;
- (2) quantifying the portion of cells in each state at each time point;
- (3) inferring the probable origin(s) and fate(s) of each cell and cell class at each time point;
- (4) identifying early molecular markers associated with eventual fates;
- (5) using trajectory information to identify transcription factors (TFs) associated with the activation of different expression programs.
單細胞轉(zhuǎn)錄組數(shù)據(jù)處理
首先得到表達矩陣
因為是 10X Genomics數(shù)據(jù)默辨,所以直接用官方工具CELLRANGER 即可,過濾后得到
65,781 cells and G = 16, 339 genes 的表達矩陣
然后降維
先過濾掉那些在所有細胞表達沒什么變化的基因苍息,這一步利用的是R包SEURAT的MeanVarPlot函數(shù)缩幸,剩下2076個基因。
然后使用 diffusion component embedding進行降維處理竞思,表谊,這一步利用的是R包 DESTINY。
分析了top100 diffusion components的盖喷,發(fā)現(xiàn)只有top20是顯著的富集到 developmental processes 爆办,所以作者只選取了top 20 diffusion components
可視化
現(xiàn)在剩下了20*65781的矩陣,首先使用R語言的FNN包里面的 fast k-NN algorithm 传蹈,然后利用ForceAtlas2算法計算 force-directed layout on the k-NN graph
單細胞聚類
同樣的剩下了20*65781的矩陣押逼,使用了 Louvain-Jaccard community detection 算法步藕,默認參數(shù)分成33類
最優(yōu)傳輸算法
主要就是考量 proliferation score和growth rate,
基因調(diào)控網(wǎng)絡(luò)
自己寫Python腳本做的分析挑格,公式有點多而且有點復(fù)雜咙冗,但是里面提到了Shannon diversity of the transport maps
基因表達模塊
使用了Graphical Lasso算法,來自于R包glasso漂彤,還用了R包IGRAPH的Infomap community detection 算法看基因模塊的網(wǎng)絡(luò)結(jié)構(gòu)雾消。
使用HOMER軟件的findGO.pl測序?qū)蚰K注釋到biological signatures
每個基因集合的特征分數(shù)算法就是它里面的所有基因的z-score的平均值。
與3個已有算法比較
見文末
實驗環(huán)節(jié):iPSC
We obtained mouse embryonic fibroblasts (MEFs) from a single female embryo homozygous for ROSA26-M2rtTA, which constitutively expresses a reverse transactivator controlled by doxycycline (Dox)
多西環(huán)素(Doxycycline)挫望,具有抗炎作用,也稱作是強力毒素(doxycycline)立润,a Dox-inducible polycistronic cassette carrying Pou5f1 (Oct4), Klf4, Sox2, and Myc (OKSM), and an EGFP reporter incorporated into the endogenous Oct4 locus (Oct4-IRES-EGFP).
We plated MEFs in serum-containing induction medium, with Dox added on day 0 to induce the OKSM cassette (Phase-1(Dox)).
第八天之后把添加的dox取出來,然后把細胞轉(zhuǎn)移到serum-free N2B27 2i medium (Phase-2(2i)) 和serum (Phase-2(serum)).這兩種培養(yǎng)條件下媳板,直到細胞系表達出內(nèi)源性的Oct4桑腮,認為是重編程成功。
如圖:
在各個時間段均測量了好幾千個細胞的表達譜蛉幸,總共65781個細胞破讨。
發(fā)育景觀
作者花了5大段在描述下面的圖:
可以看到細胞發(fā)育始于第0天,很容易理解奕纫,而且絕大部分的0天細胞都能被聚成一個類提陶,表現(xiàn)為強烈MEF identity的signature信號。但是第二天的Dox處理后匹层,細胞被誘導(dǎo)高表達OKSM cassette隙笆,而且開始轉(zhuǎn)變?yōu)?個不同的clusters,但總體來說這3類都表現(xiàn)很強的增殖信號升筏。
第4天后細胞很明顯朝著兩個不同的方向變化撑柔,這里定義為:Valley of Stress and the Horn of Transformation。
Following Dox withdrawal and media replacement on day 8, the cells in the Horn adopt one of four alternative outcomes by day 12 (senescence, neuronal program, placental program, and pre-iPSCs).
cluster之間的轉(zhuǎn)移
作者提到了we partitioned the 16,339 detected genes into 44 gene modules and the 65,781 cells into 33 cell clusters您访,那這33個cluster分屬于不同的發(fā)育時間乏冀,它們之間的發(fā)育轉(zhuǎn)移關(guān)系如下圖:
盡管屬于同一個發(fā)育時間節(jié)點,但是仍然是有發(fā)育快慢等多樣性洋只,同一發(fā)育時間點的不同特性的cluster細胞接下來的命運也差異很大:
By day 4, cells display a bimodal distribution of properties that is strongly correlated with their eventual descendants:
- cells in cluster 8 (low proliferation, high MEF identity) have 95% of their descendants in the Valley,
- while cells in cluster 18 (high proliferation, low MEF identity) have 94% of their descendants in the Horn
- Cells in cluster 7 show intermediate properties and have roughly equal probabilities of each fate
同時挑選了一系列已有的signature來檢查它們在發(fā)育景觀的表現(xiàn):
當然,也檢查了一下marker基因的表達變化情況昼捍,就不截圖了识虚。
重點關(guān)注5類細胞
不同發(fā)育時期的細胞可以分成33類,寫起了太麻煩妒茬,作者挑選了值得講故事的5類細胞:
- placental-like cells (clusters 24 and 25) at day 12
- neural-like cells (clusters 26 and 27) at day 16.
還有iPSCs,Senescent cells, Apoptotic cells.
主要也就是提一下他們的特征担锤,高表達哪些基因,它們的來源和去向問題乍钻。
3個其它軟件的效果
這些軟件之所以不適用于作者的這個實驗設(shè)計出來的數(shù)據(jù)肛循,因為沒有考慮到發(fā)育時期這個已知的變量铭腕。
雖然在作者寫作的時候也已經(jīng)出來了一款新的軟件,但測試了多糠,效果也不如作者自己開發(fā)的算法累舷。
后記
這篇文章做的數(shù)據(jù)實在是太大,而且分析要點太多夹孔,涉及到的算法也非常多被盈,實在是沒辦法一一解讀,估計得開一個討論班搭伤,五六個人一起解讀只怎。
比如下面這個課題組就討論過;
(文章轉(zhuǎn)自jimmy的2018年閱讀文獻筆記)
生信基礎(chǔ)知識大全系列:生信基礎(chǔ)知識100講
史上最強的生信自學(xué)環(huán)境準備課來啦A身堡! 7次改版,11節(jié)課程拍鲤,14K的講稿贴谎,30個夜晚打磨,100頁PPT的課程殿漠。
如果需要組裝自己的服務(wù)器赴精;代辦生物信息學(xué)服務(wù)器
如果需要幫忙下載海外數(shù)據(jù)(GEO/TCGA/GTEx等等),點我绞幌?
如果需要線下輔導(dǎo)及培訓(xùn)蕾哟,看招學(xué)徒
如果需要個人電腦:個人計算機推薦
如果需要置辦生物信息學(xué)書籍,看:生信人必備書單
如果需要實習(xí)崗位:實習(xí)職位發(fā)布
如果需要售后:點我
如果需要入門資料大全:點我