第07周-時間序列單細胞轉(zhuǎn)錄組數(shù)據(jù)分析

時間序列單細胞轉(zhuǎn)錄組數(shù)據(jù)分析

文章是: Reconstruction of developmental landscapes by optimal-transport analysis of single-cell gene expression sheds light on cellular reprogramming. 雖然于2017年9月公布在了bioRxiv上面秸妥,但是至今仍然沒正式發(fā)表手趣,包含了六萬多個單細胞轉(zhuǎn)錄組數(shù)據(jù)皂甘,持續(xù)追蹤了MEF細胞系誘導(dǎo)為IPSC細胞的動態(tài)變化過程峦椰,并且從發(fā)育的角度分析了這些數(shù)據(jù)

We demonstrate the power of WADDINGTON-OT by applying the approach to study 65,781 scRNA-seq profiles collected at 10 time points over 16 days during reprogramming of fibroblasts to iPSCs.

背景介紹

Waddington提出的發(fā)育景觀

上世紀50年代奄毡,胚胎發(fā)育生物學(xué)家Conrad Hal Waddington提出的發(fā)育景觀假說認為,分化成熟的細胞變回多能干細胞是個不可能發(fā)生的事件负敏。但是日本京都大學(xué)教授山中伸彌于2006年卻發(fā)現(xiàn)并驗證,這種細胞可以發(fā)育成為身體各種組織細胞秘蛇。iPS細胞的發(fā)現(xiàn)成就了目前轟轟烈烈的干細胞研究領(lǐng)域其做,山中伸彌教授也因此獲得2012年諾貝爾生理或醫(yī)學(xué)獎。

iPS (誘導(dǎo)多潛能干細胞)重編程實驗的涌現(xiàn)使人們重新重視了上個世紀50年代胚胎發(fā)育生物學(xué)家Waddington提出的發(fā)育景觀赁还。雖然它只是一個隱喻,但其形象地描述了細胞的自發(fā)的層次分叉過程并隱含了細胞類型之間轉(zhuǎn)換的可能性,從而作為一個整體框架最近被廣泛應(yīng)用來解釋細胞發(fā)育和重編程妖泄。

詳見:https://zhuanlan.zhihu.com/p/25333058

Waddington 在兩個時期提出的假說:

  • initially (1936) illustrated by railroad cars on switching tracks (A)
  • later (1957) by marbles rolling in a landscape (B), with trajectories shaped by hills and valleys.

如圖:

發(fā)育景觀

最優(yōu)傳輸理論

最優(yōu)傳輸理論(Optimal Transport),也叫Monge-Kantorovich Problem秽浇。最早由法國數(shù)學(xué)家Monge提出浮庐,二戰(zhàn)期間由俄國數(shù)學(xué)家Kantorovich推廣后開始迅速發(fā)展,Kantorovich也因他在這個領(lǐng)域做出的貢獻得了1975年的經(jīng)濟學(xué)諾貝爾獎柬焕。

Monge最早提出的問題可以理解為,有一堆土在地點A梭域,現(xiàn)在我們要將這堆土轉(zhuǎn)移到地點B斑举,但是我們運土是要費體力的,怎么搬這些土可以讓我們的體力消耗降到最小病涨。現(xiàn)在我們量化這個問題富玷,將土在地點A的分布稱之為"Initial Distribution",在地點B的分布稱為"Final Distribution"既穆,我們稱消費的體力為Cost赎懦,通過一個"Cost Function"計算得出,每種搬運方案為一個"Mapping"幻工。我們現(xiàn)在要在所有Mapping中尋找Cost最低的那一個励两,這就是最優(yōu)傳輸理論要解決的問題。

可能看完這些囊颅,有的小伙伴還是不太懂搬運方案和Mapping是怎樣一回事当悔。這里解釋一下傅瞻,比如在地點A和地點B的時候,土堆的形狀都要形成一個標準正態(tài)分布 N(0, 1)盲憎,我們"將A土堆中間的土先搬過去形成B土堆的尾巴"和"將A土堆的土直接放到B土堆對應(yīng)位置"所消耗的體力大部分情況下是不一樣的嗅骄,這就是兩種不同的方案對應(yīng)著不同的Cost。

這幾年饼疙,由最優(yōu)傳輸理論衍生出來的"Martingale Optimal Transport"在金融數(shù)學(xué)有不少應(yīng)用溺森,有不少人在研究。簡單的說就是給這些"Mapping"加了個限制窑眯,要求他們必須是"Martingale"屏积。

如圖:

最優(yōu)傳輸

發(fā)育生物學(xué)家感興趣的基本問題

如下:

  • What classes of cells are present at each stage?
  • For the cells in each class, what was their origin at earlier stages, what are their potential fates at later stages, and what is the actual outcome of a given cell?
  • To what extent are events along a path synchronous or asynchronous?
  • What are the genetic regulatory programs that control each path?
  • What are the intercellular interactions between classes of cells?
  • How deterministic or stochastic is the process—that is: if, and how early, does it become determined that a particular cell or an entire cell class is destined to a specific fate?
  • For a given origin and target fate, is there only a single path to the target, or are there multiple developmental paths?
  • To what extent is the process cell-intrinsic, driven by intracellular mechanisms that do not require ongoing external inputs, or externally regulated, being affected by other contemporaneous cells?
  • For artificial processes such as induced reprogramming, there are additional questions: What off-target cell classes arise?
  • To what extent do cells activate normal developmental programs vs. unnatural hybrid programs?
  • How can the efficiency of reprogramming be improved?

示意圖如下;

細胞發(fā)育的未解之謎

然后列舉一些前人在探索這些問題方面的研究成果伸但,指出他們做的還不夠檬某。而單細胞轉(zhuǎn)錄組測序技術(shù)非常強大获列,適合解決這個問題。
單細胞轉(zhuǎn)錄組在探索發(fā)育軌跡這方面也有過一些應(yīng)用了,主要的算法集中于3個:

  • k-nearest neighbor graphs
  • binary trees
  • diffusion maps

他們的缺陷很明顯登颓,有3個:

  • 首先為那些穩(wěn)定的生物學(xué)過程設(shè)計的,比如cell cycle or adult stem cell differentiation
  • 其次哑梳,單細胞本身也是多種生物學(xué)狀態(tài)的疊加盯质,比如cell proliferation and death就會影響那些算法的表現(xiàn)。
  • 最后彪标,大部分模型的假設(shè)限制很大倍权,比如one-dimensional trajectories and zero-dimensional branch points

所以作者把Optimal Transport (OT)的算法,應(yīng)用到了時間序列的單細胞轉(zhuǎn)錄組數(shù)據(jù)來探索發(fā)育的過程捞烟。當然薄声,表現(xiàn)很好的啦,揭示了重編程的分子機理题画。
幾大發(fā)現(xiàn)如下:

  • (1) identifying alternative cell fates, including senescence, apoptosis, neural identity, and placental identity;
  • (2) quantifying the portion of cells in each state at each time point;
  • (3) inferring the probable origin(s) and fate(s) of each cell and cell class at each time point;
  • (4) identifying early molecular markers associated with eventual fates;
  • (5) using trajectory information to identify transcription factors (TFs) associated with the activation of different expression programs.

單細胞轉(zhuǎn)錄組數(shù)據(jù)處理

首先得到表達矩陣

因為是 10X Genomics數(shù)據(jù)默辨,所以直接用官方工具CELLRANGER 即可,過濾后得到
65,781 cells and G = 16, 339 genes 的表達矩陣

然后降維

先過濾掉那些在所有細胞表達沒什么變化的基因苍息,這一步利用的是R包SEURAT的MeanVarPlot函數(shù)缩幸,剩下2076個基因。
然后使用 diffusion component embedding進行降維處理竞思,表谊,這一步利用的是R包 DESTINY。
分析了top100 diffusion components的盖喷,發(fā)現(xiàn)只有top20是顯著的富集到 developmental processes 爆办,所以作者只選取了top 20 diffusion components

可視化

現(xiàn)在剩下了20*65781的矩陣,首先使用R語言的FNN包里面的 fast k-NN algorithm 传蹈,然后利用ForceAtlas2算法計算 force-directed layout on the k-NN graph

單細胞聚類

同樣的剩下了20*65781的矩陣押逼,使用了 Louvain-Jaccard community detection 算法步藕,默認參數(shù)分成33類

image

最優(yōu)傳輸算法

主要就是考量 proliferation score和growth rate,

基因調(diào)控網(wǎng)絡(luò)

自己寫Python腳本做的分析挑格,公式有點多而且有點復(fù)雜咙冗,但是里面提到了Shannon diversity of the transport maps

image

基因表達模塊

使用了Graphical Lasso算法,來自于R包glasso漂彤,還用了R包IGRAPH的Infomap community detection 算法看基因模塊的網(wǎng)絡(luò)結(jié)構(gòu)雾消。
使用HOMER軟件的findGO.pl測序?qū)蚰K注釋到biological signatures
每個基因集合的特征分數(shù)算法就是它里面的所有基因的z-score的平均值。

與3個已有算法比較

見文末

實驗環(huán)節(jié):iPSC

We obtained mouse embryonic fibroblasts (MEFs) from a single female embryo homozygous for ROSA26-M2rtTA, which constitutively expresses a reverse transactivator controlled by doxycycline (Dox)

多西環(huán)素(Doxycycline)挫望,具有抗炎作用,也稱作是強力毒素(doxycycline)立润,a Dox-inducible polycistronic cassette carrying Pou5f1 (Oct4), Klf4, Sox2, and Myc (OKSM), and an EGFP reporter incorporated into the endogenous Oct4 locus (Oct4-IRES-EGFP).

We plated MEFs in serum-containing induction medium, with Dox added on day 0 to induce the OKSM cassette (Phase-1(Dox)).

第八天之后把添加的dox取出來,然后把細胞轉(zhuǎn)移到serum-free N2B27 2i medium (Phase-2(2i)) 和serum (Phase-2(serum)).這兩種培養(yǎng)條件下媳板,直到細胞系表達出內(nèi)源性的Oct4桑腮,認為是重編程成功。

如圖:

實驗環(huán)節(jié)

在各個時間段均測量了好幾千個細胞的表達譜蛉幸,總共65781個細胞破讨。

發(fā)育景觀

作者花了5大段在描述下面的圖:

6萬多細胞的發(fā)育全景圖

可以看到細胞發(fā)育始于第0天,很容易理解奕纫,而且絕大部分的0天細胞都能被聚成一個類提陶,表現(xiàn)為強烈MEF identity的signature信號。但是第二天的Dox處理后匹层,細胞被誘導(dǎo)高表達OKSM cassette隙笆,而且開始轉(zhuǎn)變?yōu)?個不同的clusters,但總體來說這3類都表現(xiàn)很強的增殖信號升筏。

第4天后細胞很明顯朝著兩個不同的方向變化撑柔,這里定義為:Valley of Stress and the Horn of Transformation。

Following Dox withdrawal and media replacement on day 8, the cells in the Horn adopt one of four alternative outcomes by day 12 (senescence, neuronal program, placental program, and pre-iPSCs).

cluster之間的轉(zhuǎn)移

作者提到了we partitioned the 16,339 detected genes into 44 gene modules and the 65,781 cells into 33 cell clusters您访,那這33個cluster分屬于不同的發(fā)育時間乏冀,它們之間的發(fā)育轉(zhuǎn)移關(guān)系如下圖:

image

盡管屬于同一個發(fā)育時間節(jié)點,但是仍然是有發(fā)育快慢等多樣性洋只,同一發(fā)育時間點的不同特性的cluster細胞接下來的命運也差異很大:

By day 4, cells display a bimodal distribution of properties that is strongly correlated with their eventual descendants:

  • cells in cluster 8 (low proliferation, high MEF identity) have 95% of their descendants in the Valley,
  • while cells in cluster 18 (high proliferation, low MEF identity) have 94% of their descendants in the Horn
  • Cells in cluster 7 show intermediate properties and have roughly equal probabilities of each fate

同時挑選了一系列已有的signature來檢查它們在發(fā)育景觀的表現(xiàn):

12個signatures的動態(tài)變化

當然,也檢查了一下marker基因的表達變化情況昼捍,就不截圖了识虚。

重點關(guān)注5類細胞

不同發(fā)育時期的細胞可以分成33類,寫起了太麻煩妒茬,作者挑選了值得講故事的5類細胞:

  • placental-like cells (clusters 24 and 25) at day 12
  • neural-like cells (clusters 26 and 27) at day 16.

還有iPSCs,Senescent cells, Apoptotic cells.

5類細胞

主要也就是提一下他們的特征担锤,高表達哪些基因,它們的來源和去向問題乍钻。

3個其它軟件的效果

wishbone
Molocle2
DPT

這些軟件之所以不適用于作者的這個實驗設(shè)計出來的數(shù)據(jù)肛循,因為沒有考慮到發(fā)育時期這個已知的變量铭腕。

雖然在作者寫作的時候也已經(jīng)出來了一款新的軟件,但測試了多糠,效果也不如作者自己開發(fā)的算法累舷。

后記

這篇文章做的數(shù)據(jù)實在是太大,而且分析要點太多夹孔,涉及到的算法也非常多被盈,實在是沒辦法一一解讀,估計得開一個討論班搭伤,五六個人一起解讀只怎。

比如下面這個課題組就討論過;

課題組討論

(文章轉(zhuǎn)自jimmy的2018年閱讀文獻筆記)

生信基礎(chǔ)知識大全系列:生信基礎(chǔ)知識100講
史上最強的生信自學(xué)環(huán)境準備課來啦A身堡! 7次改版,11節(jié)課程拍鲤,14K的講稿贴谎,30個夜晚打磨,100頁PPT的課程殿漠。
如果需要組裝自己的服務(wù)器赴精;代辦生物信息學(xué)服務(wù)器
如果需要幫忙下載海外數(shù)據(jù)(GEO/TCGA/GTEx等等),點我绞幌?
如果需要線下輔導(dǎo)及培訓(xùn)蕾哟,看招學(xué)徒
如果需要個人電腦:個人計算機推薦
如果需要置辦生物信息學(xué)書籍,看:生信人必備書單
如果需要實習(xí)崗位:實習(xí)職位發(fā)布
如果需要售后:點我
如果需要入門資料大全:點我

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末莲蜘,一起剝皮案震驚了整個濱河市谭确,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌票渠,老刑警劉巖逐哈,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異问顷,居然都是意外死亡昂秃,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門杜窄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來肠骆,“玉大人,你說我怎么就攤上這事塞耕∈赐龋” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵扫外,是天一觀的道長莉钙。 經(jīng)常有香客問我廓脆,道長,這世上最難降的妖魔是什么磁玉? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任停忿,我火速辦了婚禮,結(jié)果婚禮上蜀涨,老公的妹妹穿的比我還像新娘瞎嬉。我一直安慰自己,他們只是感情好厚柳,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布氧枣。 她就那樣靜靜地躺著,像睡著了一般别垮。 火紅的嫁衣襯著肌膚如雪便监。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天碳想,我揣著相機與錄音烧董,去河邊找鬼。 笑死胧奔,一個胖子當著我的面吹牛逊移,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播龙填,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼胳泉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了岩遗?” 一聲冷哼從身側(cè)響起扇商,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎宿礁,沒想到半個月后案铺,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡梆靖,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年控汉,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片返吻。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡暇番,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出思喊,到底是詐尸還是另有隱情,我是刑警寧澤次酌,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布恨课,位于F島的核電站舆乔,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏剂公。R本人自食惡果不足惜希俩,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望纲辽。 院中可真熱鬧颜武,春花似錦、人聲如沸拖吼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽吊档。三九已至篙议,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間怠硼,已是汗流浹背鬼贱。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留香璃,地道東北人这难。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像葡秒,于是被迫代替她去往敵國和親姻乓。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi閱讀 7,292評論 0 10
  • 中級七期 講師四期 分享254天 1同云、此時此刻所想: 我對自己去往何處有擔(dān)憂糖权,在尋找的路上,無論是身體還是心靈炸站; ...
    熙琄細語雪閱讀 267評論 2 0
  • 周五十一點段嚴星澳,培訓(xùn) 周六一下午張世軍,培訓(xùn)
    迷島眾生閱讀 129評論 0 0