單細胞入門-讀一篇scRNA-seq綜述
原創(chuàng): Ruismart [單細胞天地](javascript:void(0);) 2018-03-14
本來想看這篇文章 A general and flexible method for signal extraction from single-cell RNA-seq data.
一種通用趾访、靈活的單細胞轉(zhuǎn)錄組數(shù)據(jù)降維方法潮售,ZINB-WaVE苍息。它使用零膨脹負(fù)二項式模型攻晒,能夠解釋dropout匾旭、超表達和數(shù)據(jù)的自然屬性鹰溜,在穩(wěn)定性和精確性上優(yōu)于PCA和ZIFA歼冰。
對應(yīng)的R包是 zinbwave
嘗試了一下恨樟,發(fā)現(xiàn)hold不住褪那,跳的太快不符合實際的進度,飯還是一口一口吃式塌。
我的目標(biāo)是經(jīng)過很長一段時間的學(xué)習(xí)博敬,能夠真正把這種文章看明白,講清楚峰尝。
兩個月以前偏窝,我就開始零零散散收集一些單細胞的學(xué)習(xí)資料了。
看到Jimmy的文獻分享武学,當(dāng)時是頭大的祭往。
一時不知道如何著手,決定還是自己去試著搜一下最新的綜述來看火窒。
有點多链沼,172篇里挑了幾篇順眼的,從轉(zhuǎn)錄組入手沛鸵。
1. 正文
這篇綜述是 Single-cell RNA sequencing: Technical advancements and biological applications.
隨便挑的括勺,瑞典的一個實驗室。 (差不多就是翻譯一遍啦)
1.1. 實驗
簡單回顧測序技術(shù)的發(fā)展曲掰,從桑格爾發(fā)明雙脫氧末端終止法(一代測序)到人類基因組計劃歷時13年耗費30億美元疾捍,測序一直很貴,直到高通量的邊合成邊測序技術(shù)(二代測序)出現(xiàn)栏妖。隨著測序價格的不斷下降乱豆,2009年開發(fā)出了第一個單細胞轉(zhuǎn)錄組測序方法(湯富酬)。
經(jīng)過8年多時間的發(fā)展吊趾,如今不同的scRNA-seq流程有了大量改進宛裕,它們一般都分為四步:
1. 單細胞(核)的分離和裂解
2. 反轉(zhuǎn)錄
3. cDNA擴增
4. 測序文庫制備
1.1.1. 單細胞分離的步驟至關(guān)重要
除游離細胞外的細胞分離,有兩條路線:
i. 組織切片 - 激光捕獲顯微切割(LCM)或者 膜片鉗(Patch clamp)
ii. 酶法去除細胞間質(zhì) - 各種微操技術(shù)分選出單個細胞(各有優(yōu)劣)
微吸(Micro-pipetting)適用于細胞量少或比較珍貴的樣品论泛,精準(zhǔn)可見揩尸,通量低。
流式細胞分選(FACS)和微流控(Microfluidic)設(shè)備適用大量可用細胞屁奏,通量高岩榆。
· FACS同樣用于篩選特定標(biāo)記的某類細胞,它可能分出不止一個細胞和造成細胞損傷坟瓢。
· 微流控更加溫和勇边,用于高度標(biāo)準(zhǔn)化的自動化流程,缺點是假定細胞損失和細胞大小偏好折联,目前的商用設(shè)備包括10X Genomics的Fluidigm C1系統(tǒng)和Illumina的Biorad SureCell系統(tǒng)(含ddSEQ細胞隔離器)粒褒。
微管平臺(Microwell platforms)能夠消除細胞大小偏好,也可以通過顯微觀察排除分出多個細胞的情況诚镰,商用設(shè)備有WaferGen的ICELL8單細胞系統(tǒng)奕坟。
多數(shù)單細胞收集方法都要求樣品是完好的新鮮組織祥款,因為微環(huán)境的改變影響正常細胞過程;酶促反應(yīng)也可能使細胞產(chǎn)生應(yīng)激执赡,從而改變基因表達镰踏。有一個辦法來避免這些問題函筋,那就是只收集細胞核沙合,細胞核包含未加工的mRNA和很少的mRNA。細胞核很黏跌帐,目前只有FACS能做到這一點首懈。
1.1.2. 反轉(zhuǎn)錄
大部分公開的流程都是使用oligodT引物,可以捕獲到具有多聚結(jié)構(gòu)的mRNA和少部分lncRNA谨敛。
SUPeR-seq使用了混合oligodT和六堿基隨機引物的方法究履,然而它沒有去除rRNA卻只檢測到很少的rRNA,猜測是沒有把二級結(jié)構(gòu)打開脸狸。
MATQ-seq最近被報道比Smart-seq2更靈敏最仑,產(chǎn)量更高。它是基于MALBAC引物設(shè)計的炊甲,能做到全基因覆蓋泥彤,檢測總RNA。
1.1.3. cDNA擴增
反轉(zhuǎn)錄結(jié)束后卿啡,有多種策略合成第二條cDNA鏈
一種是SMART技術(shù)(switching mechanism at 5' end of RNA template)
這個系列包括Smart-seq吟吝,Smart-seq2,STRT颈娜,利用轉(zhuǎn)移酶和小鼠白血病病毒反轉(zhuǎn)錄酶來進行鏈置換并加上后續(xù)PCR擴增的接頭剑逃。
PCR是常用的指數(shù)擴增技術(shù),很容易因為GC含量的差異造成擴增偏倚官辽。
另一種就利用了體外轉(zhuǎn)錄的方式(IVT)進行線性擴增
這個系列包括CEL-seq蛹磺,MARS-seq,CEL-seq2同仆,通過將T7啟動子連在oligodT引物上称开,可以在cDNA合成后啟動IVT。IVT取消了對模板置換的需求乓梨。
另外鳖轰,MALBAC-RNA使用準(zhǔn)線性擴增,它的引物能生成末端互補的擴增子扶镀,形成閉環(huán)來防止指數(shù)復(fù)制蕴侣。
1.1.4. 方法選擇以及測多少細胞
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box; word-wrap: break-word !important; font-size: 0.7em; color: rgb(153, 153, 153); line-height: inherit; text-align: center;">mark</figcaption>
不同的技術(shù)流程按照cDNA覆蓋大致可以分為兩類:全長(full-length)和基于標(biāo)簽(tag-based)。
全長的方法試圖得到基因體均勻讀長覆蓋并增加匹配序列數(shù)臭觉,更適合亞型發(fā)現(xiàn)昆雀、剪切事件辱志、SNP鑒定等等分析。一大缺陷是建庫通量較低狞膘,難以混樣測序揩懒。更重要的是,它不能結(jié)合UMIs(unique molecule identifiers)來進行數(shù)字量化挽封。有一個例外已球,MATQ-seq可以把barcodes和UMIs整合到MALBAC引物上,從而克服這個缺陷辅愿。
基于標(biāo)簽的方法可以繼續(xù)細分成5'還是3'智亮,主要優(yōu)點是能結(jié)合UMIs,可以混合多個樣品点待,允許基因水平的定量優(yōu)化阔蛉。因為讀長被限制在序列一端,相對而言靈敏度較低癞埠,大部分僅用于基因表達定量状原。
選擇什么方法取決于要回答的生物學(xué)問題。如果是發(fā)現(xiàn)細胞類型和鑒別組織成分苗踪,兩種方法都可以颠区。基于標(biāo)簽的方法可以在反轉(zhuǎn)錄之后把所有樣品混在一起徒探,價格更便宜規(guī)耐吆簦可以更大。如果是等位基因表達测暗、不同亞型的發(fā)現(xiàn)央串,全長的方法更加合適。這些方法中碗啄,Smart-seq2在靈敏度和產(chǎn)量上都表現(xiàn)出眾质和,不過要用到Tn5,比較貴稚字,如果有很多很多的細胞要測饲宿,比如4000個,那么Drop-seq也是很好的選擇胆描。
關(guān)于靈敏度瘫想,需要考慮測序深度。這些方法都有一個共同點昌讲,當(dāng)一個樣品測到1M reads之后国夜,靈敏度開始變得比較穩(wěn)定,從1M reads 測到 4.5M reads短绸,靈敏度只略微提升车吹。
需要多少細胞的數(shù)據(jù)用來分析筹裕,取決于細胞類型的罕見程度。
Nicholas E. Navin提供了一個計算公式 P(d) =1-(1-s)^n
P(d):檢出能力(detection power) s:等同于亞克隆頻率(subclonal frequency) n:要測的細胞數(shù)
如果感興趣的細胞亞型占比約為1%窄驹,需要測250個細胞使檢出能力達到0.9朝卒,需要測500個細胞使檢出能力達到1.0。另外也需要做重復(fù)實驗來評估假陽性率和假陰性率乐埠。
需要的細胞數(shù)和必要的測序深度同樣依賴于感興趣的細胞與其他細胞的差異程度抗斤,如果這種細胞有非常獨特的轉(zhuǎn)錄特征,那么測的細胞數(shù)少一點饮戳,測序深度淺一點也是可以的豪治。
1.1.5. scRNA-seq的技術(shù)挑戰(zhàn)
SingleCell的問題:細胞與細胞之間有很強的異質(zhì)性洞拨。
只有一個細胞扯罐,初始數(shù)據(jù)量就小,噪音就大烦衣。
RNA捕獲效率不穩(wěn)定歹河,文庫制備的隨機丟失會制造技術(shù)噪音。
隨機基因表達花吟,不同的細胞狀態(tài)細胞大小細胞周期會產(chǎn)生生物噪音秸歧。
批次效應(yīng)使高通量的實驗數(shù)據(jù)存在系統(tǒng)誤差。
認(rèn)真規(guī)劃實驗步驟衅澈,作多次生物學(xué)重復(fù)可以降低批次效應(yīng)键菱,然而生物樣品的遺傳背景是很難通過實驗步驟來控制的。
鑒定批次效應(yīng)的一個辦法是通過主成分分析(PCA)今布,看細胞是否會按照相應(yīng)的起源進行分群经备。
為了解釋技術(shù)操作帶來的誤差,通常加入外源的RNA進行質(zhì)控部默。不同濃度侵蒙、長度、GC含量的合成RNA可以起到監(jiān)控作用傅蹂。
但是外源樣品與內(nèi)源RNA的分子特征并不會完全相同纷闺,對照作用有限。
怎么減少RNA損失份蝴,使信息能夠保真是scRNA-seq的關(guān)鍵性挑戰(zhàn)犁功,測序結(jié)果仍需要謹(jǐn)慎對待,推薦做功能性驗證婚夫。
1.2. 應(yīng)用
過去幾年浸卦,scRNA-seq已被應(yīng)用于發(fā)現(xiàn)新的細胞類型,探索動態(tài)發(fā)育過程请敦,鑒定基因調(diào)控機制镐躲,揭示隨機等位基因表達储玫。
這篇綜述只著重介紹了胚胎植入前發(fā)育和大腦皮層,在這兩個方向上scRNA-seq有了巨大的概念性發(fā)展萤皂。
1.2.1. 胚胎植入前發(fā)育
生命起源于一個受精卵撒穷,受精卵的分化過程受轉(zhuǎn)錄水平調(diào)控形成三個主要的細胞譜系。這個過程里有幾個長期存在的問題:1. 單個卵裂球之間是何時出現(xiàn)差異的裆熙?2. 三個細胞譜系如何及時分離端礼?3. 胚胎基因組是何時激活的?4. 早期的規(guī)范化事件是否存在物種間差異入录?
scRNA-seq為這些問題的解答提供了新的思路蛤奥。早先對小鼠胚胎的早期卵裂球進行實驗操作(包括增、減單個細胞)僚稿,都不會影響到胚胎發(fā)育凡桥,表明早期卵裂球會經(jīng)歷一個調(diào)節(jié)發(fā)育(受到感應(yīng)信號可以變成任何細胞類型)。然而scRNA-seq的結(jié)果顯示蚀同,早在四分體時期缅刽,卵裂球間已經(jīng)存在分子不對稱了。后來通過比較滋養(yǎng)外胚層(TE)和內(nèi)細胞團(ICM)的細胞命運蠢络,鑒定出Sox21基因在四分體時期存在穩(wěn)定的異質(zhì)表達衰猛,并且影響后代細胞的分化路線。在植入前發(fā)育的各個階段刹孔,通過scRNA-seq可以得到一個全過程的基因動態(tài)表達視圖啡省,跨物種數(shù)據(jù)比較發(fā)現(xiàn)人和小鼠的胚胎發(fā)育存在很多的生物學(xué)差異,如胚胎基因激活時間髓霞,細胞譜系建立時期卦睹,等位基因特異性表達情況等等。對人類胚胎細胞進行具體的功能研究比較困難酸茴,后面換成了相近的獼猴細胞分预。
1.2.2. 小鼠大腦皮層
在神經(jīng)系統(tǒng)科學(xué)領(lǐng)域,對所有哺乳動物的神經(jīng)細胞進行系統(tǒng)性分類是一個長期的目標(biāo)。理解大腦的細胞構(gòu)成有助于破譯它的功能和連接性。不同的研究表明钦听,對來自小鼠大腦不同區(qū)域的細胞做scRNA-seq矿瘦,進行細胞分群,發(fā)現(xiàn)中間神經(jīng)元具有更大的異質(zhì)性,暗示中間神經(jīng)元細胞具備更加復(fù)雜多樣的功能。通過基因表達譜得到的細胞類型分類是否顯著關(guān)聯(lián)不同的功能性質(zhì)還有待進一步的研究,這些實驗的方法都顯示有一定的偏好性救赐。
為了讓基因表達直接關(guān)聯(lián)解剖、形態(tài)、功能的屬性经磅,兩個實驗室同時開發(fā)出了Patch-seq泌绣,這個技術(shù)把全細胞電生理膜片鉗記錄與scRNA-seq相結(jié)合。
其中一個實驗室結(jié)合膜片鉗和Smart-seq2预厌,在新皮質(zhì)L1外層分析了58個皮層細胞阿迈,這項研究首次使用了機器學(xué)習(xí)以不同的放電模式來進行細胞形態(tài)分類,結(jié)果跟來自基因表達譜的分群結(jié)果對應(yīng)的很好轧叽。58個細胞分出兩種細胞亞型苗沧,eNGCs和SBCs,重要的是炭晒,發(fā)現(xiàn)SBCs富集了四個神經(jīng)精神病相關(guān)的基因待逞。
另一項研究使用膜片鉗和STRT-seq,在軀體感覺皮質(zhì)的1/2層分析了45個中間神經(jīng)元和38個椎體神經(jīng)元細胞网严,根據(jù)電生理性質(zhì)和形態(tài)识樱,分為5個亞型和3個亞型。這八個亞型跟scRNA-seq鑒定到的分群結(jié)果相吻合屿笼,從而確認(rèn)了Patch-seq方法的有效性牺荠。
Patch-seq的分析適用于離子通道和受體基因研究翁巍,可以預(yù)測神經(jīng)生理學(xué)表型驴一。跟鮮活細胞的scRNA-seq相比,Patch-seq捕獲到的基因顯然更少灶壶,通量相對更低肝断,然而正因為有不同的單細胞測序方法,使得從單細胞尺度上深入分析分子特征驰凛、形態(tài)和異常復(fù)雜組織的功能成為可能胸懈。
1.3. 未來展望
1.3.1. 空間轉(zhuǎn)錄組
單分子原位熒光雜交技術(shù)(smFISH)在2008年被開發(fā)出來,用作單細胞尺度的組織RNA定量恰响,它使用帶熒光基團的20bp核酸探針趣钱。這項技術(shù)最初高度受限于能夠同時檢測到的轉(zhuǎn)錄本數(shù)量,后來引入分組探針文庫的組合標(biāo)簽克服了這一缺陷胚宦。隨著七種光轉(zhuǎn)換染料和空間條碼結(jié)合超分辨顯微技術(shù)的使用首有,能夠同時檢測到的基因數(shù)進一步增加。高分辨率的顯微鏡能夠識別結(jié)合了同一種探針實際序列不同的mRNA枢劝。接著井联,通過使用順序輪的雜交、成像您旁、探針剝離來給mRNA加條碼烙常,繼續(xù)優(yōu)化了該方法。smFISH的一大優(yōu)勢是雜交效率很高鹤盒,能夠檢測到95%的mRNA蚕脏。smFISH適用于剪切變異侦副、染色體位點以及SNP。類似的驼鞭,熒光原位RNA測序(FISSEQ)也使用基因特異的探針來讀取空間基因表達跃洛。跟smFISH明顯不同的是,F(xiàn)ISSEQ的reads比RNA-seq還少很多终议,豐度不夠汇竭。總體上看穴张,以上這些原位熒光的方法想要覆蓋整個轉(zhuǎn)錄組细燎,都比較費時費力。
使用LCM的單細胞空間轉(zhuǎn)錄組方法已經(jīng)被開發(fā)出來了皂甘。LCM可以從速凍組織切片中仔細分離出單個細胞玻驻,分辨率能達到亞細胞水平。LCM適用于任何胚胎和成熟時期偿枕,特別是那些難以分離的組織璧瞬。通過簡單的組織染色或者快速的抗體染色可以鑒定出感興趣的細胞。LCM最初是與全轉(zhuǎn)錄組基因芯片結(jié)合渐夸,然后是RNA-seq嗤锉,直到現(xiàn)在,需要的細胞數(shù)也是數(shù)百上千墓塌。結(jié)合scRNA-seq和LCM的LCM-seq瘟忱,通過直接裂解分離的細胞,消除通常是在LCM之后的RNA隔離步驟苫幢,可以簡化流程访诱,降低技術(shù)噪音,減少費用韩肝。同時每個細胞的空間信息都保留了下來并且不需要組織分離步驟触菜,從而能夠在單細胞水平同時研究細胞異質(zhì)性和空間差異。保留空間信息的重要性不應(yīng)該被低估它可能是組織內(nèi)細胞識別的關(guān)鍵性因素哀峻。此外涡相,因為細胞在分離前保留了原有位置的連接信息,比起需要進行組織裂解的測序方法谜诫,更能夠反映生物體內(nèi)的真實情況漾峡。LCM-seq另一個優(yōu)勢是可以用于缺損和部分退化的組織。然而喻旷,至今為止的一大缺陷是RNA有一些片段化生逸,即使處理的時間很短也一樣,所以覆蓋度比起鮮活細胞要低,不能作RNA剪切的深入分析槽袄。LCM染色的后續(xù)優(yōu)化有可能克服這一障礙烙无。
一種叫作”空間轉(zhuǎn)錄組(spatial transcriptomics)“的優(yōu)雅方法近期被開發(fā)出來,能夠不分離細胞直接使用完整的組織切片進行轉(zhuǎn)錄組分析遍尺。組織切片被放置在slide上截酷,使用含有獨特空間條碼標(biāo)記的反轉(zhuǎn)錄引物。 slide上布滿直徑100微米間隔200微米的孔乾戏,孔內(nèi)有接近兩億個寡核苷酸探針迂苛。組織經(jīng)過通透性處理后加上反轉(zhuǎn)錄試劑,組織最終會被酶解鼓择,留下cDNA與slide上排列的探針結(jié)合三幻。這種方法的分辨率很高,100微米呐能,對于整體空間信息的接收在時間上非常高效念搬。但是不容易顯示出細胞的異質(zhì)性,因為細胞大小的差異摆出,這種方法只能展示出特定二維坐標(biāo)下單一或多個圖層的空間信息朗徊。
1.3.2. 單細胞多組學(xué)
測序技術(shù)目前已經(jīng)能夠從同一個細胞中獲取基因組、表觀組偎漫、轉(zhuǎn)錄組和蛋白組的情況爷恳。因此,可以整合每個細胞的DNA骑丸、RNA舌仍、蛋白還有表觀修飾的信息得到一個綜合的理解。為了這個目的開發(fā)的方法有:DR-seq和G&T-seq通危,同時分析基因組和轉(zhuǎn)錄組;scTrio-seq灌曙,基因組菊碟、轉(zhuǎn)錄組和甲基化譜;scM&T-seq在刺,轉(zhuǎn)錄組和甲基化譜逆害;PEA-qPCR,蛋白和一個基因panel蚣驼。同時研究基因組和轉(zhuǎn)錄組可以在基因表達水平關(guān)聯(lián)CNV魄幕、染色體融合和調(diào)控因子的SNV。還可以揭示克隆結(jié)構(gòu)和細胞亞型颖杏,直接聯(lián)系基因型和表型纯陨。另一方面,結(jié)合轉(zhuǎn)錄組和甲基化分析,可以知道單細胞中基因組不同功能因子的DNA甲基化水平與基因表達水平的關(guān)系翼抠。未來把總RNA咙轩,小RNA,染色體重組和高級結(jié)構(gòu)結(jié)合到單細胞多組學(xué)里阴颖,可以更加詳細的描述正常細胞功能和疾病過程活喊。
另一個新興的前沿研究是結(jié)合系統(tǒng)基因功能分析和scRNA-seq分析。
1.3.3. 人類細胞圖譜和精準(zhǔn)醫(yī)學(xué)
2016年一群世界領(lǐng)先的科學(xué)家開啟了人類細胞圖譜計劃(Human Cell Atlas)量愧,目前已經(jīng)包括了免疫系統(tǒng)钾菊、中樞神經(jīng)系統(tǒng)、上皮組織偎肃、胚胎細胞和癌癥结缚。這個計劃將會提供一個囊括了細胞類型、標(biāo)記基因软棺、信號通路和調(diào)控機制的綜合參考視圖红竭,給不同個體和疾病的組織帶來更好的生物靶標(biāo)識別和藥物標(biāo)靶,從而進一步發(fā)展精準(zhǔn)醫(yī)學(xué)喘落。
1.3.4. 把轉(zhuǎn)錄水平的差異關(guān)聯(lián)到細胞類型和功能
scRNA-seq的數(shù)據(jù)已經(jīng)表明茵宪,在大腦不同區(qū)域和不同的組織,細胞間的異質(zhì)性比之前預(yù)計的還要大瘦棋。面前更艱巨的任務(wù)是從功能上評估RNA成分的異質(zhì)性具體在何種程度上影響了相關(guān)細胞表現(xiàn)出不同的功能稀火。大部分的scRNA-seq研究對此有所描述,仍未清楚的是赌朋,多大程度的轉(zhuǎn)錄組差異會導(dǎo)致細胞功能的區(qū)別凰狞,使細胞成為不同的類型而不是同類型細胞的不同可選狀態(tài)。某(幾)種轉(zhuǎn)錄本的表達量積累到什么水平能夠看到明顯的細胞功能改變沛慢?這取決于該基因的功能以及其他的基因表達赡若,還取決于特定轉(zhuǎn)錄本的穩(wěn)定性和半衰期。不經(jīng)過功能測試就將功能與轉(zhuǎn)錄水平關(guān)聯(lián)起來不是一個簡單的任務(wù)团甲。無論如何逾冬,細胞和分子生物、生物化學(xué)躺苦、生理學(xué)以及數(shù)學(xué)模型的結(jié)合身腻,將來肯定能夠解答革命性的scRNA-seq技術(shù)還不能回答的問題。單細胞技術(shù)在未來的生物功能注釋中將會是不可或缺的工具匹厘。
1.4. 分析
這篇綜述沒有提到具體的數(shù)據(jù)分析嘀趟。
看完之后,了解了一些概念愈诚,有了大致的輪廓她按,盡管還是很菜牛隅,感覺沒有一開始那么迷茫了。