回顧一下:什么是單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)飘蚯?
細(xì)胞異質(zhì)性是生物組織的普遍特征统翩。由于傳統(tǒng)的轉(zhuǎn)錄組測(cè)序(RNA-Seq)技術(shù)的測(cè)序水平是在個(gè)體或群體水平上對(duì)數(shù)萬個(gè)細(xì)胞進(jìn)行轉(zhuǎn)錄組測(cè)序,因此傳統(tǒng)轉(zhuǎn)錄組測(cè)序技術(shù)的測(cè)序結(jié)果就只能檢測(cè)到個(gè)體間或者群體間的轉(zhuǎn)錄組差異,而細(xì)胞間的轉(zhuǎn)錄差異則無法精確地檢測(cè)到未玻。而單細(xì)胞轉(zhuǎn)錄組技術(shù)則提供了一種在單個(gè)細(xì)胞水平進(jìn)行高通量轉(zhuǎn)錄組測(cè)序的一項(xiàng)新技術(shù),能夠有效解決細(xì)胞間轉(zhuǎn)錄組異質(zhì)性以細(xì)胞群間轉(zhuǎn)錄組異質(zhì)性的難題胡控。
單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析的難點(diǎn)主要在于細(xì)胞的質(zhì)量不確定扳剿,細(xì)胞的數(shù)量大,從單細(xì)胞測(cè)序技術(shù)誕生至今昼激,測(cè)到的細(xì)胞通量越來越高庇绽,現(xiàn)在一次單細(xì)胞轉(zhuǎn)錄組測(cè)到的細(xì)胞數(shù)可達(dá)100K~200K[1]锡搜。因而,對(duì)分析人員的要求也越來越高瞧掺。
雖然單細(xì)胞轉(zhuǎn)錄組的分析不容易耕餐,但依然是有清晰的流程噠(見下圖):
接下來我們一起看看,每一步都需要做些啥辟狈。
01測(cè)序原始數(shù)據(jù)的處理
測(cè)序原始數(shù)據(jù)通常指測(cè)序下機(jī)得到的fastq文件肠缔,需要經(jīng)過一定的處理,將其中我們需要的信息哼转,如barcode明未,UMI以及基因的序列等,給提取出來壹蔓,方便下一步分析趟妥。
最初處理原始數(shù)據(jù)常用的是perl腳本,后來有了更方便的軟件或工具庶溶。目前我們常用的是fastp煮纵、 cutadapt、 trimmomatic等分析工具偏螺。這步處理主要是為了去除測(cè)序時(shí)引入的連續(xù)的N行疏、低質(zhì)量reads、以及建庫(kù)時(shí)引入的接頭序列等套像。
通過這步分析酿联,我們可以得到關(guān)注的barcode、UMI以及基因的序列夺巩。
02 獲得表達(dá)矩陣
處理完fastq之后贞让,我們需要從中分析出每個(gè)細(xì)胞中基因表達(dá)的信息,即獲得表達(dá)矩陣柳譬。對(duì)于這一步處理喳张,我們常采用的是STAR或者salmon,kallisto等比對(duì)工具美澳,將測(cè)得的序列片段比對(duì)到參考基因組或者轉(zhuǎn)錄組。同時(shí)根據(jù)建庫(kù)時(shí)的barcode白名單對(duì)每個(gè)真實(shí)捕獲到的細(xì)胞barcode進(jìn)行比對(duì)制跟,分出每個(gè)細(xì)胞的基因表達(dá)矩陣舅桩。
表達(dá)矩陣中包含了每個(gè)細(xì)胞轉(zhuǎn)錄組中各個(gè)基因表達(dá)水平的信息,是我們后續(xù)各類分析的基礎(chǔ)雨膨。
這樣的分析之后擂涛,我們可以統(tǒng)計(jì)得到細(xì)胞的個(gè)數(shù),各個(gè)細(xì)胞表達(dá)的基因數(shù)等信息聊记。同時(shí)撒妈,通過對(duì)這些信息的統(tǒng)計(jì)分析恢暖,我們還可以判斷單細(xì)胞測(cè)序數(shù)據(jù)整體的質(zhì)量,為后面的分析步驟提供依據(jù)和參考踩身。
單細(xì)胞測(cè)序數(shù)據(jù)質(zhì)控的指標(biāo)有很多胀茵,這里我們來重點(diǎn)看看3個(gè)最為常見的指標(biāo)。
細(xì)胞數(shù) Number of Cells
即捕獲到的細(xì)胞數(shù)挟阻,是通過分析與細(xì)胞關(guān)聯(lián)的條形碼的數(shù)目計(jì)算出來的。根據(jù)這個(gè)值峭弟,我們可以知道這次單細(xì)胞測(cè)序捕獲了多少細(xì)胞附鸽。
中值UMI數(shù) Median UMI Counts per Cell
這個(gè)指標(biāo)代表的是每個(gè)細(xì)胞中被檢測(cè)到UMI數(shù)據(jù)的中位數(shù)。UMI是目前許多高通量單細(xì)胞測(cè)序平臺(tái)用到的一種分子標(biāo)簽瞒瘸,會(huì)給細(xì)胞中每個(gè)被捕獲的mRNA分子打上一個(gè)獨(dú)特的標(biāo)簽坷备,用來在分析中校準(zhǔn)基因的表達(dá)量。通過這個(gè)指標(biāo)情臭,我們可以了解到每個(gè)高質(zhì)量細(xì)胞中大概有多少個(gè)mRNA分子被捕獲到省撑。
中值基因數(shù) Median Genes per Cell
這個(gè)指標(biāo)代表的是每個(gè)細(xì)胞中被檢測(cè)到基因數(shù)目的中位數(shù)。雖然人體一共有約2萬個(gè)基因俯在,但由于轉(zhuǎn)錄水平的不同和測(cè)序量的限制竟秫,每個(gè)細(xì)胞中能測(cè)到的基因只是這2萬個(gè)中的一部分——當(dāng)然,我們希望能測(cè)到的基因越多越好跷乐。這個(gè)指標(biāo)可以讓我們了解到肥败,在這次單細(xì)胞測(cè)序?qū)嶒?yàn)中,每個(gè)細(xì)胞中大概有多少個(gè)基因被測(cè)到愕提。
03 細(xì)胞過濾
雖然上一步中我們得到了所有細(xì)胞中基因表達(dá)的信息馒稍,但并不是每個(gè)細(xì)胞中信息的質(zhì)量都符合我們后續(xù)分析的標(biāo)準(zhǔn),因此浅侨,我們需要對(duì)細(xì)胞進(jìn)行過濾纽谒,以便獲得相對(duì)完好的細(xì)胞。那么如输,怎樣進(jìn)行過濾呢鼓黔?
在單細(xì)胞測(cè)序分析中,過濾的標(biāo)準(zhǔn)往往是某些特定基因的表達(dá)量挨决,用來鑒別出質(zhì)量欠佳的細(xì)胞请祖,將其過濾掉。其中最重要的參考標(biāo)準(zhǔn)是基因數(shù)以及線粒體基因表達(dá)情況脖祈。
以下3幅小提琴圖肆捕,分別展示了基因數(shù),mRNA分子總數(shù)盖高、線粒體基因占比這三個(gè)常用的過濾指標(biāo)慎陵。
首先可以通過基因數(shù)眼虱、mRNA分子數(shù)、線粒體基因占比三個(gè)參數(shù)進(jìn)行質(zhì)控去除質(zhì)量差的細(xì)胞席纽。
- nFeature_RNA 是每個(gè)細(xì)胞中檢測(cè)到的基因數(shù)量捏悬。
- nCount_RNA 是細(xì)胞內(nèi)檢測(cè)到的mRNA分子總數(shù)。
- percent.mt 是細(xì)胞內(nèi)線粒體基因表達(dá)量占所有基因表達(dá)量的比例润梯。
如果nFeature_RNA 過低过牙,表示該細(xì)胞可能已經(jīng)死亡或?qū)⒁劳龌蛘呖赡苁强找旱巍?/p>
如果nFeature_RNA 與 nCount_RNA 數(shù)值過高,表示細(xì)胞在形成油包水的結(jié)構(gòu)制備過程中纺铭,兩個(gè)或者多個(gè)細(xì)胞被包裹在一個(gè)液滴中寇钉。
如果線粒體基因占比較高,則說明細(xì)胞的質(zhì)量較差舶赔。這是因?yàn)榫€粒體基因會(huì)在受損或凋亡細(xì)胞表達(dá)升高扫倡,因而線粒體基因占比較高,表明細(xì)胞可能已經(jīng)受損或者正處于凋亡過程中竟纳。
不過撵溃,每種細(xì)胞或組織類型如何設(shè)定線粒體閾值,要依實(shí)際情況而定锥累。比如某些細(xì)胞的呼吸作用很旺盛缘挑,其線粒體基因的比例就會(huì)可能很高,而不是因?yàn)榧?xì)胞破裂或者細(xì)胞狀態(tài)不好引起的揩悄。而有些細(xì)胞本來基因的表達(dá)數(shù)就很少卖哎,比如中性粒細(xì)胞。所以這三個(gè)參數(shù)的設(shè)置要根據(jù)細(xì)胞類型而設(shè)置删性。
04 降維和聚類
拿到過濾后的細(xì)胞后亏娜,我們就可以進(jìn)行進(jìn)一步的分析,了解樣本中有哪些類型的細(xì)胞蹬挺,每個(gè)細(xì)胞分別屬于哪種細(xì)胞類型维贺,甚至細(xì)胞亞型。
要做到這一點(diǎn)巴帮,我們首先要知道哪些細(xì)胞是屬于同一類的溯泣,這就需要進(jìn)行降維和聚類。
所謂降維榕茧,就是把多維度的復(fù)雜數(shù)據(jù)用更少的維度展示出來垃沦,同時(shí)盡量保留原始數(shù)據(jù)中的主要信息。比如照片和地圖用押,就是對(duì)三維物體和真實(shí)世界的一種降維展示肢簿。
從三維的地球到二維的世界地圖,就是一種“降維”
而聚類的概念就比較簡(jiǎn)單了,顧名思義池充,就是把相似的類別聚在一起桩引。
單細(xì)胞測(cè)序分析的降維聚類圖,就是將各個(gè)細(xì)胞的基因表達(dá)情況在二維平面上展示出來收夸,并且將基因表達(dá)特征近似的細(xì)胞聚在一起坑匠。
在降維聚類圖中,細(xì)胞間的距離是由它們表達(dá)譜的相似程度決定的卧惜。表達(dá)譜相似的細(xì)胞會(huì)聚在一起厘灼,被標(biāo)記為同一種顏色,提示它們可能屬于同一種細(xì)胞類型序苏,為后續(xù)判斷細(xì)胞類型提供分析基礎(chǔ)手幢。
05 找到細(xì)胞簇的 Maker 基因
對(duì)于第四步中發(fā)現(xiàn)的每一個(gè)細(xì)胞簇(cluster,即降維聚類圖中聚在一起的一群細(xì)胞)忱详,我們可以通過分析找到在其中特異表達(dá)的cluster marker基因,用于后續(xù)的細(xì)胞類型注釋分析跺涤。
在通常情況下匈睁,我們會(huì)將某一個(gè)cluster與其他所有cluster相比的差異基因作為這個(gè)cluster的marker基因。當(dāng)然桶错,如果需要的話航唆,也可以計(jì)算兩實(shí)驗(yàn)組間或者兩cluster間的差異基因來作為marker。這些都可以用Seurat軟件包內(nèi)的FindMarkers函數(shù)來實(shí)現(xiàn)院刁。
06 細(xì)胞類型注釋
在得到細(xì)胞簇以及它們的marker基因后糯钙,我們就要對(duì)這些細(xì)胞簇的細(xì)胞類型進(jìn)行判定,這一步就是細(xì)胞類型注釋退腥。
細(xì)胞類型注釋是基于不同細(xì)胞類型中特異表達(dá)的marker基因來進(jìn)行的任岸。在第五步中,我們找到了每個(gè)細(xì)胞簇的marker基因狡刘,如果某個(gè)細(xì)胞簇的marker和某個(gè)細(xì)胞類型的marker基因相符享潜,就可以被判定為對(duì)應(yīng)的細(xì)胞類型。
這一步是單細(xì)胞分析中非常重要的環(huán)節(jié)嗅蔬,有一些細(xì)胞自動(dòng)注釋軟件可以幫助我們定義細(xì)胞類型剑按,比如singleR或者scCATCH。
當(dāng)然受限于前期實(shí)驗(yàn)設(shè)計(jì)或數(shù)據(jù)分析的差異澜术,自動(dòng)注釋的結(jié)果有時(shí)并不能與預(yù)期相符艺蝴,我們還可以通過單細(xì)胞公共數(shù)據(jù)庫(kù)(比如CellMarker、PangLaoDB鸟废、CancerSCEM猜敢、SingleCellPortal等)或者已發(fā)表文章,來尋找自己感興趣的單細(xì)胞注釋參考數(shù)據(jù)集或已知的細(xì)胞類型marker,以提高注釋準(zhǔn)確度锣枝。
比如厢拭,對(duì)于外周血單個(gè)核細(xì)胞(PBMC)數(shù)據(jù)集,我們可以用第五步中的方法計(jì)算出每個(gè)細(xì)胞簇的marker(下表中第二列)撇叁,然后基于這些marker基因供鸠,就可以找到對(duì)應(yīng)的細(xì)胞類型(下表中第三列),于是就能輕松地進(jìn)行細(xì)胞類型注釋啦陨闹!
進(jìn)行了注釋后楞捂,我們?cè)诮稻S聚類圖上看到的,就不再是以數(shù)字編號(hào)的細(xì)胞簇趋厉,而是有名有姓的具體細(xì)胞類型:
當(dāng)我們獲得了完整的細(xì)胞類型注釋后寨闹,就可以開始進(jìn)行下游的深入分析啦,比如不同細(xì)胞類型的差異基因君账、通路富集繁堡,也可以進(jìn)行擬時(shí)序分析、細(xì)胞通訊分析等等乡数,對(duì)樣本中各類細(xì)胞的功能椭蹄、狀態(tài)和相互作用進(jìn)行更加深入詳細(xì)的分析。
其他
繼續(xù)介紹一下轉(zhuǎn)錄本定量分析净赴、實(shí)驗(yàn)設(shè)計(jì)绳矩、批次效應(yīng)和混雜因素。??
我們先思考幾個(gè)問題玖翅,如下:
Q1: 不同protocol有什么區(qū)別翼馆,優(yōu)缺點(diǎn)是什么?
Q2: 在進(jìn)行scRNA-seq的實(shí)驗(yàn)設(shè)計(jì)時(shí)金度,要考慮哪些問題应媚?
Q3: 與bulk RNA-seq的數(shù)據(jù)相比,scRNA-seq數(shù)據(jù)有什么不同审姓?
1. 定量方法
目前我們常見的轉(zhuǎn)錄本定量方法有兩種珍特,full-length和tag。full-length實(shí)現(xiàn)整個(gè)轉(zhuǎn)錄本的count魔吐,而tag的只capture5’或3’端扎筒。
1.1 full-length
scRNA-seq的full-length文庫(kù)構(gòu)建與bulk RNA-seq相似,如SMART-seq2酬姆。從理論上講嗜桌,full-length應(yīng)該可以提供一個(gè)均勻的轉(zhuǎn)錄本coverage,但有時(shí)在coverage上還是有一定的偏差辞色。full-length一大優(yōu)勢(shì)就是可以檢測(cè)到不同剪接體(splice variants)骨宠。
1.2 tag
如果使用tag的方法進(jìn)行scRNA-seq,則只對(duì)轉(zhuǎn)錄本的一端(3'或5')進(jìn)行測(cè)序。目前大多數(shù)scRNA-seq都是基于tag的层亿,如10x Chromium桦卒,
優(yōu)點(diǎn):可以與UMI(unique molecular identifiers)結(jié)合,提高定量的準(zhǔn)確性匿又。
缺點(diǎn): 由于只限于轉(zhuǎn)錄本的一端方灾,無法區(qū)分isoforms。
Note! 這個(gè)圖展示了不同細(xì)胞中average coverage的情況碌更,有明顯的3' bias裕偿。
而且3個(gè)細(xì)胞群明顯離群,可能是RNA降解導(dǎo)致的痛单。
1.3 為什么使用UMI
由于在PCR的過程中嘿棘,擴(kuò)增是指數(shù)級(jí)的,可能會(huì)導(dǎo)致擴(kuò)增不均旭绒,從而高估基因的表達(dá)量鸟妙。為了解決這個(gè)問題,cell barcodes會(huì)標(biāo)記上一段隨機(jī)核苷酸序列(UMI)挥吵,而這個(gè)UMI是唯一的圆仔。在讀取count時(shí),將UMI納入蔫劣,從而更準(zhǔn)確的計(jì)算轉(zhuǎn)錄本的豐度。
1.4 選3’ 還是5’ tag
這個(gè)可能要根據(jù)大家具體的實(shí)驗(yàn)?zāi)康膩磉M(jìn)行選擇个从,常用的就是3’的方法脉幢。但5'也有其優(yōu)勢(shì),如可以獲得有關(guān)轉(zhuǎn)錄起始位點(diǎn)(TSS)的信息嗦锐,從而探索不同細(xì)胞之間是否存在不同的TSS嫌松。
2. 實(shí)驗(yàn)設(shè)計(jì)
**那么多方法怎么選?
首先我們要明確的就是選擇不同方法還是要基于你的科學(xué)問題奕污,你的研究目的萎羔。
低通量的方法與高通量的方法相比具有更高的靈敏度,如10x Chromium碳默。
另一方面贾陷,低通量方法很難capture到樣本中一些比較稀有的細(xì)胞類型,導(dǎo)致細(xì)胞群的特征不完整嘱根。
scRNA-seq數(shù)據(jù)的不同之處
測(cè)序完成后髓废,每個(gè)library代表一個(gè)細(xì)胞,而不是一群細(xì)胞该抒。所以慌洪,每個(gè)細(xì)胞都是獨(dú)一無二的,在單細(xì)胞水平上沒有辦法進(jìn)行 “生物學(xué)重復(fù)”。我們一般需要進(jìn)行相似性聚類冈爹,然后在相似細(xì)胞群之間進(jìn)行比較涌攻。
批次效應(yīng)
批次效應(yīng)(batch effects)是一定要考慮到的問題,即使用不同的技術(shù)對(duì)相同的樣本進(jìn)行scRNA-seq频伤,也會(huì)有批次效應(yīng)恳谎,可以通過normalise來減少批次效應(yīng)。
混雜因素
整個(gè)scRNA-seq的過程中剂买,應(yīng)避免實(shí)驗(yàn)因素(如治療惠爽、表型或疾病等)、準(zhǔn)備樣品時(shí)間瞬哼、測(cè)序時(shí)間等對(duì)結(jié)果的影響婚肆。
舉個(gè)栗子
假設(shè)我們準(zhǔn)備對(duì)10個(gè)病人的control和diseased組織進(jìn)行scRNA-seq,如果每天只能處理10個(gè)樣本坐慰,最好是每天做5個(gè)control和5個(gè)diseased的樣本较性,而不是一天準(zhǔn)備所有control的樣本,另一天準(zhǔn)備所有diseased的樣本结胀。
另一個(gè)需要考慮到的就是樣本的可重復(fù)性赞咙。
當(dāng)從一個(gè)器官收集組織時(shí),最好從器官的不同部位采集多個(gè)樣本糟港。
由于基因表達(dá)可能受晝夜節(jié)律(circadian changes)的影響攀操,我們最好也在同一個(gè)時(shí)間點(diǎn)進(jìn)行取樣。
參考文獻(xiàn)
[1] Svensson V, Vento-Tormo R, Teichmann S A. Exponential scaling of single-cell RNA-seq in the past decade[J]. Nature Protocols, 2018, 13(4):599-604.
[2] Malte D L., Fabian J T.. Current best practices in single‐cell RNA‐seq analysis: a tutorial. Molecular Systems Biology. 2019 Jun; 15(6): e8746.
[3] Macosko, E. Z. , Basu, A. , Satija, R. , Nemesh, J. , & Mccarroll, S. A. . Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets. Cell, 2015, 161(5), 1202-1214.
[4] Butler, A. , Hoffman, P. , Smibert, P. , Papalexi, E. , & Satija, R. . Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nature Biotechnology, 2018, 36(5).
[5] Papalexi E, Satija R. Single-cell RNA sequencing to explore immune cell heterogeneity. Nat Rev Immunol. 2018;18(1):35-45.
參考:
https://zhuanlan.zhihu.com/p/532134856
https://blog.csdn.net/m0_72224305/article/details/127148666