單細(xì)胞的RNA-seq我從來沒有接觸過,所以要從頭開始學(xué)習(xí)图筹。但是用王院長的話就是:“不是和普通的RNA-seq差不多嘛!”让腹。远剩。。當(dāng)然了骇窍,對于他那種專家級別的當(dāng)然什么樣的分析都是差不多的瓜晤,但是對于我一個白的不能再白的小白來說,這是一塊還比較復(fù)雜比較難啃的骨頭像鸡。在網(wǎng)上搜了幾篇文獻活鹰,放在這篇文章里供需要的同學(xué)一起學(xué)習(xí)。這里只放了4篇文獻只估,對于要深刻理解單細(xì)胞測序是遠(yuǎn)遠(yuǎn)不夠的志群。前兩篇我寫的筆記比較詳細(xì),后兩篇我只是非常簡要的寫了文章主要講了些啥蛔钙。
1.Single-cell RNA sequencing: Technical advancements and biological appications
這篇文章主要是對單細(xì)胞的RNA-seq做了一個很簡單的介紹锌云,包括這項技術(shù)的發(fā)展過程和幾種測序的方法,以及每種方法的優(yōu)點和缺點吁脱,還介紹了一些空間單細(xì)胞RNA-seq技術(shù)的介紹桑涎。但通篇沒有深入的介紹分析過程。算是一篇比較淺顯易懂的綜述兼贡,篇幅也不長攻冷。
這里有一篇文章是對這篇文獻的全文翻譯:http://www.reibang.com/p/72d300d1317a
我沒仔細(xì)的看,直接下載了原文看遍希,并且也只是標(biāo)記了一些知識點等曼,懶得看原文的同學(xué)可以直接移步上述這個鏈接。下面幾點是我標(biāo)注的知識點:
(1)單細(xì)胞RNA-seq方法主要分成4步:分離和裂解單細(xì)胞或單細(xì)胞核。反轉(zhuǎn)錄禁谦。cDNA的擴增。測序文庫的準(zhǔn)備州泊。前三步都可以在同一個管子里進行,減少樣品的損失力喷,第4步是利用轉(zhuǎn)座子Tn5為基礎(chǔ)的片段來構(gòu)建文庫。
(2)應(yīng)該選擇什么方法渴肉,以及多少細(xì)胞來測序冗懦?單細(xì)胞主要分成兩種:full-length和tag-based仇祭。而taf-based方法又分為兩種:3'和5'.對于細(xì)胞類型的發(fā)現(xiàn)和組織成分的測定,full-length和tag-based方法都可以乌奇。如果是有特殊的需要,比如等位基因分析和不同的isoform的發(fā)現(xiàn)眯娱,full-length是最合適的礁苗。
(3)批次效應(yīng):批次效應(yīng)主要由于樣品的處理步驟,細(xì)胞的捕獲和分別測序(不同深度)徙缴,不同批次的試劑等等引入的。有一個方法可以查看數(shù)據(jù)是否有批次效應(yīng):PCA疏叨。另外穿剖,利用spike-in control(ERCC)也可以有效的降低批次效應(yīng)。ERCC spike-in control是由一系列濃度的合成的不同長度的糊余,不同GC含量的RNA組成,經(jīng)常用來測量在RNAseq實驗中的biases贬芥,并且用來做質(zhì)量控制和標(biāo)準(zhǔn)化。
2.Design and computational analysis of single-cell RNA-sequencing experiments
這篇文章寫的就比較詳細(xì)和深入了昏苏,講解了有關(guān)單細(xì)胞測序的實驗設(shè)計需要注意的問題和分析過程中的關(guān)鍵步驟,但仍然沒有涉及到具體的軟件的使用和具體的代碼椒丧。不過也不用著急救巷,由淺及深的了解也不是什么壞事,把基礎(chǔ)打打牢才是關(guān)鍵浦译。
(1)實驗設(shè)計
需要關(guān)心的問題是是否需要加spike-in control和特異分子標(biāo)記(UMI),這兩種方法理論上對標(biāo)準(zhǔn)化和基因表達(dá)的評估都有好處帽哑。實際操作上對單細(xì)胞測序有一定的限制性叹俏。比如Stegle的文章里提到,spike-in的對照通常加到單細(xì)胞測序的體系里濃度會很高粘驰,產(chǎn)生的結(jié)果就是它們會占去相對一大部分的reads。另外最近的droplet技術(shù)也不能容納spike-in愕掏。UMI對于減少背景noise有很大的優(yōu)勢顶伞,但是加入UMI序列只在轉(zhuǎn)錄本的5'或者3'端,使得無法研究isoform或者等位基因的表達(dá)唆貌。
另外一個需要考慮的問題是測序的深度。現(xiàn)在比較一致的認(rèn)為是大于1 million的reads众羡,對于可靠的基因表達(dá)檢測的變化就很小了蓖租。實際上,大部分基因可以在50萬個reads檢測出來蓖宦,超過一半的基因25萬個reads就足夠了。另外柠偶,在Shalek的文章中提到,1個million的reads足夠檢測一個細(xì)胞群里基因表達(dá)的情況了毡证。根據(jù)實驗需要的不同蔫仙,可能會需要更多的reads,比如完全鑒定轉(zhuǎn)錄本的結(jié)構(gòu)摇邦,評估rare isoform的表達(dá)量,根據(jù)細(xì)微的差別區(qū)分細(xì)胞群居扒。但是如果你需要map out一個大的細(xì)胞群丑慎,或者區(qū)分細(xì)胞類型,你需要少一些的reads竿裂,但是樣品里的細(xì)胞數(shù)要足夠多铛绰。在Pollen的文章中提到产喉,301個細(xì)胞,5萬個reads足夠在一個樣品里分類細(xì)胞類型曾沈。但如果你需要在一個異質(zhì)性很高的細(xì)胞群里區(qū)分rare細(xì)胞群,那就需要提高Reads數(shù)姐帚。
(2)質(zhì)量控制和基因表達(dá)評估
顯微鏡檢查可以排除空的捕獲位點和多細(xì)胞的捕獲位點障涯,但肉眼的檢查不適用于所有的測序平臺。所以一般使用FASTQC唯蝶,Kraken粘我,RNA-SeQC等軟件對于reads進行質(zhì)量控制。如果reads的最后幾個堿基質(zhì)量不好可以使用Trimming進行修剪。
另外一個評估的標(biāo)準(zhǔn)是reads比對到參考的轉(zhuǎn)錄組上娇豫。如果用了spike-in對照畅厢,reads比對到合成的轉(zhuǎn)錄本,占比對到內(nèi)源性轉(zhuǎn)錄本的比例就可以計算出來系羞。如果這個比例過高霸琴,說明在細(xì)胞的捕獲階段有細(xì)胞的破損。mapping的比例梧乘,在單細(xì)胞測序中通常較低(與bulk RNA-seq相比)。
拿到質(zhì)量合格的reads結(jié)果夹供,就可以比對了仁堪。一般用HTSeq,RSEM或者WemIQ進行比對鸟辅。
(3)標(biāo)準(zhǔn)化
a)不涉及spike-in control的標(biāo)準(zhǔn)化
許多單細(xì)胞測序的研究使用中位數(shù)標(biāo)準(zhǔn)化莺葫,或者相似的方法。每一種方法都是鑒定那些在細(xì)胞間表達(dá)相對穩(wěn)定的基因捺檬,然后利用那些基因計算global scale factor。但是這種方法是建立在“每一個細(xì)胞的RNA含量和測序深度都是差不多的”這一個假設(shè)基礎(chǔ)上的聂受。
b)涉及spike-in control的標(biāo)準(zhǔn)化
在單細(xì)胞測序里隐轩,每一個細(xì)胞的RNA含量都不是一樣的,隨著細(xì)胞周期瘫俊,細(xì)胞大小,以及轉(zhuǎn)錄動力學(xué)的不同而變化扛芽。spike-in, 是合成的轉(zhuǎn)錄本川尖,以已知的濃度加入樣品中,可以用來估計RNA含量的相對差異叮喳。這一思路是根據(jù)spike-in觀察到的和理論值之間的差異就是人為引入的因素,計算調(diào)節(jié)這些差異的細(xì)胞特異性的factor畔濒,在內(nèi)源性的基因上利用這個factor锣咒,標(biāo)準(zhǔn)化基因表達(dá)。雖然很有幫助趣兄,但是仍然存在一些問題悼嫉。所以spike-in control在單細(xì)胞測序里并不廣泛的使用。UMI是另一種更有用的control戏蔑,簡單的說,就是在每一個分子上連接一個特異的標(biāo)簽,然后PCR擴增彻舰,使得每一個分子是特異性的候味,并且可以得到分子數(shù)量的絕對值。這種方法可以有效的降低單細(xì)胞測序的擴增noise白群。但這種方法無法研究isoform和等位基因的表達(dá)情況。
(4)細(xì)胞亞群的鑒定
單細(xì)胞測序最主要的目的有兩個:細(xì)胞亞群的鑒定笼裳,特異基因的表達(dá)。先說細(xì)胞亞群的鑒定拜轨。單細(xì)胞測序的一個非線性降維法:t-SNE允青。在單細(xì)胞測序中,細(xì)胞間某一個基因的表達(dá)幅度變化很大是很常見的颠锉,利用PCA可能會造成錯誤的理解,因為存在很多零表達(dá)量拒垃。還有其他的一些降維方法眉枕,例如:ZIFA,SNN-Cliq谤牡,RaceID等姥宝。對于單細(xì)胞測序鑒定基因表達(dá)變化,很多研究者用的是常規(guī)RNA-seq的分析方法套么。
之后這篇文章還講了一些算法的原理碳蛋。玷室。箩兽。奈何我剛開始接觸單細(xì)胞測序的知識秸脱,看不懂那么深奧的東西搪花,同學(xué)們可以自行閱讀后面的部分吮便。
(5)Network inference
闡述轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡(luò)的結(jié)構(gòu)和功能也是單細(xì)胞測序的核心研究部分。WGCNA(加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析)是常規(guī)RNA-seq分析中常用的方法搭幻,在胚胎細(xì)胞發(fā)育研究中也廣泛應(yīng)用。關(guān)于WGCNA的知識這篇文章里也沒有具體的介紹桌肴。我搜了幾篇有關(guān)這個知識點的文章,貼到下面:
WGCNA分析,簡單全面的最新教程
WGCNA 分析
STEP6:WGCNA相關(guān)性分析
一文學(xué)會WGCNA 這篇和上面的一篇差不多艘包,都是具體的分析過程叛拷,有詳細(xì)的代碼
3.Design and analysis of single-cell sequencing experiments
這篇文章對現(xiàn)有的基因組和轉(zhuǎn)錄組測序的方法做了一個總結(jié)躏哩,并討論了每種方法的優(yōu)點和局限性。作者還比較深入的講了數(shù)據(jù)獲取弊攘,過濾渣磷,分析等必要的步驟需要注意的地方醋界。不過這篇文獻也沒有具體的代碼分析過程丘侠。
4.Data Analysis in Single-Cell Transcriptome Sequencing
萬萬沒有想到的是,我在網(wǎng)上搜索單細(xì)胞測序的一些文獻的時候,會讀到一篇里面提及王院長的文章。這篇文章里比較了單細(xì)胞測序的幾個不同方法的不同點,并且講了利用單細(xì)胞測序在腫瘤干細(xì)胞研究中的應(yīng)用硬耍。