單細(xì)胞RNA-seq(scRNA-seq)作為一種有前途的技術(shù)來表征和分析細(xì)胞間的變異性。 然而柱宦,技術(shù)噪聲和固有生物學(xué)變異性的混合使得將技術(shù)偽像與真實生物學(xué)變異細(xì)胞分離特別具有挑戰(zhàn)性。 在進(jìn)行下游分析之前萤晴,正確檢測和濾除技術(shù)偽影至關(guān)重要珍坊。 在這里,我們提出了一種協(xié)議青柄,該協(xié)議整合了基因表達(dá)模式和數(shù)據(jù)質(zhì)量,以檢測scRNA-seq樣本中的技術(shù)工件预侯。
關(guān)鍵詞:scRNA-seq致开,質(zhì)量控制,整合萎馅,基因表達(dá)模式双戳,數(shù)據(jù)質(zhì)量
1 Introduction
單細(xì)胞RNA-seq(scRNA-seq)提供了一種相對公正的方法來研究復(fù)雜混合物中細(xì)胞的異質(zhì)性[1]。 它徹底改變了我們理解細(xì)胞狀態(tài)[2糜芳,3]飒货,譜系[4]和疾病[5]的轉(zhuǎn)錄組多樣性的能力。 然而峭竣,這種技術(shù)的主要挑戰(zhàn)之一是數(shù)據(jù)背后的噪音[6塘辅,7]。 例如皆撩,對低水平的mRNA進(jìn)行分析可能會導(dǎo)致在逆轉(zhuǎn)錄步驟中丟失轉(zhuǎn)錄本(“缺失”事件)扣墩,并且還會大大扭曲原始轉(zhuǎn)錄本的豐度[6,8]扛吞。 細(xì)胞群之間的最高差異表達(dá)基因的比較顯示出較差的一致性呻惕,這表明高幅值異常值可能導(dǎo)致高變異[8]。 另一方面滥比,細(xì)胞之間的基因表達(dá)固有地是隨機的亚脆,并且細(xì)胞間的差異也可能是轉(zhuǎn)錄突發(fā)或波動的結(jié)果[9]。 scRNA-seq的質(zhì)量控制和丟棄技術(shù)工件對于下游分析非常重要守呜。
為了檢測scRNA-seq中潛在的技術(shù)工件(壞樣本)型酥,以前的研究使用了各種策略山憨,這些策略通常可以分為三類弥喉。第一類是利用保留基因進(jìn)行質(zhì)量控制(QC)郁竟。例如,如果某些管家基因(如Actb)被過濾掉由境,細(xì)胞就會被過濾掉Gapdh)未表達(dá)或表達(dá)異常[10棚亩,11]。 這種方法的假設(shè)是管家基因高度一致地表達(dá)虏杰。 對于散裝RNA來說確實如此讥蟆,但對于單細(xì)胞則不一定如此(參見注1)。 例如纺阔,一項使用單細(xì)胞qPCR的研究表明瘸彤,管家基因的表達(dá)在單個細(xì)胞之間差異很大,并且不同的細(xì)胞類型具有不同的管家基因表達(dá)模式[12]笛钝。 因此质况,對于scRNA-seq樣品,依靠管家基因進(jìn)行QC無效玻靡。 QC的第二類涉及使用整體基因表達(dá)模式來定義技術(shù)偽像结榄。 例如,如果將細(xì)胞與大多數(shù)細(xì)胞相比不包括在下游分析中囤捻,則它們將顯示出獨特的基因表達(dá)模式[13](見注2–3)臼朗。此類方法的主要問題是它們可能會去除具有真正生物學(xué)變異的細(xì)胞。 第三類涉及使用檢測到的基因數(shù)量和/或重新映射率來定義技術(shù)偽像[14]蝎土。 然而视哑,根據(jù)特定文庫的質(zhì)量,細(xì)胞類型或RNA協(xié)議的不同瘟则,實驗中檢測到的基因數(shù)目也有所不同黎炉。 映射速率的截止也很難進(jìn)行,因此截止的設(shè)置通常是任意的醋拧。 因此,盡管單細(xì)胞方法在研究細(xì)胞異質(zhì)性方面具有廣闊的前景淀弹,但質(zhì)量控制仍然是主要挑戰(zhàn)之一[7]丹壕。 然而,我們以前的研究和自己的工作表明薇溃,整合基因表達(dá)模式和測序數(shù)據(jù)質(zhì)量可能是進(jìn)行QC的可行策略[15]菌赖。 這種方法的基本假設(shè)是,如果基因表達(dá)異常值也與不良的測序文庫質(zhì)量有關(guān)沐序,則它們比真正的生物變異細(xì)胞更可能是技術(shù)偽像琉用。 我們還假設(shè)基因表達(dá)離群值包含具有真實生物學(xué)變異和技術(shù)偽像的細(xì)胞堕绩,但其余的細(xì)胞(主要種群細(xì)胞)通常更可能包含優(yōu)質(zhì)細(xì)胞。 因此邑时,我們可以使用主要種群的細(xì)胞作為對照來估計數(shù)據(jù)質(zhì)量的臨界值和相應(yīng)的假陽性率(FPR)(圖1)奴紧。
在此,我們使用三批已發(fā)表的人類胚胎干細(xì)胞(ES cells) scRNA-seq數(shù)據(jù)[16]晶丘,詳細(xì)描述了我們在scRNA-seq中檢測技術(shù)偽影的步驟黍氮。
2 Materials
2.1 Lab Equipment
1.C1單細(xì)胞汽車預(yù)科IFC (Fluidigm).
2 . EVOS FL自動細(xì)胞成像系統(tǒng)(Life Technologies)。
- Illumina HiSeq 2500系統(tǒng)浅浮。
2.2 Kits
- cDNA合成試劑盒(Clontech)沫浆。
2 PCR試劑盒(Clontech)
3 Nextera XT DNA樣品制備索引試劑盒(Illumina)。
2.3 ScRNA-seq Data
原始scRNA-seq數(shù)據(jù)集(H1)可以由基因表達(dá)綜合(GEO)訪問滚秩,登錄號為(GSE64016).2专执。 從GEO下載的文件為SRA格式3。 SRA工具包(http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
)可用于通過“ fastq-dump”實用程序?qū)⑽募腟RAformat轉(zhuǎn)換為FASTQ格式郁油。
3 Methods
3.1 H1 HumanEmbryonic Stem Cells(hESCs
1.將未分化的H1人類胚胎干細(xì)胞(hESCs)在基質(zhì)膠包被的組織培養(yǎng)板上的E8培養(yǎng)基[17]中培養(yǎng)他炊,每日培養(yǎng)基在37 C和5%(vol / vol)CO2.的條件下飼養(yǎng)。
2 每3–4天將細(xì)胞用1 PBS中的0.5 mM EDTA進(jìn)行分裂以進(jìn)行標(biāo)準(zhǔn)維護(hù)已艰。
3痊末。 在為每種實驗準(zhǔn)備單細(xì)胞懸液之前,立即通過Accutase(LifeTechnologies)將hESC進(jìn)行個性化哩掺,用E8培養(yǎng)基洗滌一次凿叠,然后以5.0–8.0 105細(xì)胞/ mL的密度重懸于E8培養(yǎng)基中以進(jìn)行細(xì)胞捕獲。
- The H1 hESCs is registered in the NIH Human EmbryonicStem Cell Registry with the Approval Number: NIHhESC-10-0043.5. Details of the H1 cells can be found online (http://grants.nih.gov/stem_cells/registry/current.htm?id=29
).
3.2 Single-CellCapture and cDNALibrary Preparation
1.將5000–8000個細(xì)胞加載到中等大薪劳獭(10–17μm)的C1單細(xì)胞自動制備IFC(Fluidigm)中盒件。
2。 使用EVOS FL Auto CellImaging系統(tǒng)(Life Technologies)檢查捕獲效率舱禽,以對IFC.
3上的96個捕獲位點執(zhí)行自動區(qū)域掃描炒刁。 首先注意到空的捕獲位點或捕獲了多個細(xì)胞的位點,隨后將這些樣品從進(jìn)一步的文庫處理中排除出來誊稚,用于RNA-seq.
4翔始。 捕獲和成像后,立即使用SMARTer PCR cDNA合成試劑盒(Clontech)和Advantage 2 PCR試劑盒(Clontech)在C1系統(tǒng)中進(jìn)行逆轉(zhuǎn)錄和cDNA擴增里伯。
5城瞎。 第二天,從C1芯片上收獲了全長的單細(xì)胞cDNA文庫疾瓮,并稀釋至0.1–0.3 ng /μL.的范圍脖镀。
6.使用Nextera XT DNA樣品制備試劑盒和Nextera XT DNA樣品制備索引試劑盒(Illumina)對稀釋的單細(xì)胞cDNA文庫進(jìn)行片段化和擴增。7狼电。 庫以每泳道24個庫的形式進(jìn)行多路復(fù)用蜒灰,并在Illumina HiSeq 2500系統(tǒng)上對67 bp的單端讀取進(jìn)行測序
3.3 Reads Mapping
1.使用Bowtie [18]將原始讀物映射到參考基因(例如人類hg19 Refseq參考)弦蹂,從而允許最多兩個錯配和最多20個多重匹配。
- 映射的預(yù)期閱讀計數(shù)和TPM可以通過RSEM估算[19]强窖。
3.4 Classification ofCells into GeneExpression Outliersand Cells of the MainPopulation
1.給定一個單元格凸椿,計算Spearman等級相關(guān)性列表,將給定單元格與數(shù)據(jù)集中的其余單元格進(jìn)行比較(“一對一”)毕骡。
2.然后削饵,刪除該給定的單元格,并為其余單元格計算成對的Spearmanrank相關(guān)性列表(“成對”)
3未巫。 使用單向Wilcoxon符號秩檢驗來評估“一對一”相關(guān)性是否顯著低于“成對”相關(guān)性的設(shè)置窿撬。
4。 還使用Pearson乘積矩相關(guān)來執(zhí)行類似的過程叙凡。
5.基于兩個測試的p值將細(xì)胞分類為基因表達(dá)異常值或主要群體的細(xì)胞劈伴。6。 在這項研究中握爷,我們將基因表達(dá)異常定義為Spearman和Pearson檢驗中p值小于0.001的細(xì)胞跛璧。
3.5 Metrics toEvaluate the scRNA-seq Library Quality
1.定位讀段總數(shù):所有基因的定位讀段總數(shù)。 極少的定位讀圖可能會影響表征轉(zhuǎn)錄組的能力新啼,可能是由于定位速率低或樣品制備或測序過程中引入了其他技術(shù)問題追城。
2.映射率:映射的讀取總數(shù)除以讀取深度。 定位速率可能受RNA降解燥撞,基因組DNA污染或樣品制備或測序過程中引入的其他技術(shù)問題的影響; 3座柱。 讀取次數(shù)復(fù)雜度:唯一讀取次數(shù)(刪除重復(fù)項后的讀取次數(shù))占所有讀取總數(shù)的比率。
3.6 CombiningLibrary Quality Metricsto Combined Scores
-
對于每個單元格物舒,計算每個質(zhì)量度量的分位數(shù)分?jǐn)?shù)(QS)色洞。給定一個度量,一個單元格的q被定義為數(shù)據(jù)集中具有相同或更低值的其他單元格的數(shù)量除以單元格的總數(shù)冠胯。例如火诸,如果一個單元格在一組80個單元格中具有第20高的映射率,那么這個特定單元格的mappin篦q值為0.75荠察。較高的質(zhì)量分?jǐn)?shù)表明數(shù)據(jù)質(zhì)量較好置蜀。
2.最小分位數(shù)分?jǐn)?shù)(MQS):三個相等度量的最小q。
MQS假設(shè)這三個質(zhì)量度量中的每一個都是關(guān)鍵的割粮,并且這三個中的任何一個缺陷都是技術(shù)問題的潛在指示器盾碗。因此,一個單元的最終質(zhì)量取決于它最慢的質(zhì)量度量分?jǐn)?shù)
-
加權(quán)綜合質(zhì)量得分(WCQS):WCQS假設(shè)每個質(zhì)量指標(biāo)的重要性可能取決于特定的實驗批次舀瓢,協(xié)議和/或條件.WCQS假設(shè)每個質(zhì)量指標(biāo)對檢測技術(shù)偽像的重要性與其在基因表達(dá)之間進(jìn)行區(qū)分的能力成正比。 主要人群的異常值和細(xì)胞耗美。 例如京髓,在給定一批細(xì)胞的情況下航缀,如果給定一批細(xì)胞的包封率可以在基因表達(dá)異常值和主要人群的細(xì)胞之間完美地區(qū)分,那么定位率很可能在檢測技術(shù)偽像中起主導(dǎo)作用堰怨。 相反芥玉,如果一個度量標(biāo)準(zhǔn)不能表示主要人群的基因表達(dá)異常值和細(xì)胞之間的差異,則應(yīng)將其刪除根據(jù)潛在技術(shù)工件的預(yù)測备图。 WCQS計算每個樣本的加權(quán)聚集質(zhì)量得分灿巧,定義為:
3.7 Identification ofTechnical
1.我們假設(shè)高質(zhì)量的單元格應(yīng)該通過特定的MQS和WCQS臨界值。 我們使用主要種群的細(xì)胞作為對照來確定這些臨界值(見注4)揽涮。 您可以枚舉給定數(shù)據(jù)集中所有可能的MQS和WCQS臨界值組合對抠藕,計算通過該對的兩個臨界值的主要種群的細(xì)胞比例,然后使用主要種群的剩余細(xì)胞來估計相應(yīng)的假陽性率(FPR) 那對(圖1).
2蒋困。 如果一對以上的MQS和WCQS臨界值導(dǎo)致相同的FPR盾似,則可以選擇一個臨界值對,以使未能通過的基因表達(dá)異常值的百分比最大化
3雪标。 將這些臨界值應(yīng)用于基因表達(dá)異常值以識別技術(shù)偽像零院。 技術(shù)工件被定義為數(shù)據(jù)質(zhì)量測量值較差的基因表達(dá)異常值
3.8 SinQC Software
- SinQC [15]設(shè)計用于實現(xiàn)(小標(biāo)題3.3-3.6)(見注5).2。 SinQC軟件和詳細(xì)的用戶手冊可從以下網(wǎng)址獲得:http://www.morgridge.net/SinQC.html
4 Notes
1.一些研究使用管家基因?qū)cRNA-seq數(shù)據(jù)集進(jìn)行質(zhì)量控制[10村刨,11]告抄。 為了進(jìn)一步研究使用管家基因?qū)cRNA-seq數(shù)據(jù)集進(jìn)行質(zhì)量控制的可行性,我們計算了兩個管家基因(ActbandGapdh)在不受歡迎的scRNA-seq數(shù)據(jù)集中的基因表達(dá)水平(TPM)[20]嵌牺。 ES細(xì)胞中的Gapdhis顯著高于MEF細(xì)胞(P?5.6e–06打洼,單面Wilcoxon秩和檢驗),而Actbis的ESbi顯著低于MEF細(xì)胞(P <2.2e–16髓梅,1-面Wilcoxonrank總和)[15 ]拟蜻。 這表明利用管家基因?qū)cRNA-seq數(shù)據(jù)集進(jìn)行QC是不可行的。
2枯饿。 使用中位基因表達(dá)值或檢測到的基因數(shù)量(TPM> 1)進(jìn)行質(zhì)量控制(QC):低數(shù)據(jù)質(zhì)量(例如酝锅,低定位率)可能導(dǎo)致檢測到的基因數(shù)量較少或中位基因表達(dá)值較低。 但是奢方,檢測到的基因數(shù)量(TPM> 1)也可能在生物學(xué)上相關(guān)搔扁。 檢測到的基因數(shù)量取決于特定文庫的質(zhì)量和細(xì)胞類型[8]。 我們計算了在高度異質(zhì)的scRNA-seq數(shù)據(jù)集中包含301個細(xì)胞(11種不同細(xì)胞類型的混合物)的檢測到的基因數(shù)量[4]蟋字。 檢測到的基因數(shù)量高度依賴于細(xì)胞類型稿蹲,這表明使用檢測到的基因數(shù)量來鑒定技術(shù)偽像將導(dǎo)致明顯的偏倚([15],圖S8)鹊奖。 對于高度異源的scRNA-seq數(shù)據(jù)集苛聘,與QC傳代細(xì)胞相比,通過這種方法檢測到的技術(shù)偽像更有可能檢測到較少的基因。 但這并不意味著檢測到較少基因的細(xì)胞就是技術(shù)偽像设哗。
3唱捣。 使用“檢測到的基因和/或作圖率的基因”執(zhí)行質(zhì)量控制(QC):使用“檢測到的基因和/或作圖率的基因” [14]進(jìn)行質(zhì)量控制的基本思想是,檢測到的基因數(shù)量較少可能是由于 技術(shù)問題和生物異質(zhì)性网梢。 但是震缭,如果檢測到較少基因的細(xì)胞也與低定位率相關(guān)(映射率與技術(shù)有關(guān)),則該細(xì)胞很可能是技術(shù)偽像战虏。 這種方法在概念上最類似于我們的方法拣宰。 然而,我們的方法在兩個方面具有優(yōu)勢:首先烦感,由于定位速率和檢測到的基因數(shù)量不直接相關(guān)巡社,因此定位速率的截止和選擇的檢測到的基因數(shù)量非常困難和任意。 我們的方法通過使用主要人群的單元格作為數(shù)據(jù)質(zhì)量控制啸盏,最大程度地提高了正確檢測技術(shù)工件的可能性重贺,同時還最大限度地減少了誤報率。 其次回懦,除了maprate之外气笙,我們的方法還考慮了其??他文庫質(zhì)量指標(biāo)(例如文庫復(fù)雜性)。Single-Cell RNA-seq7的質(zhì)量控制
4.我們的方法假設(shè)基因表達(dá)異常值包含技術(shù)偽影和生物變異細(xì)胞怯晕,但總體上潜圃,主要種群的細(xì)胞更可能包含優(yōu)質(zhì)細(xì)胞。 因此舟茶,我們的方法使用主要人群的細(xì)胞作為對照來估計數(shù)據(jù)質(zhì)量得分的臨界值和相應(yīng)的誤報率(FPR)谭期。 但是,在給定aFPR的情況下吧凉,估計相應(yīng)的假陰性率(遺漏的技術(shù)假象)是一項挑戰(zhàn)隧出,因為scRNA-seq對“不良樣品”沒有“真實性”。敏感性(也稱為 真實陽性率)是正確識別的陽性(“技術(shù)假象”)的比例阀捅。特異性(也稱為真實陰性率)衡量正確識別的陰性(“優(yōu)質(zhì)單細(xì)胞”)的比例胀瞪。 由于scRNA-seq對“好樣本”和“壞樣本”沒有“真實性”,因此直接估計這兩項測量值是一個挑戰(zhàn)饲鄙。 為了進(jìn)一步比較我們的方法在高異質(zhì)性和低異質(zhì)性數(shù)據(jù)集中的敏感性和特異性凄诞,我們將我們的方法應(yīng)用于混合了不同類型細(xì)胞類型的數(shù)據(jù)集,并比較了其中檢測到的技術(shù)工件的重疊忍级。 例如帆谍,使用小鼠scRNA-seq數(shù)據(jù)集(48個ES細(xì)胞和44個MEF細(xì)胞)[20],我們將細(xì)胞混合為三種不同的類別:高異質(zhì)性(48個ES細(xì)胞+ 44MEF細(xì)胞)轴咱,中等異質(zhì)性(“ ES細(xì)胞” (全部)+ 1/5(MEF)個細(xì)胞”和“(“ MEF細(xì)胞(所有)+ 1/5(ES)個細(xì)胞”)”和低異質(zhì)性(((48個ES細(xì)胞)和(44個MEF細(xì)胞)汛蝙,分別) 我們的方法在高異質(zhì)性數(shù)據(jù)集(48個ES細(xì)胞+44個MEF細(xì)胞)中檢測到兩個技術(shù)偽像(ESC_46和ESC_32)烈涮,在中等異質(zhì)性數(shù)據(jù)集或低異質(zhì)性數(shù)據(jù)集中也可以穩(wěn)健地檢測到這兩個技術(shù)偽像。 我們的方法分別針對各個ES(48個細(xì)胞)或MEF(44個細(xì)胞)數(shù)據(jù)集患雇,與將我們的方法應(yīng)用于合并的混合數(shù)據(jù)集(48個ES細(xì)胞+44個MEFcells)相比跃脊,我們可以檢測到更多的假象宇挫。 當(dāng)數(shù)據(jù)集中的異質(zhì)性程度很高時苛吱,以降低靈敏度為代價提高特異性。 種群中器瘪,檢測技術(shù)偽像會降低掉落真實生物變異細(xì)胞的風(fēng)險翠储。 我們的方法對高度異質(zhì)性細(xì)胞群的特異性增加和靈敏度降低是一個很好的功能,可以最大程度地減少假陽性橡疼。
5援所。 正在運行的用于scRNA-seq QC的SinQC不限于RSEM輸出文件(“ * .genes.results”)。 對于不使用RSEM的用戶欣除,他們可以制作一個自定義的RSEM文件(“ * .genes.results”)以運行SinQC住拭。 可以在SinQC網(wǎng)站(http://www.morgridge.net/SinQC.html)中找到詳細(xì)的手冊镊屎。